Loading...

Un gruppo di ricerca di CREF, Sony CSL Rome e ISC-CNR, ha sviluppato un sistema di raccomandazione molto semplice e intuitivo, ma estremamente efficace.
Testato su basi dati come Gowalla,  Yelp2018 e  Amazon-Book, ha dato dei risultati sorprendenti, tanto che il sito Paperswithcode ha assegnato al loro algoritmo il rank più alto tra i sistemi di raccomandazione, in particolare su Amazon.Books.

L’articolo è stato pubblicato su  su Knowledge-Based System, qui il link doi

Giambattista Albora( CREF), Andrea Zaccaria: (ISC, CREF) e Lavinia Rossi Mori ( CREF, Sony CSL Rome) hanno sviluppato un sistema di raccomandazione che hanno chiamato SSCF, ovvero Sapling Similarity Collaborative Filtering.

Si tratta di un modello di facile interpretazione, che riesce a fornire raccomandazioni comparabili e in alcuni casi superiori, in termini di qualità, a quelle dei più moderni sistemi di raccomandazione basati su algoritmi di machine learning, che hanno un costo computazionale più alto e sono spesso visti come delle black-box.

Il gruppo di ricerca, che lavora nel campo dei sistemi complessi in ambito economico, era partito dallo sviluppo di un metodo originale, detto Sapling Similarity, per misurare la relatedness, ovvero l’affinità, tra diverse attività economiche, e tra un dato paese e l’export di un prodotto.

Il focus iniziale dell’articolo era su Economic Complexity, e quindi la Sapling Similarity è nata come strumento da applicare sul network bipartito che connette i paesi ai prodotti esportati.” – racconta Giambattista Albora – “Uno dei reviewer dell’articolo tuttavia ci ha consigliato di provare ad usare la Sapling Similarity come base per un sistema di raccomandazione molto più generale, e di testarne l’efficacia su tre dataset comunemente utilizzati dai computer scientist per confrontare la capacità predittiva dei sistemi di raccomandazione”.

I dataset presi in considerazione sono:

Gowalla: Contiene informazioni su utenti e le loro posizioni GPS;

Yelp2018: Contiene informazioni su utenti e le loro attività (ad esempio ristoranti);

Amazon-Book: Contiene informazioni su utenti Amazon e i libri da loro acquistati e valutati     .

Le tecniche utilizzate per definire la Sapling Similarity si ispirano al funzionamento degli alberi decisionali (Decision Tree): una base di partenza comune a vari algoritmi di machine learning.  Il nome Sapling , ovvero alberello, si riferisce al fatto che questa misura può essere costruita e interpretata a partire da un Decision Tree più piccolo. Un punto chiave per il funzionamento delle Random Forest,  uno dei più comuni algoritmi di machine learning basati su Decision Tree, è il concetto di Gini Impurity, una misura dell’imprecisione dell’informazione che troviamo nei nodi.

Per definire la Sapling Similarity, il gruppo di ricerca ha reinterpretato la Gini Impurity utilizzandola per quantificare come l’informazione su quali oggetti piacciono agli utenti si può usare per quantificare la similarità tra di essi.
Una fondamentale differenza rispetto alle misure utilizzate in letteratura è che con la Sapling Similarity si vanno a quantificare non solo i valori positivi, di affinità, ma anche quelli negativi, di distanza.

In Economic Complexity si usano già metodi basati sul calcolo della similarità per fare raccomandazioni,” spiega Andrea Zaccaria, “perché sono relativamente semplici, nonostante sia ben noto in computer science che questi funzionino peggio rispetto a modelli avanzati di machine learning come graph convolutional neural networks e random forest, che dipendono da vari parametri liberi che vanno ottimizzati, spesso con costi computazionali molto elevati . Il nostro sistema di raccomandazione basato su Sapling Similarity, pur mantenendo le caratteristiche di semplicità e interpretabilità, si è rivelato all’altezza dei modelli state-of-the-art basati su algoritmi avanzati e complessi di machine learning. In particolare, nel caso del dataset Amazon-Book la nostra Sapling Similarity si è rivelata superiore a tutti i modelli esistenti diventando di fatto il nuovo state-of-the-art su questo tipo di dato.

La Sapling Similarity rappresenta una novità importante in quanto permette di fare raccomandazioni con una qualità comparabile o addirittura superiore a quella del machine learning, preservando la immediata interpretabilità dei semplici metodi basati sul calcolo della similarità.

Essendo emersa come un metodo più efficace rispetto agli approcci già presenti in letteratura per calcolare la similarità dei nodi in reti bipartite, essa può apportare un contributo significativo a una vasta gamma di studi che richiedono l’analisi della similarità, ed in particolare agli algoritmi di raccomandazione che vengono spesso usati da siti di e-commerce e di intrattenimento.