Loading...
Cerca nel sito

I dati sono il nuovo petrolio: bisogna trovare metodi per sfruttarli al meglio, come l’Economic Complexity

L’immenso accumulo di dati è un fenomeno nuovo che induce molte considerazioni, rappresenta un grande potenziale e talvolta porta ad aspettative mitiche. Qui viene mostrato un esempio specifico di analisi dei “big data”, il caso dell’Economic Complexity. Si tratta di una nuova prospettiva sull’economia fondamentale, la quale adotta un approccio dal basso verso l’alto. L’approccio conferma alcune aspettative sui big data ma ne smentisce anche altre. Per alcuni professionisti la disponibilità big data è un problema riconducibile alla memoria del computer e alla velocità di accesso. Una volta che il set di dati è abbastanza grande, contiene tutte le informazioni possibili di cui si potrebbe aver bisogno e parlerà da solo. Questo in realtà non è il caso in generale, ma fondamentalmente può funzionare in alcuni casi specifici. Uno di questi esempi è l’analisi della disuguaglianza economica presentata da Thomas Piketty, che ha attirato così tanta attenzione tra gli economisti e i responsabili politici. In questo caso il problema è calcolare un unico rapporto, cioè il livello di disuguaglianza. Il lavoro da lui svolto consiste nell’accumulo, pulizia e controllo dei dati disponibili. Una volta completati questi passaggi, il calcolo è davvero semplice. Il risultato è comunque notevole rispetto all’economia mainstream, e si basa su un cambiamento di atteggiamento dell’analista: Piketty parte dai dati e poi scopre correlazioni interessanti.
In generale, però, quando si analizzano fenomeni complessi, le cose sono meno dirette, come si può mostrare con l’esempio specifico dell’Economic Complexity. L’analisi standard della competitività dei paesi considera una serie di elementi come l’istruzione, i trasporti, la produzione, l’esportazione, l’inquinamento ecc. Attraverso un’adeguata ponderazione di questi elementi si arriva ad un punteggio globale per il paese. Alla fine, questa analisi richiede la scelta di più di 100 parametri per combinare tutti questi elementi. Chiaramente questo è un compito soggettivo che non può considerare adeguatamente tutte le possibili interazioni tra gli elementi coinvolti. Inoltre, l’analisi viene effettuata individualmente per ogni paese e solo alla fine vengono confrontati paesi diversi.
L’Economic Complexity comporta un cambio di prospettiva e va oltre l’analisi individuale. Tutti i paesi sono considerati come nodi di una rete integrata e i collegamenti sono dati dai prodotti che producono. In pratica si considera la rete bipartita di paesi e prodotti. In linea di principio abbiamo accesso a più informazioni oltre ai prodotti, ma il problema è che questi dati non sono indipendenti l’uno dall’altro: quindi, considerarli tutti porta solo a confusione o ad un’interpretazione intrinsecamente soggettiva, in quanto parametri e pesi sono assegnati arbitrariamente. Con l’Economic Complexity si è cercato di andare oltre questa approccio e fare un’analisi che sia scientifica, ovvero che fornisca un risultato unico, non dipendente da alcuna interpretazione soggettiva. Questo porta ad una selezione tra i dati e addirittura ad una loro riduzione. Solo un sottoinsieme selezionato è veramente utile; l’aggiunta di più dati porta solo a confusione. Ciò dimostra che un problema di Big Data spesso inizia con piccoli dati. È necessario selezionare un metodo di analisi e scegliere le domande e i problemi da considerare: i dati non forniscono queste cose da soli. In questo caso è necessario un algoritmo simile nello spirito al Page Rank di Google, sebbene in economia l’algoritmo di Google non sia appropriato e abbiamo dovuto, quindi, cercarne uno diverso. Questa è una parte concettuale del lavoro che, tuttavia, necessita di dati appropriati per essere testata. Una volta superata la sfida concettuale, la metodologia inizia a produrre buoni risultati e l’approccio dimostra il suo valore pratico. Tuttavia, con l’aumentare dell’ambizione, i limiti del set di dati originale diventano evidenti. Si apre così la ricerca di molti più dati ma in una direzione specifica individuata dal metodo di analisi e dal nuovo algoritmo.
Ora il problema può evolversi a livello di Big Data aggiungendo sempre più informazioni sui paesi e sui prodotti ma nella nuova prospettiva. Una naturale evoluzione è quindi quella di passare all’analisi delle singole aziende (oltre che dei paesi). Le aziende sono specializzate in termini di prodotti, quindi una matrice di aziende e prodotti porterebbe a un insieme molto limitato di informazioni e non sarebbe particolarmente utile. Bisogna studiare quali sono i dati adatti alle aziende e quali sono il nuovo criterio e il nuovo algoritmo per estrarre informazioni utili da questi dati: questa è la frontiera di oggi. Non appena si ha una nuova idea e un nuovo algoritmo, ci si rende subito conto che i dati disponibili (originariamente raccolti per scopi diversi) non sono ottimali e si desiderano più dati di un nuovo tipo. Non esiste un set di dati infinito che si possa raccogliere a priori e che sia adatto ad ogni problema, così come non esiste un unico algoritmo adatto ad ogni situazione. Il passo che è stato indicato corrisponde a un passaggio dall’analisi del singolo paese con 100 parametri ad un’analisi algoritmica di rete con zero parametri. Quindi si può pensare che la chiave per l’analisi dei Big Data sia lo studio delle reti complesse. In effetti esiste una vasta letteratura principalmente sulla caratterizzazione statistica delle proprietà delle reti complesse, ma è davvero ciò di cui abbiamo bisogno?
L’esempio del Page Rank di Google, piuttosto, indicherebbe una direzione diversa. Indipendentemente dalle caratteristiche e dalla struttura specifiche della rete, questo algoritmo riesce a definire la corretta gerarchia dei siti web. D’altra parte, in assenza di un tale algoritmo, la classificazione delle proprietà specifiche della rete non porterebbe a molte informazioni utili. La situazione è in realtà simile per il nostro algoritmo per paesi e prodotti. Con gli studi standard della rete complessa si può dimostrare, ad esempio, che nell’ultimo decennio il cluster economico intorno alla Cina è diventato più grande di quello intorno al Giappone. Differentemente, con l’algoritmo appropriato si possono ottenere numerosi risultati come la classifica dei paesi e dei prodotti, l’identificazione del potenziale nascosto e la previsione della crescita del PIL, ecc. La scienza dei dati nel senso che abbiamo indicato in questo articolo può effettivamente produrre una rivoluzione nella nostra conoscenza in molti campi. Ma per ogni area dovrebbe esserci una chiara comprensione di quali siano le informazioni rilevanti e di come estrarle dai dati. Questa non può essere una ricetta unica per tutti i campi di analisi: va invece studiata e adattata a ogni problema.