Loading...
Cerca nel sito

Un approccio di meta-validazione nelle proiezioni di reti bipartite

Un gruppo di ricercatori del Centro Fermi, Tor Vergata, Sapienza e CNR, ha proposto un approccio di meta-validazione statistica delle relazioni indirette nelle reti bipartite, che permette di identificare soglie di significatività tali da massimizzare il segnale e ottenere risultati indipendenti dal modo in cui è formulata l’ipotesi nulla. Nell’articolo pubblicato su Communication Physics, la procedura viene illustrata usando i dati sulla produzione scientifica nei vari paesi a livello mondiale.

Nei sistemi complessi le reti bipartite sono strumenti utili per modellizzare le relazioni fra due insiemi. Un esempio di rete bipartita in campo economico è una rete commerciale in cui i paesi sono connessi ai prodotti che esportano. Le interazioni indirette tra due elementi che appartengono allo stesso insieme possono essere misurate attraverso le connessioni in comune con gli elementi dell’altro insieme, dette co-occorrenze. Rimanendo in campo economico, le co-occorrenze misurano il grado di “somiglianza” (in termini di “capabilities” richieste) tra due attività produttive.

Il problema principale nell’analisi delle co-occorrenze (dette anche proiezioni di reti bipartite) è identificare le relazioni significative. Infatti ,ad esempio, due prodotti esportati dagli Stati Uniti non sono necessariamente simili, dato l’alto livello di diversificazione del paese. L’approccio standard è la validazione statistica (o test d’ipotesi) attraverso un appropriato modello nullo di rete – tipicamente, il configuration model (CM). Esistono però in letteratura diverse formulazioni del CM, in base a come vengono imposti i vincoli e per quali insiemi di nodi, che portano a una diversificazione di risultati .

“Abbiamo fatto un confronto tra tutti i modelli nulli sullo stesso set di dati” – spiega Giulio Cimini ( Tor Vergata, CREF) – “prendendo in esame la produzione scientifica nei vari paesi a livello mondiale, e abbiamo visto che a parità di significatività statistica i modelli portano a risultati molto diversi.”

In un articolo pubblicato su Communication Physics, Giulio Cimini insieme ad Andrea Zaccaria (CNR, CREF), Alessandro Carra e Luca Didomenicantonio (Sapienza Università di Roma), hanno proposto un sistema di meta-validazione che permette di riconciliare i risultati della validazione.

“ Abbiamo quindi fatto un tuning dei parametri di ogni modello per ottenere dei risultati che fossero in accordo” – spiega Cimini  – “ e abbiamo visto che per un’opportuna scelta di questi parametri non solo si risolve l’ambiguità ma il segnale viene massimizzato”.

Come obiettivo a lungo termine i ricercatori si propongono di investigare se l’approccio di meta validazione messo a punto permette non solo di catturare le proprietà strutturali più rilevanti della proiezione di rete, ma anche di prevederne una possibile evoluzione basata su quali connessioni possono apparire in futuro. Questo potrebbe essere importante in vari contesti, dalla messa a punto di modelli di sviluppo in sistemi economici e di innovazione alla previsione dei salti di specie di ceppi virali.

 

rete bipartita paesi_scienza

 

 

 

Illustrazione schematica della procedura di validazione sulla rete bipartita M di campi scientifici e paesi del mondo. Questa rete collega i paesi con i campi scientifici in cui questi hanno un vantaggio comparato. Da questa struttura bipartita creiamo una rete proiettata monopartita C di campi scientifici, i cui collegamenti rappresentano le co-occorrenze di coppie di campi nei vari paesi. Infine valutiamo la significatività statistica di ogni co-occorrenza osservata rispetto al modello nullo: posizioniamo un collegamento sulla rete convalidata solo quando il p-value è inferiore alla soglia di significatività p*. Questa procedura è generale e si applica a qualsiasi rete bipartita.

Immagine di copertina

Rete bipartita che mostra le co-occorenze tra specie di mammiferi host di virus e tipi di virus. I link indicano se due specie possono essere infettate dagli stessi virus