RAFFAELE MARIOSA

Dottore di ricerca

ciclo: XXXVII


supervisore: Laura Palagi

Titolo della tesi: Use of Machine Learning and Data Mining Techniques to Predict the Onset of Secondary Progressive Multiple Sclerosis

La sclerosi multipla (SM) è una delle malattie neurologiche che sono state maggiormente studiate utilizzando tecniche di machine learning (ML). Tuttavia, gli approcci basati sul ML non sono ancora stati adottati su larga scala nella pratica clinica quotidiana. Con il progredire della ricerca sulle applicazioni del ML alla SM nell'era dei big data, la disponibilità di dati longitudinali e multimodali è sempre maggiore. Tuttavia, nonostante questi dataset siano fondamentali per l'addestramento e la validazione dei modelli, portano con sé sfide particolarmente significative, tra cui: gestire i valori mancanti ed il forte sbilanciamento tra le classi, gestire congiuntamente dati di diverso tipo (multimodali), garantire l'interpretabilità dei modelli sviluppati per favorirne la diffusione in ambito clinico, etc. Infatti, i modelli di ML di più comune utilizzo, come le Deep Neural Network e gli ensemble più complessi, presentano scarsa interpretabilità e sono spesso considerati delle “black-box”. Questa mancanza di trasparenza crea riluttanza tra i medici, in particolare quando devono essere prese decisioni ad alto rischio, come ad esempio l'intensificazione del trattamento farmacologico sulla base delle previsioni di progressione della malattia. Pertanto, resta un forte gap tra il mondo clinico e quello del ML. Sebbene i cosiddetti approcci ottimi (e.g., gli alberi decisionali ottimi) siano capaci di produrre modelli altamente interpretabili, essi sono molto onerosi dal punto di vista computazionale, riuscendo a gestire solo dataset relativamente piccoli. Inoltre, per quanto ne sappiamo, nella letteratura non esiste una tecnica di undersampling universalmente efficace su tutti i dataset, in grado di ridurre significativamente le dimensioni dei dati e minimizzando la perdita di informazioni. Il contributo principale di questa tesi è lo sviluppo di una pipeline di Auto-ML, particolarmente adatta a scenari di big-data, che affronta in modo efficace tutte le fasi del processo di modellizzazione, dai dati grezzi alle previsioni finali. Nello specifico, sfruttando i dati del Registro Italiano della Sclerosi Multipla (contenente i dati relativi a circa 80.000 pazienti e centinaia di migliaia di visite cliniche), abbiamo esplorato metodi appartenenti allo stato dell’arte e sviluppato tecniche nuove che ci hanno permesso di ottenere un classificatore interpretabile e le cui decisioni possano essere facilmente comprese, sia dai medici che dai pazienti. La pipeline si basa su un nuovo approccio di undersampling basato sulle Support Vector Machines (SVM), che sfrutta la selezione dei vettori di supporto liberi per ridurre la dimensione del dataset in modo mirato e intelligente, riducendo al minimo la perdita di informazioni. L'idea di fondo è che i vettori di supporto liberi, consentendo alle SVM di raggiungere prestazioni paragonabili a quelle degli ensemble più complessi, costituiscano un insieme minimale di campioni significativi. Questa riduzione dei dati abilita all’utilizzo delle tecniche ottime, permettendo di generare classificatori interpretabili e performanti. I risultati ottenuti dimostrano la validità dell'approccio proposto.

© Università degli Studi di Roma "La Sapienza" - Piazzale Aldo Moro 5, 00185 Roma