Titolo della tesi: Generative Models for Human Motion: From Rule-Based Crowds to Scene-Aware Alignment
Negli ultimi anni, i modelli generativi si sono rapidamente evoluti in uno dei paradigmi più rivoluzionari del machine learning, ridefinendo il modo in cui i dati vengono sintetizzati in diversi domini, come testo, immagini, audio e animazione umana. All’interno di questo contesto più ampio, la generazione di movimento umano è emersa come una delle applicazioni più interessanti, offrendo la capacità di produrre movimenti diversi, semanticamente significativi e consapevoli del contesto, a partire da segnali di condizionamento compatti e descrittivi come prompt testuali, layout di scena o traiettorie passate. Questa capacità abilita un’ampia gamma di applicazioni, che spaziano dall’animazione, la realtà virtuale e il gaming, fino alla robotica, alla riabilitazione e alla simulazione multi-agente per la sintesi di dati.
Questa tesi indaga la generazione di movimento attraverso differenti fasi metodologiche, da pipeline simbolico-algoritmiche alle strategie neurali multimodali, cercando di risolvere le sfide emergenti nel campo. In primo luogo, il movimento è pluri-dimensionale e complesso dal punto di vista temporale e computazionale, rendendo difficile bilanciare realismo e diversità, specialmente quando si scala a folle numerose. In secondo luogo, i modelli generativi spesso trattano i loro spazi latenti come scatole nere, campionando liberamente da regioni che possono produrre risultati implausibili; qui esploriamo sia come evitare tali regioni sia come riutilizzarle come segnali utili. In terzo luogo, quando si condiziona il modello tramite informazioni aggiuntive come le scene, i metodi esistenti mancano di metriche robuste per valutare la coerenza del movimento rispetto all’ambiente, ostacolando allineamento e affidabilità. Per affrontare queste problematiche, questa tesi passa da pipeline simboliche scalabili ai diffusion models, introducendo strategie di allineamento che guidano la generazione verso risultati preferiti e sviluppando rappresentazioni latenti unificate che consentono di stimare qualità e coerenza tra testo, movimento e scene.
In particolare, iniziamo con ANTHROPOS-V, dove un sistema scalabile basato su regole sfrutta un game engine per generare in modo efficiente grandi folle sintetiche, così da ottenere un dataset annotato utile per task a valle. Passiamo quindi ai diffusion models con MoCoDAD, utilizzando la generazione stocastica di movimento per la sintesi, ma anche sfruttando, come indicatori di anomalie, generazioni di bassa qualità, probabilmente provenienti da regioni scarsamente informative dello spazio latente. Sulla base di ciò, MoDiPO introduce strategie di allineamento tramite Direct Preference Optimization, guidando i modelli generativi verso output preferenziali grazie a feedback artificiali e riducendo la dipendenza da costose annotazioni umane. Infine, MonSTeR propone uno spazio latente unificato che esegue l'embedding di movimento, testo e scena, abilitando non solo il retrieval cross-modale e la valutazione dei campioni generati, ma anche importanti downstream task.
Considerando i modelli generativi congiuntamente alla loro valutazione e allineamento, questa tesi mostra non solo come i movimenti possano essere generati, ma anche come possano diventare interpretabili, misurabili e utili per applicazioni pratiche.