Titolo della tesi: Modeling Virtual Humans and Scenes
Le caratteristiche del corpo umano come dimensioni, forma e posa sono elementi chiave nella Human-Centric Computer Vision. Esse determinano dove si trovano le persone, cosa fanno e quanto spazio occupano. Questa tesi analizza tre aspetti della computer vision, tutti connessi dalla presenza umana: analisi delle folle, generazione di movimento e interazione umana con la scena. Percepire e contare le persone tra la folla è utile per la sicurezza pubblica e la prevenzione di incidenti. La generazione di movimento aiuta artisti e creatori a migliorare la qualità e la fluidità dei loro contenuti con il minimo sforzo. La Human-Scene Interaction (interazione uomo-scena) permette ai movimenti di interagire realisticamente con l'ambiente, e la valutazione di questo tipo di soluzioni è fondamentale. I metodi attuali in questi settori spesso non riescono a soddisfare i requisiti chiave degli utenti per la quale sono pensati.
Le applicazioni pratiche richiedono la comprensione dello spazio fisico occupato dalle persone, un requisito che il semplice conteggio non riesce a soddisfare. Per affrontare questo problema, introduciamo innanzitutto il nuovo task della Crowd Volume Estimation (stima del volume della folla): predire il volume corporeo umano totale presente in una scena partendo da una singola immagine RGB. Rilasciamo ANTHROPOS-V, un benchmark fotorealistico con supervisione per persona e per parte del corpo, derivato da mesh anatomicamente plausibili e basato su dati antropometrici. L'addestramento su mappe di densità di volume per-parte (per-part volume density maps) estende la supervisione oltre le teste, includendo il toarso e gli altri arti, rendendo le stime robuste all'occlusione e ai cambiamenti di scala. Il modello da noi proposto, STEERER-V, supera le baseline di conteggio e di human mesh recovery nel task di Crowd Volume Estimation e può facilmente trasferire le sue capacità a immagini reali, facendo progredire l'analisi della folla dal semplice conteggio a un'analisi più pratica, basata sul volume, per la sicurezza, la pianificazione e il comfort.
Una sfida centrale nella generazione di movimento è garantire che i risultati siano plausibili e coerenti, non solo eterogenei. Per affrontare il problema della generazione poco plausibile e incontrollata, proponiamo MoDiPO, un metodo per allineare i modelli di diffusione (diffusion models) testo-movimento. MoDiPO adatta la Direct Preference Optimization al dominio del movimento e sostituisce le costose annotazioni umane con il feedback di un'IA. Per ogni prompt, un classificatore (ranker) IA costruisce insiemi di preferenze sui movimenti candidati; allineiamo quindi il generatore verso i movimenti "vincenti", allontanandolo da quelli "perdenti", preservando al contempo la diversità. Con un nuovo dataset composto da coppie movimento-preferenza, chiamato Pick-a-Move, MoDiPO migliora FID, preferenza umana e fedeltà al prompt senza alcun mode collapse, trasformando i modelli di diffusione testo-movimento in generatori di movimento allineati alle preferenze.
Infine, la vera comprensione richiede coerenza contestuale tra movimento, intenzione e ambiente circostante. Per raggiungere questo obiettivo, proponiamo MonSTeR, un modello di retrieval tri-modale che incorpora movimento, scena e testo in uno spazio latente unificato. Questo spazio è addestrato tramite encoder unimodali e cross-modali accoppiati, supportando un retrieval flessibile e omnidirezionale. Questa rappresentazione versatile consente di utilizzare MonSTeR per dei downstream tasks come il posizionamento di oggetti in scena in modalità zero-shot e un motion captioning migliorato e consapevole della scena. MonSTeR funge da potente valutatore per i modelli di Human-Scene Interaction. Validiamo questa capacità dimostrando che i suoi punteggi penalizzano correttamente le interazioni fisicamente implausibili, come quelle derivanti da rotazioni del percorso e collisioni con la scena.
Insieme, questi contributi si spostano dalla capacità a livello di popolazione (volume) alla plausibilità a livello individuale (movimento allineato) fino alla coerenza contestuale (allineamento movimento-scena-testo).