STEFANO D'ARRIGO

Dottore di ricerca

ciclo: XXXVIII


supervisore: Fabio Galasso

Titolo della tesi: Video Anomaly Detection: Ensuring the Safety of Human Actions and Street Scenes

L'Intelligenza Artificiale, in particolare la Computer Vision, possiede un immenso potenziale per migliorare la sicurezza umana e promuovere la transizione digitale della società. Questa tesi affronta le sfide dello sviluppo di un'IA robusta ed efficiente per compiti complessi e centrati sull'uomo, che spaziano dal monitoraggio del comportamento alle scene di guida. In particolare, vengono analizzati il task di Video Anomaly Detection e le sue applicazioni nel monitoraggio delle azioni umane, nella stima del volume di una folla e nel rilevamento di oggetti anomali in scene stradali. Per il monitoraggio del comportamento umano, vengono proposti due metodi innovativi. COSKAD dimostra l'impatto della geometria dello spazio latente sull'apprendimento delle rappresentazioni delle azioni umane attese, provando che vettori a bassa dimensionalità possono codificare efficacemente complesse dipendenze spazio-temporali. MoCoDAD sviluppa ulteriormente questo concetto stimando la distribuzione latente del movimento umano, sfruttando la variabilità intrinseca di un'azione per distinguere in modo robusto il comportamento normale da quello anomalo. Passando dalle dinamiche individuali a quelle di gruppo, STEERER-V introduce un metodo per stimare con precisione l'occupazione dello spazio da parte di una folla e, per approssimazione, il suo peso, direttamente da immagini RGB 2D. Questo approccio evita passaggi intermedi computazionalmente costosi ed è accompagnato da ANTHROPOS-V, un nuovo benchmark per stimolare ulteriore ricerca in questo settore. Infine, per migliorare l'affidabilità dei sistemi di guida autonoma, CMS-OoD presenta una tecnica di cross-modal steering. Essa adatta efficientemente un Vision-Language Model per condizionare un modello di segmentazione semantica, migliorando significativamente la capacità di rilevamento di oggetti anomali. In più, questo metodo genera spiegazioni testuali pertinenti al contesto della scena osservata, promuovendo un'interazione uomo-veicolo più sicura e interpretabile. In definitiva, questi contributi dimostrano che attraverso prior geometrici, assunzioni distribuzionali o condizionamento cross-modal, è possibile sviluppare sistemi di IA più robusti, efficienti e meglio allineati con le esigenze umane in ambienti complessi.

Produzione scientifica

11573/1741969 - 2025 - ANTHROPOS-V: Benchmarking the Novel Task of Crowd Volume Estimation
Collorone, Luca; D'arrigo, Stefano; Pappa, Massimiliano; D'amely Di Melendugno, Guido M.; Ficarra, Giovanni; Galasso, Fabio - 04b Atto di convegno in volume
congresso: 2025 IEEE/CVF Winter Conference on Applications of Computer Vision, WACV 2025 (Tucson; Usa (AZ))
libro: Proceedings of the 2025 IEEE Winter Conference on Applications of Computer Vision, WACV 2025 - (979-8-3315-1083-1)

11573/1757985 - 2025 - HierVision: Standardized and Reproducible Hierarchical Sources for Vision Datasets
Kasarla, Tejaswi; Hulikal Rooparaghunath, Ruthu; D'arrigo, Stefano; Mago, Gowreesh; Jha, Abhishek; Ayoughi, Melika; Shreya Mishra, Swasti; Manzano Rodríguez, Ana; Long, Teng; Ghadimi Atigh, Mina; Van Spengler, Max; Mettes, Pascal - 04b Atto di convegno in volume
congresso: IEEE International Conference on Computer Vision (Honolulu; Hawaii, USA)
libro: 2025 IEEE/CVF International Conference on Computer Vision Workshops (ICCVW) - (9798331589882)

11573/1726559 - 2024 - Contracting skeletal kinematics for human-related video anomaly detection
Flaborea, Alessandro; D'amely Di Melendugno, Guido Maria; D'arrigo, Stefano; Sterpa, Marco Aurelio; Sampieri, Alessio; Galasso, Fabio - 01a Articolo in rivista
rivista: PATTERN RECOGNITION (Elsevier Science Limited:Oxford Fulfillment Center, PO Box 800, Kidlington Oxford OX5 1DX United Kingdom:011 44 1865 843000, 011 44 1865 843699, EMAIL: asianfo@elsevier.com, tcb@elsevier.co.UK, INTERNET: http://www.elsevier.com, http://www.elsevier.com/locate/shpsa/, Fax: 011 44 1865 843010) pp. - - issn: 0031-3203 - wos: WOS:001291491800001 (18) - scopus: 2-s2.0-85200884155 (21)

11573/1699647 - 2023 - Multimodal Motion Conditioned Diffusion Model for Skeleton-based Video Anomaly Detection
Flaborea, Alessandro; Collorone, Luca; D'amely Di Melendugno, Guido Maria; D'arrigo, Stefano; Prenkaj, Bardh; Galasso, Fabio - 04b Atto di convegno in volume
congresso: IEEE/CVF International Conference on Computer Vision 2023 (Paris, France)
libro: Proceedings of the IEEE/CVF International Conference on Computer Vision - (979-8-3503-0718-4)

© Università degli Studi di Roma "La Sapienza" - Piazzale Aldo Moro 5, 00185 Roma