LUIGI SIGILLO

Dottore di ricerca

ciclo: XXXVII


relatore: prof. Danilo Comminiello

Titolo della tesi: High-Resolution Synthesis Across Domains: A Wavelet-Driven Approach to Generative Modeling

Il Deep generative modeling sta rivoluzionando la sintesi dei dati visivi, dalle applicazioni nell'industria creativa agli strumenti per la scoperta scientifica in campi come l'imaging medicale e il remote sensing. Nella sintesi di immagini, i modelli di deep learning come Variational Autoencoders (VAEs), Generative Adversarial Networks (GANs) e Denoising Diffusion Probabilistic Models (DDPMs) aiutano a creare contenuti visivi nuovi, realistici e controllabili. In applicazioni specializzate, questi modelli possono aumentare dati scarsi per l'analisi medica o migliorare l'imaging per attività di remote sensing. Una sfida cruciale nell'applicazione del deep learning alla sintesi di immagini è superare i persistenti compromessi tra risoluzione, fedeltà ed efficienza computazionale. Sebbene i modelli generativi abbiano fatto progressi significativi, spesso faticano nella generalizzazione attraverso domini e modalità di dati diverse. I metodi convenzionali tendono a scalare male a risoluzioni ultra-elevate (UHR), portando ad artefatti come strutture ripetute o texture sfocate. Inoltre, questi modelli spesso applicano processi di affinamento uniformi in tutte le regioni spaziali, ignorando le variazioni di frequenza locali e non riuscendo ad allocare in modo ottimale la supervisione ad aree di diversa complessità visiva. Le trasformate wavelet, in particolare le Discrete Wavelet Transforms (DWT) e la loro estensione ipercomplessa, Quaternion Wavelet Transforms (QWT), hanno mostrato risultati promettenti nell'analisi di segnali multi-scala. Questi metodi operano decomponendo le immagini in una gerarchia di sottobande di frequenza, catturando sia la struttura globale che i dettagli a grana fine. Questa formulazione conferisce ai modelli la capacità di sfruttare rappresentazioni sparse e la riduzione della dimensionalità. Tuttavia, il loro potenziale per rimodellare la rappresentazione delle feature, informare il conditioning e adattare gli obiettivi di training in modo model-agnostic non era stato completamente sfruttato. In questa tesi, esploriamo questo concetto e sfruttiamo il paradigma di apprendimento basato su wavelet per superare le suddette carenze dei modelli generativi tradizionali. Sfruttiamo l'analisi multi-scala per rendere i modelli intrinsecamente consapevoli delle informazioni di frequenza e spaziali. Per prima cosa, progettiamo una GAN consapevole della struttura, StawGAN, studiata per la traduzione di immagini da infrarossi a RGB cross-domain. Basandoci su questa fondazione, sviluppiamo modelli di diffusione specializzati per task specifici di dominio, inclusa la super-resolution di immagini marittime ad alta fedeltà e l'efficiente sintesi EEG-to-image. Andando oltre questi approcci generativi convenzionali, introduciamo una serie di architetture basate su wavelet che incorporano esplicitamente rappresentazioni di segnale multi-scala. Tra queste c'è QUAVE, un nuovo framework che sfrutta le quaternion wavelet transforms (QWT) per migliorare l'estrazione delle feature e la generalizzazione nell'imaging medicale. Ampliando queste intuizioni, siamo anche pionieri di diversi modelli di super-resolution basati su wavelet: un modello di diffusione condizionato da QWT, un'architettura consapevole di metadati e wavelet per immagini satellitari, e un framework ibrido altamente efficiente, Wavelet Diffusion GAN, che combina i punti di forza delle GAN e dei processi di diffusione. Infine, affrontiamo un'estensione diretta di questi lavori, concentrandoci sulla sintesi ad alta fedeltà. Culminiamo la nostra indagine con un framework Latent Wavelet Diffusion (LWD), una soluzione generale e leggera che consente ai modelli di diffusione latente e di flow matching esistenti di ottenere la sintesi UHR (fino a 4K) senza modifiche architettoniche o costi di inferenza aggiuntivi. Attraverso esperimenti estesi su vari task generativi che coinvolgono diversi domini e modalità di dati, abbiamo esplorato a fondo il paradigma basato su wavelet, affrontando al contempo le sfide specifiche dello scenario in termini di fedeltà, efficienza e generalizzazione, facendo progredire la ricerca in questo campo.

Produzione scientifica

11573/1741098 - 2025 - Gramian multimodal representation learning and alignment
Cicchetti, Giordano; Grassucci, Eleonora; Sigillo, Luigi; Comminiello, Danilo - 04b Atto di convegno in volume
congresso: International Conference on Learning Representations (ICLR 2025) (Singapore; Republic of Singapore)
libro: Proceedings of International Conference on Learning Representations (ICLR 2025) - ()

11573/1742870 - 2025 - Guess What I Think: Streamlined EEG-to-Image Generation with Latent Diffusion Models
Lopez, Eleonora; Sigillo, Luigi; Colonnese, Federica; Panella, Massimo; Comminiello, Danilo - 04b Atto di convegno in volume
congresso: 2025 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP 2025) (Hyderabad; India)
libro: Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) - (979-8-3503-6874-1; 979-8-3503-6875-8)

11573/1739492 - 2025 - Generalizing medical image representations via quaternion wavelet networks
Sigillo, Luigi; Grassucci, Eleonora; Uncini, Aurelio; Comminiello, Danilo - 01a Articolo in rivista
rivista: NEUROCOMPUTING (Elsevier BV:PO Box 211, 1000 AE Amsterdam Netherlands:011 31 20 4853757, 011 31 20 4853642, 011 31 20 4853641, EMAIL: nlinfo-f@elsevier.nl, INTERNET: http://www.elsevier.nl, Fax: 011 31 20 4853598) pp. - - issn: 0925-2312 - wos: WOS:001469482100001 (0) - scopus: 2-s2.0-105002227923 (0)

11573/1723593 - 2024 - Ship in sight: diffusion models for ship-image super resolution
Sigillo, L.; Gramaccioni, R. F.; Nicolosi, A.; Comminiello, D. - 04b Atto di convegno in volume
congresso: 2024 International Joint Conference on Neural Networks, IJCNN 2024 (Yokohama; Japan)
libro: Proceedings of the International Joint Conference on Neural Networks - (9798350359312)

11573/1693469 - 2023 - GROUSE. A task and model agnostic wavelet-driven framework for medical imaging
Grassucci, Eleonora; Sigillo, Luigi; Uncini, Aurelio; Comminiello, Danilo - 01a Articolo in rivista
rivista: IEEE SIGNAL PROCESSING LETTERS (IEEE / Institute of Electrical and Electronics Engineers Incorporated:445 Hoes Lane:Piscataway, NJ 08854:(800)701-4333, (732)981-0060, EMAIL: subscription-service@ieee.org, INTERNET: http://www.ieee.org, Fax: (732)981-9667) pp. 1397-1401 - issn: 1070-9908 - wos: WOS:001086210700001 (5) - scopus: 2-s2.0-85174843341 (7)

11573/1693480 - 2023 - StawGAN: Structural-Aware Generative Adversarial Networks for Infrared Image Translation
Sigillo, L.; Grassucci, E.; Comminiello, D. - 04b Atto di convegno in volume
congresso: 56th IEEE International Symposium on Circuits and Systems, ISCAS 2023 (Monterey, USA)
libro: Proceedings - IEEE International Symposium on Circuits and Systems - (978-1-6654-5109-3)

11573/1693467 - 2023 - Sailing the SeaFormer. A transformer-based model for vessel route forecasting
Sigillo, L.; Marzilli, A.; Moretti, D.; Grassucci, E.; Greco, C.; Comminiello, D. - 04b Atto di convegno in volume
congresso: 33rd IEEE International Workshop on Machine Learning for Signal Processing, MLSP 2023 (Rome; Italy)
libro: IEEE International Workshop on Machine Learning for Signal Processing, MLSP - (979-8-3503-2411-2)

11573/1669173 - 2022 - Hypercomplex image- to- image translation
Grassucci, Eleonora; Sigillo, Luigi; Uncini, Aurelio; Comminiello, Danilo - 04b Atto di convegno in volume
congresso: 2022 International Joint Conference on Neural Networks, IJCNN 2022 (Padua; Italy)
libro: Proceedings of the International Joint Conference on Neural Networks - (978-1-7281-8671-9)

© Università degli Studi di Roma "La Sapienza" - Piazzale Aldo Moro 5, 00185 Roma