Titolo della tesi: Multimodal Communication for Enhancing Human-Robot Interaction: Virtual Simulations to Real Robots
L'interazione uomo-robot (HRI) è un ambito in rapida evoluzione che si concentra sull'interazione tra esseri umani e robot, esplorando la progettazione, la funzionalità e le implicazioni sociali dei sistemi robotici in diversi contesti. La realtà virtuale (VR) si è affermata come uno strumento prezioso per valutare le soluzioni HRI prima della loro implementazione nel mondo reale, garantendo sicurezza e scalabilità. L'obiettivo principale di questa tesi è presentare un framework di interazione multimodale che integri il riconoscimento vocale e gestuale per migliorare la collaborazione tra esseri umani e robot nell’agricoltura di precisione, in particolare nei vigneti di uva da tavola nell'ambito del progetto CANOPIES, così come in contesti più ampi di logistica interna ed esterna.
Nella robotica collaborativa, in cui la collaborazione uomo-robot (HRC) è essenziale, la comunicazione multimodale tra esseri umani e robot riveste un ruolo cruciale in ogni interazione. Per affrontare questa sfida, basandosi su una categorizzazione del contenuto informativo e sulla classificazione degli atti linguistici nel contesto dell’HRI in ambienti condivisi, sono state progettate pipeline di riconoscimento vocale e gestuale, successivamente integrate nell’architettura HRI per i cobot. L’utilizzo della realtà virtuale (VR) come banco di prova consente di generare set di dati sintetici per l’addestramento di modelli robusti di riconoscimento di gesti e parlato, superando così la scarsità di dati reali nei contesti agricoli. Il framework è stato validato empiricamente attraverso studi utente basati sulla VR ed esperimenti sul campo, dimostrando una maggiore affidabilità della comunicazione in ambienti rumorosi come i vigneti e una riduzione dei tempi di completamento delle attività. In particolare, il sistema enfatizza la modularità, permettendo ai componenti intercambiabili (ad esempio, stimatori di pose e classificatori del parlato) di adattarsi a compiti dinamici. I principali contributi della ricerca includono: (i) una tassonomia standardizzata dei gesti adattata ai flussi di lavoro agricoli, (ii) set di dati open-source generati da fonti sia reali che sintetiche, (iii) una pipeline per la generazione di dati sintetici finalizzata alla stima delle pose e (iv) un’architettura di comunicazione multimodale potenziata da modelli linguistici di grandi dimensioni (LLM) per il ragionamento contestuale, con un utilizzo limitato delle risorse computazionali nella logistica agricola. Collegando simulazioni virtuali e implementazioni nel mondo reale, questa ricerca promuove la collaborazione uomo-robot nell’agricoltura di precisione, offrendo soluzioni interattive per attività di raccolta, potatura e logistica. I risultati evidenziano il potenziale dell’HRI multimodale e delle tecnologie immersive nel favorire la collaborazione tra esseri umani e robot, migliorando al contempo sicurezza ed efficienza in ambienti collaborativi sia interni che esterni.
Keywords: Interazione uomo-robot (HRI), Collaborazione uomo-robot (HRC), Realtà virtuale (VR), Generazione di dati sintetici, Comunicazione multimodale, Riconoscimento dei gesti, Valutazione utente, Modelli linguistici di grandi dimensioni (LLM), Agricoltura di precisione, Robotica collaborativa.