ALESSANDRO TRAPASSO

Dottore di ricerca

ciclo: XXXVII



Titolo della tesi: Integrating Multi-Agent Planning and Reinforcement Learning through Reward and Exploration Machines

L’integrazione della pianificazione automatica con l’apprendimento per rinforzo (RL) è un obiettivo di lunga data nell'intelligenza artificiale; tuttavia, le soluzioni esistenti incontrano difficoltà quando le ricompense sono non markoviane, quando gli agenti devono agire in modo concorrente o quando lo spazio stato–azione esplode in contesti multi-agente. Questa tesi affronta tali sfide unificando tecniche di pianificazione simbolica con RL basato su modello e rappresentazioni delle ricompense basate su automi. L’idea chiave è consentire ai pianificatori formali di fornire la struttura temporale e di concorrenza di alto livello del compito, mentre i learner guidati dai dati raffinano le politiche di esecuzione online. In questo modo, il lavoro colma i punti di forza complementari della pianificazione, previsione, struttura ed esplicabilità e dell’RL, adattamento a dinamiche sconosciute o stocastiche. Concretamente, la tesi contribuisce con: (i) un formalismo di pianificazione multi-agente con rappresentazione esplicita degli agenti, implementato nella libreria Unified Planning per fornire semantica chiara e compilazione senza soluzione di continuità verso i risolutori di pianificazione multi-agente esistenti; (ii) QR-Max, un algoritmo di RL basato su modello PAC-MDP per Processi Decisionari a Ricompensa Non Markoviana con azioni discrete che sfrutta la fattorizzazione delle reward machine; (iii) un’estensione di QR-Max a domini cooperativi multi-agente che condivide le dinamiche apprese mantenendo separati i modelli di ricompensa individuali; (iv) MARL-RM, un framework che converte automaticamente piani multi-agente a ordine parziale in reward machine, iniettando così vincoli di concorrenza e sincronizzazione direttamente nell’addestramento decentralizzato; (v) una gerarchia di astrazioni di stato, heuristic shaping e una Global Exploration Machine che rendono dense le ricompense sparse e orchestrano un’esplorazione sicura e coordinata.

Produzione scientifica

11573/1738691 - 2025 - Unified Planning: Modeling, manipulating and solving AI planning problems in Python
Micheli, A.; Bit-Monnot, A.; Roger, G.; Scala, E.; Valentini, A.; Framba, L.; Rovetta, A.; Trapasso, A.; Bonassi, L.; Gerevini, A. E.; Iocchi, L.; Ingrand, F.; Kockemann, U.; Patrizi, F.; Saetti, A.; Serina, I.; Stock, S. - 01a Articolo in rivista
rivista: SOFTWAREX ([Amsterdam] : Elsevier B.V.) pp. - - issn: 2352-7110 - wos: WOS:001391993900001 (4) - scopus: 2-s2.0-85212576537 (8)

11573/1685988 - 2023 - A formalization of multi-agent planning with explicit agent representation
Trapasso, Alessandro; Santilli, Sofia; Iocchi, Luca; Patrizi, Fabio - 04b Atto di convegno in volume
congresso: 38th ACM/SIGAPP Symposium on Applied Computing (Tallinn, Estonia)
libro: SAC '23: Proceedings of the 38th ACM/SIGAPP Symposium on Applied Computing - (9781450395175)

© Università degli Studi di Roma "La Sapienza" - Piazzale Aldo Moro 5, 00185 Roma