This Ph.D. thesis studies applications of Deep Learning and Deep Reinforcement Learning in the two main topics of robotics: perception and control. Perception is the field of robotics that deals with the robot’s ability to acquire, interpret, and understand data from its surrounding environment. This capability is essential for enabling robots to interact effectively with the real world, facilitating tasks such as navigation, object recognition, obstacle avoidance, and context-aware decision-making. Perception relies on a diverse set of sensors that robots use to collect information, including RGB cameras, depth cameras, proximity sensors like LiDAR and millimeter wave (mmWave) radar, inertial sensors for motion and orientation measurements, and environmental sensors that capture data such as temperature, pressure, or sound. These sensors allow robots to create representations of their environment, such as 3D maps or segmented images, which support operations like motion planning, object manipulation, and human-robot collaboration. In the recent years, the integration of deep learning has revolutionized robotic perception. Traditional methods, based on explicitly programmed algorithms for processing sensory data, have shown limitations in complex or dynamic environments. Deep learning has addressed these limitations through its ability to learn hierarchical representations directly from raw data, generalize to unseen scenarios, and process multi-modal information from diverse sensor types. Advanced models, such as deep neural networks and transformers, have been applied to tasks like object and scene recognition, semantic segmentation, depth estimation, and pose estimation, enabling robots to interpret their surroundings with greater accuracy and efficiency. The adoption of deep learning in robotic perception has led to a profound integration between advanced hardware and intelligent algorithms. This synergy allows autonomous systems to navigate unfamiliar environments, perform precise manipulations of objects identified through computer vision, and interact with humans by interpreting gestures, voice commands, and behaviours. However, implementing deep learning models in robotics also introduces challenges, such as the need for real-time operation on resource-constrained hardware and the reliance on high-quality datasets for model training. The first part of this thesis proposes an approach, based on Conditional Generative Adversarial Network (cGAN), to take advantage of the robustness of mmWave sensors to environmental condition, occlusions, and obstacles and produce readable information in the form of depth images. In particular, the proposed techniques maps sparse and noisy mmWave point clouds into depth images to leverage the usability of such data format and all the related techniques. The approach is validated on a dataset collected using a mobile robot equipped with mmWave sensor and a depth camera which serves as ground truth for the training. A detailed study is then carried out on mmWave point clouds. Using a motion capture system for precise pose estimation, a dataset comprising 12 million points is gathered in indoor scenarios. Each point in the dataset is classified into one of two categories: true points or noise points. The use of the motion capture system ensures sub-millimetric accuracy for the labelling process. The dataset also provides the distance of the closest obstacle to each point, enabling the use of regression techniques for denosing purposes. Then, following this work, a benchmark of the state of the art techniques for point cloud elaboration is conducted on the task of mmWave point cloud denoising. The poor performance on the task, stemming from the peculiarities of such data, highlight a gap in the state of the art of point cloud processing. On this basis, a graph-based transformer architecture is proposed to elaborate such point clouds and effectively identify noise points and true points. The proposed technique analyses point clouds both from a temporal and geometrical point of view, highlighting how the sparsity of such data, which impairs the state of the art models, is the key resource in the proposed technique to effectively denoise the data. The last chapter of this part deals with Unmanned Aerial Vehicles (UAVs). Commonly denoted as drones, this robots are being increasingly adopted in many applications such as surveillance, disaster response, environmental monitoring, live drone broadcasting, etc. This chapter introduces APEIRON, a rich multimodal aerial dataset collecting perception data from a stereocamera and an event based camera sensor, along with measurements ofwireless network links obtained using an LTE module. This dataset effectively bridges many robotics fields, from perception, to telecommunication and control, providing network data, such as bandwidth maps, raw sensors data linked to GPS coordinates and low level data from the drone, creating the basis for applications at the intersection of such fields. Control is a fundamental field of robotics, encompassing the techniques and strategies that enable robots to perform tasks by regulating their movements and interactions with the environment. At its core, control ensures that a robot follows desired trajectories and executes tasks accurately, whether it is navigating through a complex environment, manipulating objects, or coordinating with other robots. Traditional control methods, such as PID controllers and model-based approaches, rely heavily on accurate mathematical models of the robot’s dynamics and the environment. While effective in many scenarios, these methods can struggle with the complexity, unpredictability, and variability of real-world applications. Recent advances in machine learning, particularly in Reinforcement Learning (RL), have revolu- tionized the field of robotic control. Deep reinforcement learning (DRL) integrates the strengths of deep neural networks and RL, enabling robots to learn optimal control policies directly from raw sensor data or high-dimensional state spaces. By interacting with the environment, a robot trained with DRL can iteratively improve its performance through trial and error, discovering control strategies that maximize a given reward signal. This has proven particularly effective in tasks like dynamic manipulation, complex locomotion, and multi-agent coordination, where designing explicit control strategies is challenging. However, the application of DRL in robotics is not without challenges. Safety is a critical aspect, especially in real-world scenarios where failures can lead to equipment damage, safety risks, or undesirable outcomes. This has led to the emergence of Safe Reinforcement Learning (SRL), a subfield of RL focused on ensuring safety during the learning and deployment phases. SRL introduces constraints and risk-aware mechanisms into the learning process, allowing robots to explore and optimize their behaviour while minimizing the likelihood of catastrophic failures. Techniques in SRL include the use of constrained optimization, risk-sensitive reward functions, and safe exploration strategies, all of which are essential to deploy DRL in safety-critical robotic applications. The second part of this thesis deals with Reinforcement Learning and Safe Reinforcement Learning techniques for controlling industrial robots. The first chapter of this part examines state-of-the-art Reinforcement Learning algorithms for pose regulation of a wheeled industrial platform, specifically a four-wheel steering, four-wheel driving robot. This robot’s multiple actuators provide robustness to faults, making it ideal for industrial applications, but its complex dynamics and kinematics pose significant control challenges, even for learning-based approaches. A benchmark of DRL methods reveals that effective control is hindered by the robot’s need for precise wheel coordination. Untrained neural networks struggle to achieve this, leading to poor learning outcomes. To address this, two techniques are introduced: Episodic Noise, which helps useful action subsets emerge early in training, and the Difficulty Manager, which adjusts goals to match the agent’s current capabilities. These tools enable the successful training of a control policy within a few hundred epochs. An ablation study highlights the critical role of effective exploration strategies and curriculum learning in developing controllers for such complex systems. The final chapter focuses on the control of a Drivable Vertical Mast Lift (DVML) to enable autonomous navigation while maintaining essential safety constraints. DVMLs are industrial vehicles widely used in applications such as logistics and smart agriculture, allowing operators in an elevated basket to access hard-to-reach work sites. However, improper use of these vehicles easily exposes operators to potential accidents, and therefore they are associated with safety regulations and laws. This chapter explores advancements in Safe RL from a practical perspective, applying several state- of-the-art algorithms to endow a DVML with autonomous driving capabilities. The study highlights that, while benchmark environments effectively validate Safe RL methodologies as proof-of-concept, they often fail to bridge the gap between these environments and real-world applications. This strongly limits a broader adoption of Safe RL methods in industrial use cases, highlighting the need for practical advancements to align these techniques with real-world requirements.

Questa tesi di dottorato studia le applicazioni del Deep Learning e del Deep Reinforcement Learning nei due principali ambiti della robotica: percezione e controllo. La percezione è il campo della robotica che si occupa della capacità del robot di acquisire, interpretare e comprendere le informazioni provenienti dall’ambiente circostante. Questa abilità è essenziale per consentire ai robot di interagire efficacemente con il mondo reale, facilitando attività come la navigazione, il riconoscimento degli oggetti e l’evitamento degli ostacoli. La percezione si avvale di un insieme diversificato di sensori utilizzati per raccogliere informazioni, tra cui telecamere RGB, telecamere di profondità, sensori di prossimità come LiDAR e radar ad onde millimetriche (mmWave), sensori inerziali per misurazioni di movimento e orientamento, e sensori ambientali che rilevano dati come temperatura e pressione. Questi sensori permettono ai robot di creare rappresentazioni dell’ambiente circostante, come mappe 3D o immagini segmentate, che permettono in seguito operazioni come la pianificazione del movimento, la manipolazione di oggetti e la collaborazione tra uomo e robot. Negli ultimi anni, l’introduzione del deep learning ha rivoluzionato il campo della percezione nella robotica. I metodi tradizionali, basati su algoritmi programmati esplicitamente per elaborare dati sensoriali, sono spesso associati a forti limiti, soprattutto in ambienti complessi o dinamici. Il Deep Learning ha dimostrato di poter superare questi limiti grazie alla sua capacità di apprendere rappresentazioni utili direttamente dai dati grezzi, generalizzare a scenari mai esplorati in precedenza e processare informazioni multi-modali provenienti da diversi tipi di sensori. Modelli avanzati, come reti neurali profonde e transformers, sono stati testati in task quali il riconoscimento di oggetti e scene, la segmentazione semantica, la stima della profondità e del posizionamento, consentendo ai robot di interpretare l’ambiente circostante con maggiore accuratezza ed efficienza. L’adozione del deep learning nella percezione robotica ha portato a una profonda integrazione tra hardware avanzato e algoritmi intelligenti. Questa sinergia permette ai sistemi autonomi di navigare in ambienti sconosciuti, eseguire manipolazioni precise di oggetti identificati attraverso la visione artificiale e interagire con gli esseri umani interpretando gesti, comandi vocali e comportamenti. Tuttavia, l’implementazione di modelli di deep learning nella robotica introduce anche sfide, come la necessità di operazioni in tempo reale su hardware con risorse limitate e la dipendenza da dataset di alta qualità per l’addestramento dei modelli. La prima parte di questa tesi propone un approccio basato su cGAN per sfruttare la robustezza dei sensori ad onde millimetriche rispetto a condizioni ambientali, occlusioni e ostacoli, e generare informazioni maggiormente fruibili sotto forma di immagini di profondità. In particolare, la tecnica proposta mappa le nuvole punti sparse e rumorose di sensori mmWave in immagini di profondità per sfruttare la praticità di questo formato dati e tutte le tecniche ad esso correlate. L’approccio è validato su un dataset raccolto utilizzando un robot mobile equipaggiato con sensori mmWave e una telecamera di profondità, che viene utilizzata come ground truth in fase di addestramento. Il capitolo successivo effettua un’analisi dettagliata di questo tipo di nuvole punti. Utilizzando un sistema di motion capture per ottenere una stima precisa delle posizioni, viene raccolto un dataset di 12 milioni di punti in scenari indoor. Ogni punto nel dataset viene classificato in due categorie: punti reali e rumorosi. L’uso del sistema di motion capture assicura un’accuratezza sub-millimetrica nel processo di labelling. Il dataset fornisce, inoltre, la distanza dell’ostacolo più vicino per ciascun punto, permettendo l’uso di tecniche di regressione per il task di denoising. Estendendo questo lavoro, viene condotto un benchmark delle tecniche note allo stato dell’arte per l’elaborazione di nuvole di punti sul task di denoising delle nuvole di punti di sensori mmWave. I risultati del benchmark evidenziano la difficoltà delle tecniche dello stato dell’arte nell’elaborazione di questo tipo di nuvole di punti. Sulla base di questi risultati, viene proposta un’architettura transformer basata sull’elaborazione di grafi per processare tali nuvole punti e identificare efficacemente punti di rumore e punti reali. La tecnica proposta analizza le nuvole punti sia da un punto di vista temporale che geometrico, dimostrando come la sporadicità di tali dati, che rende i modelli esistenti inefficaci, diventi una risorsa chiave nella tecnica proposta per il denoising di questo tipo di informazioni. L’ultimo capitolo della prima parte riguarda i veicoli aerei senza pilota (UAV), chiamati anche droni, sempre più spesso adottati in numerose applicazioni quali sorveglianza, monitoraggio ambientale, trasmissione live, ecc. Questo capitolo introduce APEIRON, un dataset aereo multimodale che raccoglie dati di percezione da una stereocamera e da un sensore a telecamera event-based, insieme a misurazioni dei collegamenti di rete wireless ottenute utilizzando un modulo LTE. Questo dataset collega efficacemente molti campi della robotica, dalla percezione, alla telecomunicazione e al controllo, fornendo dati di rete, come mappe di larghezza di banda, dati grezzi di numerosi sensori e coordinate GPS e dati di basso livello del drone, creando le basi per applicazioni all’intersezione di questi campi. Insieme alla percezione, il controllo è un campo fondamentale della robotica, che comprende le tecniche e le strategie che consentono ai robot di svolgere compiti compiend movimenti e interagendo con l’ambiente. Le tecniche di controllo garantiscono che un robot segua traiettorie desiderate ed esegua i compiti con precisione, sia che si tratti di navigare in ambienti complessi, manipolare oggetti o coordinarsi con altri robot. I metodi di controllo tradizionali si basano fortemente su modelli matematici accurati delle dinamiche del robot e dell’ambiente. Sebbene efficaci in molte situazioni, questi metodi possono incontrare difficoltà di fronte alla complessità, all’imprevedibilità e alla variabilità delle applicazioni reali, specialmente quando derivare un modello matematico diventa complesso o il modello matematico non è sufficientemente accurato. Recenti progressi nell’ambito dell’apprendimento automatico, in particolare nel Deep Reinforcement Learning, hanno rivoluzionato il campo del controllo robotico. Il Deep Reinforcement Learning combina le potenzialità delle reti neurali profonde e del Reinforcement Learning, consentendo ai robot di apprendere policy di controllo ottimali, mappando direttamente i dati sensoriali grezzi in azioni di controllo. Interagendo con l’ambiente, gli algoritmi di DRL utilizzano un processo iterativo di trial and error per migliorare le proprie prestazioni attraverso, individuando strategie di controllo che massimizzano una data reward function. Queste tecniche si sono dimostrate particolarmente efficaci in numerosi compiti, tra cui la manipolazione, la locomozione in ambienti complessi e la coordinazione multi-agente, dove la progettazione di strategie di controllo esplicite risulta un processo particolarmente complicato ed incline ad errori. Tuttavia, l’applicazione del DRL nel campo della robotica non è priva di sfide. La sicurezza rappresenta un aspetto cruciale, specialmente in scenari reali dove i fallimenti possono portare a danni alle apparecchiature, rischi per la sicurezza o risultati indesiderati. Questo ha portato alla nascita del cosidetto Safe Reinforcement Learning (SRL), una branca del RL focalizzata sulla sicurezza durante le fasi di apprendimento e implementazione. Il SRL introduce vincoli e meccanismi orientati alla gestione del rischio nel processo di apprendimento, consentendo ai robot di esplorare e ottimizzare il loro comportamento minimizzando la probabilità di fallimenti o danneggiamenti. Le tecniche nel SRL includono l’ottimizzazione vincolata, funzioni di ricompensa che includono una componente legata al rischio di violazione di vincoli e strategie di esplorazione sicura, tutte essenziali per l’implementazione del DRL in applicazioni robotiche critiche per la sicurezza. La seconda parte di questa tesi riguarda le tecniche di Reinforcement Learning e Safe Reinforcement Learning per il controllo di robot industriali. Il primo capitolo di questa parte esamina gli algoritmi di Reinforcement Learning allo stato dell’arte per il controllo della posizione di una piattaforma industriale mobile, in particolare di un robot a quattro ruote sterzanti e motrici. I numerosi attuatori di questo robot forniscono un’elevata robustezza ai guasti, rendendolo ideale per applicazioni industriali, ma la sua dinamica e la sua cinematica particolarmente complesse rappresentano una sfida significativa, sia per approcci tradizionali sia per approcci basati sull’apprendimento automatico. Un benchmark delle metodologie di DRL mostra come anche queste tecniche faticano nel controllo di questo robot. Infatti, la coordinazione di tutti gli attuatori è necessaria per un controllo efficace di questo robot. Tuttavia, tale coordinazione rappresenta una sfida complessa per le reti neurali all’inizio del processo di addestramento, portando a scarsi risultati. Per affrontare questo problema, vengono proposte due tecniche: l’Episodic Noise, che aiuta ad esplorare efficacemente lo spazio delle azioni e a far emergere un buon controllore già nelle prime fasi di addestramento, e il Difficulty Manager, che regola la difficoltà degli obiettivi in base alle capacità correnti dell’agente. Questi strumenti consentono l’addestramento di una policy di controllo che risulta efficace nel controllo del robot in poche centinaia di epoche. Lo studio di ablazione condotto evidenzia il ruolo cruciale di strategie di esplorazione efficaci e di tecniche di curriculum learning nello sviluppo di controllori basati sull’apprendimento autonomo per sistemi così complessi. L’ultimo capitolo si concentra sulla navigazione autonoma di un Drivable Vertical Mast Lift (DVML) garantendo il rispetto dei vincoli di sicurezza. I DVML sono veicoli industriali ampiamente utilizzati in applicazioni come la logistica e l’agricoltura intelligente, consentendo agli operatori situati in un cestello elevato di accedere a siti di lavoro difficili da raggiungere. Tuttavia, un utilizzo improprio di questi mezzi espone facilmente gli operatori a potenziali incidenti e sono per questo associati a norme e leggi di sicurezza. Questo capitolo esplora i progressi nel Safe RL da un punto di vista pratico, applicando diversi algoritmi nello stato dell’arte per dotare un DVML di capacità di guida autonoma. Lo studio evidenzia come, utilizzando ambienti proof-of-concept per la validazione delle metodologie di Safe RL, si va a costituire un divario tra le applicazioni reali e le stesse metodologie proposte. Questo limita fortemente una più ampia adozione delle metodologie di Safe RL in scenari industriali, evidenziando la necessità di validare queste metodologie in ambienti più vicini agli utilizzi pratici per allineare le tecniche ai requisiti del mondo reale.

Learning for perception and control of robots and smart embedded devices / Brescia, Walter. - ELETTRONICO. - (2025).

Learning for perception and control of robots and smart embedded devices

Brescia, Walter
2025-01-01

Abstract

This Ph.D. thesis studies applications of Deep Learning and Deep Reinforcement Learning in the two main topics of robotics: perception and control. Perception is the field of robotics that deals with the robot’s ability to acquire, interpret, and understand data from its surrounding environment. This capability is essential for enabling robots to interact effectively with the real world, facilitating tasks such as navigation, object recognition, obstacle avoidance, and context-aware decision-making. Perception relies on a diverse set of sensors that robots use to collect information, including RGB cameras, depth cameras, proximity sensors like LiDAR and millimeter wave (mmWave) radar, inertial sensors for motion and orientation measurements, and environmental sensors that capture data such as temperature, pressure, or sound. These sensors allow robots to create representations of their environment, such as 3D maps or segmented images, which support operations like motion planning, object manipulation, and human-robot collaboration. In the recent years, the integration of deep learning has revolutionized robotic perception. Traditional methods, based on explicitly programmed algorithms for processing sensory data, have shown limitations in complex or dynamic environments. Deep learning has addressed these limitations through its ability to learn hierarchical representations directly from raw data, generalize to unseen scenarios, and process multi-modal information from diverse sensor types. Advanced models, such as deep neural networks and transformers, have been applied to tasks like object and scene recognition, semantic segmentation, depth estimation, and pose estimation, enabling robots to interpret their surroundings with greater accuracy and efficiency. The adoption of deep learning in robotic perception has led to a profound integration between advanced hardware and intelligent algorithms. This synergy allows autonomous systems to navigate unfamiliar environments, perform precise manipulations of objects identified through computer vision, and interact with humans by interpreting gestures, voice commands, and behaviours. However, implementing deep learning models in robotics also introduces challenges, such as the need for real-time operation on resource-constrained hardware and the reliance on high-quality datasets for model training. The first part of this thesis proposes an approach, based on Conditional Generative Adversarial Network (cGAN), to take advantage of the robustness of mmWave sensors to environmental condition, occlusions, and obstacles and produce readable information in the form of depth images. In particular, the proposed techniques maps sparse and noisy mmWave point clouds into depth images to leverage the usability of such data format and all the related techniques. The approach is validated on a dataset collected using a mobile robot equipped with mmWave sensor and a depth camera which serves as ground truth for the training. A detailed study is then carried out on mmWave point clouds. Using a motion capture system for precise pose estimation, a dataset comprising 12 million points is gathered in indoor scenarios. Each point in the dataset is classified into one of two categories: true points or noise points. The use of the motion capture system ensures sub-millimetric accuracy for the labelling process. The dataset also provides the distance of the closest obstacle to each point, enabling the use of regression techniques for denosing purposes. Then, following this work, a benchmark of the state of the art techniques for point cloud elaboration is conducted on the task of mmWave point cloud denoising. The poor performance on the task, stemming from the peculiarities of such data, highlight a gap in the state of the art of point cloud processing. On this basis, a graph-based transformer architecture is proposed to elaborate such point clouds and effectively identify noise points and true points. The proposed technique analyses point clouds both from a temporal and geometrical point of view, highlighting how the sparsity of such data, which impairs the state of the art models, is the key resource in the proposed technique to effectively denoise the data. The last chapter of this part deals with Unmanned Aerial Vehicles (UAVs). Commonly denoted as drones, this robots are being increasingly adopted in many applications such as surveillance, disaster response, environmental monitoring, live drone broadcasting, etc. This chapter introduces APEIRON, a rich multimodal aerial dataset collecting perception data from a stereocamera and an event based camera sensor, along with measurements ofwireless network links obtained using an LTE module. This dataset effectively bridges many robotics fields, from perception, to telecommunication and control, providing network data, such as bandwidth maps, raw sensors data linked to GPS coordinates and low level data from the drone, creating the basis for applications at the intersection of such fields. Control is a fundamental field of robotics, encompassing the techniques and strategies that enable robots to perform tasks by regulating their movements and interactions with the environment. At its core, control ensures that a robot follows desired trajectories and executes tasks accurately, whether it is navigating through a complex environment, manipulating objects, or coordinating with other robots. Traditional control methods, such as PID controllers and model-based approaches, rely heavily on accurate mathematical models of the robot’s dynamics and the environment. While effective in many scenarios, these methods can struggle with the complexity, unpredictability, and variability of real-world applications. Recent advances in machine learning, particularly in Reinforcement Learning (RL), have revolu- tionized the field of robotic control. Deep reinforcement learning (DRL) integrates the strengths of deep neural networks and RL, enabling robots to learn optimal control policies directly from raw sensor data or high-dimensional state spaces. By interacting with the environment, a robot trained with DRL can iteratively improve its performance through trial and error, discovering control strategies that maximize a given reward signal. This has proven particularly effective in tasks like dynamic manipulation, complex locomotion, and multi-agent coordination, where designing explicit control strategies is challenging. However, the application of DRL in robotics is not without challenges. Safety is a critical aspect, especially in real-world scenarios where failures can lead to equipment damage, safety risks, or undesirable outcomes. This has led to the emergence of Safe Reinforcement Learning (SRL), a subfield of RL focused on ensuring safety during the learning and deployment phases. SRL introduces constraints and risk-aware mechanisms into the learning process, allowing robots to explore and optimize their behaviour while minimizing the likelihood of catastrophic failures. Techniques in SRL include the use of constrained optimization, risk-sensitive reward functions, and safe exploration strategies, all of which are essential to deploy DRL in safety-critical robotic applications. The second part of this thesis deals with Reinforcement Learning and Safe Reinforcement Learning techniques for controlling industrial robots. The first chapter of this part examines state-of-the-art Reinforcement Learning algorithms for pose regulation of a wheeled industrial platform, specifically a four-wheel steering, four-wheel driving robot. This robot’s multiple actuators provide robustness to faults, making it ideal for industrial applications, but its complex dynamics and kinematics pose significant control challenges, even for learning-based approaches. A benchmark of DRL methods reveals that effective control is hindered by the robot’s need for precise wheel coordination. Untrained neural networks struggle to achieve this, leading to poor learning outcomes. To address this, two techniques are introduced: Episodic Noise, which helps useful action subsets emerge early in training, and the Difficulty Manager, which adjusts goals to match the agent’s current capabilities. These tools enable the successful training of a control policy within a few hundred epochs. An ablation study highlights the critical role of effective exploration strategies and curriculum learning in developing controllers for such complex systems. The final chapter focuses on the control of a Drivable Vertical Mast Lift (DVML) to enable autonomous navigation while maintaining essential safety constraints. DVMLs are industrial vehicles widely used in applications such as logistics and smart agriculture, allowing operators in an elevated basket to access hard-to-reach work sites. However, improper use of these vehicles easily exposes operators to potential accidents, and therefore they are associated with safety regulations and laws. This chapter explores advancements in Safe RL from a practical perspective, applying several state- of-the-art algorithms to endow a DVML with autonomous driving capabilities. The study highlights that, while benchmark environments effectively validate Safe RL methodologies as proof-of-concept, they often fail to bridge the gap between these environments and real-world applications. This strongly limits a broader adoption of Safe RL methods in industrial use cases, highlighting the need for practical advancements to align these techniques with real-world requirements.
2025
Questa tesi di dottorato studia le applicazioni del Deep Learning e del Deep Reinforcement Learning nei due principali ambiti della robotica: percezione e controllo. La percezione è il campo della robotica che si occupa della capacità del robot di acquisire, interpretare e comprendere le informazioni provenienti dall’ambiente circostante. Questa abilità è essenziale per consentire ai robot di interagire efficacemente con il mondo reale, facilitando attività come la navigazione, il riconoscimento degli oggetti e l’evitamento degli ostacoli. La percezione si avvale di un insieme diversificato di sensori utilizzati per raccogliere informazioni, tra cui telecamere RGB, telecamere di profondità, sensori di prossimità come LiDAR e radar ad onde millimetriche (mmWave), sensori inerziali per misurazioni di movimento e orientamento, e sensori ambientali che rilevano dati come temperatura e pressione. Questi sensori permettono ai robot di creare rappresentazioni dell’ambiente circostante, come mappe 3D o immagini segmentate, che permettono in seguito operazioni come la pianificazione del movimento, la manipolazione di oggetti e la collaborazione tra uomo e robot. Negli ultimi anni, l’introduzione del deep learning ha rivoluzionato il campo della percezione nella robotica. I metodi tradizionali, basati su algoritmi programmati esplicitamente per elaborare dati sensoriali, sono spesso associati a forti limiti, soprattutto in ambienti complessi o dinamici. Il Deep Learning ha dimostrato di poter superare questi limiti grazie alla sua capacità di apprendere rappresentazioni utili direttamente dai dati grezzi, generalizzare a scenari mai esplorati in precedenza e processare informazioni multi-modali provenienti da diversi tipi di sensori. Modelli avanzati, come reti neurali profonde e transformers, sono stati testati in task quali il riconoscimento di oggetti e scene, la segmentazione semantica, la stima della profondità e del posizionamento, consentendo ai robot di interpretare l’ambiente circostante con maggiore accuratezza ed efficienza. L’adozione del deep learning nella percezione robotica ha portato a una profonda integrazione tra hardware avanzato e algoritmi intelligenti. Questa sinergia permette ai sistemi autonomi di navigare in ambienti sconosciuti, eseguire manipolazioni precise di oggetti identificati attraverso la visione artificiale e interagire con gli esseri umani interpretando gesti, comandi vocali e comportamenti. Tuttavia, l’implementazione di modelli di deep learning nella robotica introduce anche sfide, come la necessità di operazioni in tempo reale su hardware con risorse limitate e la dipendenza da dataset di alta qualità per l’addestramento dei modelli. La prima parte di questa tesi propone un approccio basato su cGAN per sfruttare la robustezza dei sensori ad onde millimetriche rispetto a condizioni ambientali, occlusioni e ostacoli, e generare informazioni maggiormente fruibili sotto forma di immagini di profondità. In particolare, la tecnica proposta mappa le nuvole punti sparse e rumorose di sensori mmWave in immagini di profondità per sfruttare la praticità di questo formato dati e tutte le tecniche ad esso correlate. L’approccio è validato su un dataset raccolto utilizzando un robot mobile equipaggiato con sensori mmWave e una telecamera di profondità, che viene utilizzata come ground truth in fase di addestramento. Il capitolo successivo effettua un’analisi dettagliata di questo tipo di nuvole punti. Utilizzando un sistema di motion capture per ottenere una stima precisa delle posizioni, viene raccolto un dataset di 12 milioni di punti in scenari indoor. Ogni punto nel dataset viene classificato in due categorie: punti reali e rumorosi. L’uso del sistema di motion capture assicura un’accuratezza sub-millimetrica nel processo di labelling. Il dataset fornisce, inoltre, la distanza dell’ostacolo più vicino per ciascun punto, permettendo l’uso di tecniche di regressione per il task di denoising. Estendendo questo lavoro, viene condotto un benchmark delle tecniche note allo stato dell’arte per l’elaborazione di nuvole di punti sul task di denoising delle nuvole di punti di sensori mmWave. I risultati del benchmark evidenziano la difficoltà delle tecniche dello stato dell’arte nell’elaborazione di questo tipo di nuvole di punti. Sulla base di questi risultati, viene proposta un’architettura transformer basata sull’elaborazione di grafi per processare tali nuvole punti e identificare efficacemente punti di rumore e punti reali. La tecnica proposta analizza le nuvole punti sia da un punto di vista temporale che geometrico, dimostrando come la sporadicità di tali dati, che rende i modelli esistenti inefficaci, diventi una risorsa chiave nella tecnica proposta per il denoising di questo tipo di informazioni. L’ultimo capitolo della prima parte riguarda i veicoli aerei senza pilota (UAV), chiamati anche droni, sempre più spesso adottati in numerose applicazioni quali sorveglianza, monitoraggio ambientale, trasmissione live, ecc. Questo capitolo introduce APEIRON, un dataset aereo multimodale che raccoglie dati di percezione da una stereocamera e da un sensore a telecamera event-based, insieme a misurazioni dei collegamenti di rete wireless ottenute utilizzando un modulo LTE. Questo dataset collega efficacemente molti campi della robotica, dalla percezione, alla telecomunicazione e al controllo, fornendo dati di rete, come mappe di larghezza di banda, dati grezzi di numerosi sensori e coordinate GPS e dati di basso livello del drone, creando le basi per applicazioni all’intersezione di questi campi. Insieme alla percezione, il controllo è un campo fondamentale della robotica, che comprende le tecniche e le strategie che consentono ai robot di svolgere compiti compiend movimenti e interagendo con l’ambiente. Le tecniche di controllo garantiscono che un robot segua traiettorie desiderate ed esegua i compiti con precisione, sia che si tratti di navigare in ambienti complessi, manipolare oggetti o coordinarsi con altri robot. I metodi di controllo tradizionali si basano fortemente su modelli matematici accurati delle dinamiche del robot e dell’ambiente. Sebbene efficaci in molte situazioni, questi metodi possono incontrare difficoltà di fronte alla complessità, all’imprevedibilità e alla variabilità delle applicazioni reali, specialmente quando derivare un modello matematico diventa complesso o il modello matematico non è sufficientemente accurato. Recenti progressi nell’ambito dell’apprendimento automatico, in particolare nel Deep Reinforcement Learning, hanno rivoluzionato il campo del controllo robotico. Il Deep Reinforcement Learning combina le potenzialità delle reti neurali profonde e del Reinforcement Learning, consentendo ai robot di apprendere policy di controllo ottimali, mappando direttamente i dati sensoriali grezzi in azioni di controllo. Interagendo con l’ambiente, gli algoritmi di DRL utilizzano un processo iterativo di trial and error per migliorare le proprie prestazioni attraverso, individuando strategie di controllo che massimizzano una data reward function. Queste tecniche si sono dimostrate particolarmente efficaci in numerosi compiti, tra cui la manipolazione, la locomozione in ambienti complessi e la coordinazione multi-agente, dove la progettazione di strategie di controllo esplicite risulta un processo particolarmente complicato ed incline ad errori. Tuttavia, l’applicazione del DRL nel campo della robotica non è priva di sfide. La sicurezza rappresenta un aspetto cruciale, specialmente in scenari reali dove i fallimenti possono portare a danni alle apparecchiature, rischi per la sicurezza o risultati indesiderati. Questo ha portato alla nascita del cosidetto Safe Reinforcement Learning (SRL), una branca del RL focalizzata sulla sicurezza durante le fasi di apprendimento e implementazione. Il SRL introduce vincoli e meccanismi orientati alla gestione del rischio nel processo di apprendimento, consentendo ai robot di esplorare e ottimizzare il loro comportamento minimizzando la probabilità di fallimenti o danneggiamenti. Le tecniche nel SRL includono l’ottimizzazione vincolata, funzioni di ricompensa che includono una componente legata al rischio di violazione di vincoli e strategie di esplorazione sicura, tutte essenziali per l’implementazione del DRL in applicazioni robotiche critiche per la sicurezza. La seconda parte di questa tesi riguarda le tecniche di Reinforcement Learning e Safe Reinforcement Learning per il controllo di robot industriali. Il primo capitolo di questa parte esamina gli algoritmi di Reinforcement Learning allo stato dell’arte per il controllo della posizione di una piattaforma industriale mobile, in particolare di un robot a quattro ruote sterzanti e motrici. I numerosi attuatori di questo robot forniscono un’elevata robustezza ai guasti, rendendolo ideale per applicazioni industriali, ma la sua dinamica e la sua cinematica particolarmente complesse rappresentano una sfida significativa, sia per approcci tradizionali sia per approcci basati sull’apprendimento automatico. Un benchmark delle metodologie di DRL mostra come anche queste tecniche faticano nel controllo di questo robot. Infatti, la coordinazione di tutti gli attuatori è necessaria per un controllo efficace di questo robot. Tuttavia, tale coordinazione rappresenta una sfida complessa per le reti neurali all’inizio del processo di addestramento, portando a scarsi risultati. Per affrontare questo problema, vengono proposte due tecniche: l’Episodic Noise, che aiuta ad esplorare efficacemente lo spazio delle azioni e a far emergere un buon controllore già nelle prime fasi di addestramento, e il Difficulty Manager, che regola la difficoltà degli obiettivi in base alle capacità correnti dell’agente. Questi strumenti consentono l’addestramento di una policy di controllo che risulta efficace nel controllo del robot in poche centinaia di epoche. Lo studio di ablazione condotto evidenzia il ruolo cruciale di strategie di esplorazione efficaci e di tecniche di curriculum learning nello sviluppo di controllori basati sull’apprendimento autonomo per sistemi così complessi. L’ultimo capitolo si concentra sulla navigazione autonoma di un Drivable Vertical Mast Lift (DVML) garantendo il rispetto dei vincoli di sicurezza. I DVML sono veicoli industriali ampiamente utilizzati in applicazioni come la logistica e l’agricoltura intelligente, consentendo agli operatori situati in un cestello elevato di accedere a siti di lavoro difficili da raggiungere. Tuttavia, un utilizzo improprio di questi mezzi espone facilmente gli operatori a potenziali incidenti e sono per questo associati a norme e leggi di sicurezza. Questo capitolo esplora i progressi nel Safe RL da un punto di vista pratico, applicando diversi algoritmi nello stato dell’arte per dotare un DVML di capacità di guida autonoma. Lo studio evidenzia come, utilizzando ambienti proof-of-concept per la validazione delle metodologie di Safe RL, si va a costituire un divario tra le applicazioni reali e le stesse metodologie proposte. Questo limita fortemente una più ampia adozione delle metodologie di Safe RL in scenari industriali, evidenziando la necessità di validare queste metodologie in ambienti più vicini agli utilizzi pratici per allineare le tecniche ai requisiti del mondo reale.
reinforcement learning; robotics; perception; machine learning; artificial intelligence
Learning for perception and control of robots and smart embedded devices / Brescia, Walter. - ELETTRONICO. - (2025).
File in questo prodotto:
File Dimensione Formato  
PhD_Thesis_Walter_Brescia.pdf

accesso aperto

Tipologia: Tesi di dottorato
Licenza: Tutti i diritti riservati
Dimensione 25.92 MB
Formato Adobe PDF
25.92 MB Adobe PDF Visualizza/Apri

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/11589/285680
Citazioni
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact