Filippo Crosa
Reinforcement learning applicato alla robotica collaborativa = Reinforce learning applied to collaborative robotics.
Rel. Dario Antonelli. Politecnico di Torino, Corso di laurea magistrale in Ingegneria Informatica (Computer Engineering), 2022
|
PDF (Tesi_di_laurea)
- Tesi
Licenza: Creative Commons Attribution Non-commercial No Derivatives. Download (6MB) | Preview |
Abstract: |
Questo elaborato si propone di studiare l’interazione uomo-robot tipico dell’ambiente industriale di assemblaggio. Nello specifico, viene considerata una cella produttiva dove un operatore umano e un robot operano insieme, nello stesso momento e condividendo lo stesso spazio di lavoro con l’obiettivo di comporre lo stesso assemblato. Si ipotizza quindi di superare il concetto di ‘coesistenza’ tra uomo e robot - tipico delle moderne industrie - portandolo al livello successivo, ovvero di vera e propria ‘collaborazione’. Il setting preso in considerazione è quello tipico delle piccole aziende, con un basso volume di produzione diviso in piccoli lotti e i cui prodotti finali hanno potenzialmente un alto numero di varianti. Proprio in virtù dell’alta variabilità del processo di assemblaggio, diventa cruciale l’interazione tra i due agenti (uomo e robot) che, idealmente, dovrebbero lavorare in perfetta sinergia e unicità di intenti; tuttavia il comportamento umano è affetto da impredicibilità, variabilità ed errore. Questi fattori di disturbo fanno sì che per il robot sia difficile reagire in maniera corretta e proattiva. Nella trattazione verranno inizialmente presi in considerazione due casi di studio e si utilizzeranno alcune tecniche standard di programmazione dinamica e reinforcement learning nel tentativo di “insegnare” al robot la sequenza di assemblaggio più veloce. Nel terzo e ultimo caso di studio si cercherà di generalizzare uno schema di assemblaggio generato casualmente e verrà applicato un algoritmo originale di adversarial learning la cui idea di base è di mettere in competizione l’agente umano e l’agente robot: durante i vari episodi di apprendimento l’umano imparerà quali sono le azioni peggiori e cercherà di attuarle, mentre il robot tenterà, all’opposto, di impedire che l’umano faccia tali scelte - in un certo senso correggendole - al fine di ottenere la capacità di gestire situazioni impreviste. Verranno infine discussi i risultati. |
---|---|
Relators: | Dario Antonelli |
Academic year: | 2022/23 |
Publication type: | Electronic |
Number of Pages: | 55 |
Subjects: | |
Corso di laurea: | Corso di laurea magistrale in Ingegneria Informatica (Computer Engineering) |
Classe di laurea: | New organization > Master science > LM-32 - COMPUTER SYSTEMS ENGINEERING |
Aziende collaboratrici: | UNSPECIFIED |
URI: | http://webthesis.biblio.polito.it/id/eprint/24692 |
Modify record (reserved for operators) |