Deep reinforcement learning with DonkeyCar

Megerősítéses tanulás alapú
algoritmus tervezése
DonkeyCar környezetben
Dámsa Levente
Konzulens
Dr. Szegletes Luca

Feladat
• Sávkövető autonóm jármű
• Kormányzás
• Sebesség
• Tanító környezet
• Szimuláció
• Áttérés valódi autóra

Donkeycar - Hardver
Komponensek
• 1/16 RC autó (HSP 94186)
• Raspberry Pi 4B
• Kamera
• Lidar szenzor
• Szervó driver: PCA9685 (i2c)
• DC-DC 5V/2A feszültség átalakító
Kalibráció
https://www.donkeycar.com/uploads/7/8/1/7/7817903/donkey-car-graphic_orig.jpg

Donkeycar - Szoftver
Hoszt
• Ubuntu
• Donkeycar python csomag
• GPU tanításra
• Pytorch
• Stable baselines3
• Donkeycar szimulátor (Unity)
• OpenAI gym környezet
Raspberry
• Raspbian
• Donkeycar python csomag
• Lidar szenzor
• Pytorch

Feature engineering
• Mekkora hálózat szükséges?
• Autóenkóder
• Minimum code size: 64
Policy stable baselines 3-ban, autóenkóder struktúra forrás: https://stable-
baselines3.readthedocs.io/en/master/_images/net_arch.png

Feature engineering
• Jobb reprezentáció keresése
• Tömörebb, kevésbé zajos
• Diszkrét Wavelet transzformáció
• Cropping
• Motherwavelet: Haar
• Dekompozíciós szint: 2
• Eredmény:
• Eredeti kép: 160x120
• Wavelet: 64x34

Reward function
• Mi alapján vezet jól az ügynök?
• Paraméterek: sebesség,
középvonaltól való eltérés
• Büntetés max eltérés felett
PPO ügynök által elért reward érték epizódonkét

Módosított reward
function
• Probléma: ügynök a sebességet növelte
• Szigorúbb büntetés az eltérésre

Tanítás - Tesztelés
• DonkeyCar szimulátor
• Stable baselines RL algoritmusok
• PPO, TD3, DQN, TQC
• Wavelet vs Eredeti kép
• Hiperparaméter állítás
• Inverz reinforcement learning
• Tesztelés: Ismeretlen pályákon

Sim2Real
Raspberry pi: Tensorflow lite
támogatott
PPO modellben nem támogatott
műveletek
Megoldás: Feature extractor +
policy neurális háló
konvertálása Policy stable baselines 3-ban, forrás: https://stable-
baselines3.readthedocs.io/en/master/_images/net_arch.png

Sim2Real
2 lépés:
• Onnx formátummá való
konvertálás
• Onnx formátumból tflite modell
generálás
• Wavelet transzformáció
elvégzése
Tflite modellek: Eredeti vs
Wavelet

Online reinforcement learning
Szimulátor helyett RC autó
DonkeyRealEnv osztály
implementálása
Tanítható, tesztelhető https://deepmind.com/research/publications/2020/RL-Unplugged-Benchmarks-
for-Offline-Reinforcement-Learning

Tanulságok
• Szimulációból nehéz az áttérés
• Randomizált környezet
• Preprocessing
• Hardveres limitációk
• Ügynök kihasználhatja a szimulátor hibáit
• Reward function megfelelő megválasztása

Kérdések
Bírálói kérdések
• Említette a dolgozatban, hogy a módszer alkalmazható lenne a RobonAUT-ra. Ott általában egy fekete (vagy fehér) ragasztó szalag jelzi a követendő
vonalat. Hogyan adaptálná a dolgozatban ismertetett módszereit a RobonAUT esetén? Milyen lehetőségeket lát az ügyességi feladatok esetén, ahol
általában a vonal követés szintén alapelvárás?
• 1. opció: Kép helyett a vonalszenzorok lennének a bemenetek
• 2. opció: Unity-ben a RobonAUT verseny pályáját lemásolni, kamera alapú feldolgozás, adaptáció
• Ügyességi feladat: Előre meghatározott fix sebesség, csak kormányzás
• Mennyire robosztus a vonalkövetés? Kb. mennyi kört lehet vele megtenni mielőtt hibázik? Hogyan lehetne ezen javítani?
• Függ a pálya komplexitásától
• Megfelelő tanítási idővel stabilabbá lehet tenni
• Csak kormányszög beavatkozás
• Jutalom megtett kör után

Deep reinforcement learning with DonkeyCar

Recommended

Recommended

More Related Content

Similar to Deep reinforcement learning with DonkeyCar

Similar to Deep reinforcement learning with DonkeyCar (20)

Deep reinforcement learning with DonkeyCar