7. Feature engineering
• Jobb reprezentáció keresése
• Tömörebb, kevésbé zajos
• Diszkrét Wavelet transzformáció
• Cropping
• Motherwavelet: Haar
• Dekompozíciós szint: 2
• Eredmény:
• Eredeti kép: 160x120
• Wavelet: 64x34
8. Reward function
• Mi alapján vezet jól az ügynök?
• Paraméterek: sebesség,
középvonaltól való eltérés
• Büntetés max eltérés felett
PPO ügynök által elért reward érték epizódonkét
12. Sim2Real
2 lépés:
• Onnx formátummá való
konvertálás
• Onnx formátumból tflite modell
generálás
• Wavelet transzformáció
elvégzése
Tflite modellek: Eredeti vs
Wavelet
13. Online reinforcement learning
Szimulátor helyett RC autó
DonkeyRealEnv osztály
implementálása
Tanítható, tesztelhető https://deepmind.com/research/publications/2020/RL-Unplugged-Benchmarks-
for-Offline-Reinforcement-Learning
14. Tanulságok
• Szimulációból nehéz az áttérés
• Randomizált környezet
• Preprocessing
• Hardveres limitációk
• Ügynök kihasználhatja a szimulátor hibáit
• Reward function megfelelő megválasztása
15. Kérdések
Bírálói kérdések
• Említette a dolgozatban, hogy a módszer alkalmazható lenne a RobonAUT-ra. Ott általában egy fekete (vagy fehér) ragasztó szalag jelzi a követendő
vonalat. Hogyan adaptálná a dolgozatban ismertetett módszereit a RobonAUT esetén? Milyen lehetőségeket lát az ügyességi feladatok esetén, ahol
általában a vonal követés szintén alapelvárás?
• 1. opció: Kép helyett a vonalszenzorok lennének a bemenetek
• 2. opció: Unity-ben a RobonAUT verseny pályáját lemásolni, kamera alapú feldolgozás, adaptáció
• Ügyességi feladat: Előre meghatározott fix sebesség, csak kormányzás
• Mennyire robosztus a vonalkövetés? Kb. mennyi kört lehet vele megtenni mielőtt hibázik? Hogyan lehetne ezen javítani?
• Függ a pálya komplexitásától
• Megfelelő tanítási idővel stabilabbá lehet tenni
• Csak kormányszög beavatkozás
• Jutalom megtett kör után