IT Betyár | Tudástár
Reinforcement learning
Gépi tanulás, Deep learning, neurális hálók
Reinforcement learning
Mintaprojektünkben pár kattintással kipróbálhatod a megerősítéses tanulást
Kipróbálható mintakód alább
A reinforcement learning minta kipróbáláshoz csak a következőket kell tenned:
1. Lépés:
Kattints alábbi gombra, ami elrepít téged a
Google Colab felületére, ami ingyenes online játszóterünk lesz, itt telepítés nélkül tesztelhetsz.
A mintakód a (kanonikus oktatási példa) Bipedal walker kétlábú lépegetőt tanítja járni
A reinforcement learning alapjai
Ebben a tudomány ágban a főszereplő, ágens egy környezetben cselekszik. Akciói alapján gyűjthet bónuszokat vagy büntetéseket. Összeségében a rendszer, az ágens a bónuszok, jutalmak maximalizálására törekszik!
Példák:
- Robotot szeretnénk megtanítani, hogy nyisson ki egy ajtót. Az ajtókinyitás megtörténte esetén bónuszt kap
- Játék főhősének le kell győzni a főgonoszt, ha sebzést okozunk vagy a főgonosz elhal -> bónuszt jegyzünk.
-
Önvezető autó: Az ágens (az autó irányítórendszere) a közúti környezetben közlekedik. Bónuszt kap, ha biztonságosan és hatékonyan eljut a célállomásra, betartja a közlekedési szabályokat. Büntetést kap, ha ütközést okoz, piros lámpán hajt át vagy feleslegesen fékez.
Részvénykereskedő bot: Az ágens a pénzügyi piacon vesz és ad el részvényeket. Bónuszt kap, ha nyereséges üzleteket köt és növeli a portfólió értékét. Büntetést kap, ha rossz döntések miatt veszteséget szenved el. Idővel megtanulja felismerni a piaci mintákat és optimalizálni a kereskedési stratégiát.
Dota2 játékot játszik -nagyon sikeresen- az AI
A mintakód a (kanonikus oktatási példa) Bipedal walker kétlábú lépegetőt tanítja járni
Youtube videó
Nézd meg élőben a projektet
A bipedal walker doksi:
A bipedal walker documetációja a Gymnasium library-n belül
Bővebb infó erről a projektről
A mesterséges intelligencia és gépi tanulás amióta csak megismerték egymást kézenfogva sétálnak. Ebben a projektünkben mozgásvezérlésre, egy kétlábú robot járástanítására törekszünk (locomotion control).
A projekt főbb lépései a következők:
- Megismerkedünk a BipedalWalker környezettel – a robot 24 érzékelőből kap információt a testéről és a terepről, és 4 motort tud vezérelni a mozgáshoz
- Kiválasztunk egy tanítási algoritmust – jellemzően valamilyen policy gradient módszert, mint például a PPO (Proximal Policy Optimization)
- A robot elkezd próbálkozni – eleinte véletlenszerűen mozog, elesik, de minden epizód után frissül a modellje, és fokozatosan egyre ügyesebben jár
- A tanítás során figyeljük az összegyűjtött jutalmakat – ha ezek emelkednek, a robot valóban tanul
A végeredmény egy olyan neurális háló, amely képes egy virtuális kétlábú robotot stabil, koordinált járással átvezetni a pályán – pusztán tanulás útján, emberi programozás nélkül.
Oktatási Ars poetikánk
Mint atléta a tizedmásodpercekért, mint Michelin csillagos séf a tökéletes ízvilágért úgy küzdünk mi is, hogy képzéseinken minél hasznosabb információkat, a lehető legmagasabb színvonalon adjunk át a hallgatóságunk számára.
Nincs olyan felmerülő kérdés, amire ne tudnánk egy infografikával vagy interaktív tananyaggal válaszolni. Előadásaink precízek, tanáraink profik valamint képzéseink jó hangulatúak.








