IT Betyár | Tudástár

Reinforcement learning

Gépi tanulás, Deep learning, neurális hálók

Reinforcement learning

Mintaprojektünkben pár kattintással kipróbálhatod a megerősítéses tanulást

Franka robot Ping-Pong labda pattogtatása
reinforcement learning project

Unitree A1 robotkutya  kézenállás feltanítása
reinforcement learning project

Kipróbálható mintakód alább

A reinforcement learning minta kipróbáláshoz csak a következőket kell tenned:

1. Lépés:
Kattints alábbi gombra, ami elrepít téged a
Google Colab felületére, ami ingyenes online játszóterünk lesz, itt telepítés nélkül tesztelhetsz.

A mintakód a (kanonikus oktatási példa) Bipedal walker kétlábú lépegetőt tanítja járni

A bal oldali gombra kattintva a Google Colab felületére jutsz, ahool telepítés nélkül, azonnal és kényelmesen próbálhatod ki mit tud egy neurális háló 

A reinforcement learning alapjai

Ebben a tudomány ágban a főszereplő, ágens egy környezetben cselekszik. Akciói alapján gyűjthet bónuszokat vagy büntetéseket. Összeségében a  rendszer, az ágens a bónuszok, jutalmak maximalizálására törekszik!

Példák:

  • Robotot szeretnénk megtanítani, hogy nyisson ki egy ajtót. Az ajtókinyitás megtörténte esetén bónuszt kap
  • Játék főhősének le kell győzni a főgonoszt, ha sebzést okozunk vagy a főgonosz elhal -> bónuszt jegyzünk.
  • Önvezető autó: Az ágens (az autó irányítórendszere) a közúti környezetben közlekedik. Bónuszt kap, ha biztonságosan és hatékonyan eljut a célállomásra, betartja a közlekedési szabályokat. Büntetést kap, ha ütközést okoz, piros lámpán hajt át vagy feleslegesen fékez.

    Részvénykereskedő bot: Az ágens a pénzügyi piacon vesz és ad el részvényeket. Bónuszt kap, ha nyereséges üzleteket köt és növeli a portfólió értékét. Büntetést kap, ha rossz döntések miatt veszteséget szenved el. Idővel megtanulja felismerni a piaci mintákat és optimalizálni a kereskedési stratégiát.

Dota2 játékot játszik -nagyon sikeresen- az AI

A mintakód a (kanonikus oktatási példa) Bipedal walker kétlábú lépegetőt tanítja járni

Önvezető autó:

Robotkar ping-pong labdát pattogtat

Youtube videó

Nézd meg élőben a projektet

A bipedal walker doksi:

A bipedal walker documetációja a Gymnasium library-n belül

Bővebb infó erről a projektről

A mesterséges intelligencia és gépi tanulás amióta csak megismerték egymást kézenfogva sétálnak. Ebben a projektünkben mozgásvezérlésre, egy kétlábú robot járástanítására törekszünk (locomotion control).

 

A projekt főbb lépései a következők:

  1. Megismerkedünk a BipedalWalker környezettel – a robot 24 érzékelőből kap információt a testéről és a terepről, és 4 motort tud vezérelni a mozgáshoz
  2. Kiválasztunk egy tanítási algoritmust – jellemzően valamilyen policy gradient módszert, mint például a PPO (Proximal Policy Optimization)
  3. A robot elkezd próbálkozni – eleinte véletlenszerűen mozog, elesik, de minden epizód után frissül a modellje, és fokozatosan egyre ügyesebben jár
  4. A tanítás során figyeljük az összegyűjtött jutalmakat – ha ezek emelkednek, a robot valóban tanul

A végeredmény egy olyan neurális háló, amely képes egy virtuális kétlábú robotot stabil, koordinált járással átvezetni a pályán – pusztán tanulás útján, emberi programozás nélkül.

Mesterséges Intelligencia fejlesztő tanfolyamunk

 

  • Egy vérbeli A.I. Developer képzés
  • Hozz létre A.I. eszközöket magadtól
  • Kell e mondjuk mennyire kurrens a téma? 🙂

Oktatási Ars poetikánk

Mint atléta a tizedmásodpercekért, mint Michelin csillagos séf a tökéletes ízvilágért úgy küzdünk mi is, hogy képzéseinken minél hasznosabb információkat, a lehető legmagasabb színvonalon adjunk át a hallgatóságunk számára.

Nincs olyan felmerülő kérdés, amire ne tudnánk egy infografikával vagy interaktív tananyaggal válaszolni. Előadásaink precízek, tanáraink profik valamint képzéseink jó hangulatúak. 

IT Betyar logo