IT Betyár | Tudástár

Reinforcement learning

Gépi tanulás, Deep learning, neurális hálók

Reinforcement learning

Mintaprojektünkben pár kattintással kipróbálhatod a megerősítéses tanulást

Franka robot Ping-Pong labda pattogtatása
reinforcement learning project

Unitree A1 robotkutya kézenállás feltanítása
reinforcement learning project

Kipróbálható mintakód alább

A reinforcement learning minta kipróbáláshoz csak a következőket kell tenned:

1. Lépés:
Kattints alábbi gombra, ami elrepít téged a
Google Colab felületére, ami ingyenes online játszóterünk lesz, itt telepítés nélkül tesztelhetsz.

Google Colab link

A mintakód a (kanonikus oktatási példa) Bipedal walker kétlábú lépegetőt tanítja járni

A bal oldali gombra kattintva a Google Colab felületére jutsz, ahool telepítés nélkül, azonnal és kényelmesen próbálhatod ki mit tud egy neurális háló

A reinforcement learning alapjai

Ebben a tudomány ágban a főszereplő, ágens egy környezetben cselekszik. Akciói alapján gyűjthet bónuszokat vagy büntetéseket. Összeségében a rendszer, az ágens a bónuszok, jutalmak maximalizálására törekszik!

Példák:

Robotot szeretnénk megtanítani, hogy nyisson ki egy ajtót. Az ajtókinyitás megtörténte esetén bónuszt kap
Játék főhősének le kell győzni a főgonoszt, ha sebzést okozunk vagy a főgonosz elhal -> bónuszt jegyzünk.
Önvezető autó: Az ágens (az autó irányítórendszere) a közúti környezetben közlekedik. Bónuszt kap, ha biztonságosan és hatékonyan eljut a célállomásra, betartja a közlekedési szabályokat. Büntetést kap, ha ütközést okoz, piros lámpán hajt át vagy feleslegesen fékez.

Részvénykereskedő bot: Az ágens a pénzügyi piacon vesz és ad el részvényeket. Bónuszt kap, ha nyereséges üzleteket köt és növeli a portfólió értékét. Büntetést kap, ha rossz döntések miatt veszteséget szenved el. Idővel megtanulja felismerni a piaci mintákat és optimalizálni a kereskedési stratégiát.

Dota2 játékot játszik -nagyon sikeresen- az AI

A mintakód a (kanonikus oktatási példa) Bipedal walker kétlábú lépegetőt tanítja járni

Google Colab link

Önvezető autó:

Robotkar ping-pong labdát pattogtat

Youtube videó

Nézd meg élőben a projektet

Youtube



A bipedal walker doksi:

A bipedal walker documetációja a Gymnasium library-n belül

Bipedal walker

Bővebb infó erről a projektről

A mesterséges intelligencia és gépi tanulás amióta csak megismerték egymást kézenfogva sétálnak. Ebben a projektünkben mozgásvezérlésre, egy kétlábú robot járástanítására törekszünk (locomotion control).

A projekt főbb lépései a következők:

Megismerkedünk a BipedalWalker környezettel – a robot 24 érzékelőből kap információt a testéről és a terepről, és 4 motort tud vezérelni a mozgáshoz
Kiválasztunk egy tanítási algoritmust – jellemzően valamilyen policy gradient módszert, mint például a PPO (Proximal Policy Optimization)
A robot elkezd próbálkozni – eleinte véletlenszerűen mozog, elesik, de minden epizód után frissül a modellje, és fokozatosan egyre ügyesebben jár
A tanítás során figyeljük az összegyűjtött jutalmakat – ha ezek emelkednek, a robot valóban tanul

A végeredmény egy olyan neurális háló, amely képes egy virtuális kétlábú robotot stabil, koordinált járással átvezetni a pályán – pusztán tanulás útján, emberi programozás nélkül.

Mesterséges Intelligencia fejlesztő tanfolyamunk

Egy vérbeli A.I. Developer képzés
Hozz létre A.I. eszközöket magadtól
Kell e mondjuk mennyire kurrens a téma? 🙂

Érdekel

Oktatási Ars poetikánk

Mint atléta a tizedmásodpercekért, mint Michelin csillagos séf a tökéletes ízvilágért úgy küzdünk mi is, hogy képzéseinken minél hasznosabb információkat, a lehető legmagasabb színvonalon adjunk át a hallgatóságunk számára.

Nincs olyan felmerülő kérdés, amire ne tudnánk egy infografikával vagy interaktív tananyaggal válaszolni. Előadásaink precízek, tanáraink profik valamint képzéseink jó hangulatúak.

+36203144763

info@itbetyar.hu

Reinforcement learning