IT Betyár | Tudástár
Multimodal AI modell
Kép – szöveg+szöveg – hang -> Multimodal minta applikáció
– Haladóbb oktatási minta projekt

IT Betyár minta applikáció
Képzéseinket vett vagy egyéb szempontból tanulságos, hasznos projektjeinket mutatjuk be a minta applikáció sorozatunkban.
Infókártya – Multimodal applikáció
Egyszerűen és érthetően mutat be egy Multimodális AI rendszert
Közérthetően:
Fő funkció:
Multimodal AI alkalmazás, amely egy képből automatikusan generál audio történetet.
Az app 3 különböző AI modellt használ:
- képfelismerés (image-to-text)
- szöveggenerálást (text-to-text)
- beszédszintézist (text-to-speech)
Fő terület:
- Computer Vision, Text generation, Text to speech átalakítás
Alterület:
- Haladó kód minta, oktatási, megértési célra
Alábbi csak mintakép, de lentebb megtalálod az éles demót

🌟 Funkciók
- Képfelismerés – BLIP modell segítségével szöveges leírást generál a képről
- Történetgenerálás – fentiek alapján a GPT-3.5 Turbo használatával kreatív rövid történetet ír…
- Beszédszintézis – … ebből Text-to-Speech technológiával audio formátumba konvertálja a történetet…
- Intuitív felület – … Streamlit alapú, felhasználóbarát webes interfész
A teljes kódbázis elérhetó a Githubról és a Hugging Face demóból is – lásd az anyag linkjeit
Requirements
transformers==5.0.0
huggingface_hub==1.4.1
openai==1.59.5
Pillow==11.3.0
streamlit==1.40.2
torch==2.6.0
A library verziók pinneléséből és számából is láthatod, hogy miért került a „haladó” szekcióba ez a projekt!

Fenti kép nagyítható
Látható a workflow, hogy milyen lépéseken keresztül születik meg a képből az audio file
Alább kipróbálhatod a projektet.
Ha a szoftver aludna:
- Az appot működtető szerver energia takarékos, így gyakran elalszik, hogy kímélje környezetét.
Ilyen esetben csak kattints a
„Yes, get this app back up” gombra) - Várj 1-3 percet! Esetleg frissítsd az oldalt!
- Ha nem ébredne fel rendesen akkor innen is elérhető >>

🎓 Ha te is szeretnél hasonló A.I. szoftvereket létrehozni, akkor várunk képzéseinken:
A.I. Developer tanfolyam
Kapcsolódó Youtube tartalmunk
Ha érdekel hogy lehet képfelismerő neurális hálókat létrehozni akkor, alábbi youtube videóban mutatunk egy megoldást, még működö kód is van hozz!
Mesterséges Intelligencia fejlesztő tanfolyamunk
- Egy vérbeli A.I. Developer képzés
- Hozz létre A.I. eszközöket magadtól
- Kell e mondjuk mennyire kurrens a téma? 🙂
Egyik specialitásunk, amit máshol nem találsz:
Törzs és kiegészítő anyagok mekkája, a hatékony tanulás izzó kóhója, a könnyen elérhetőség nulla kilóméterköve
Oktatási Ars poetikánk
Mint atléta a tizedmásodpercekért, mint Michelin csillagos séf a tökéletes ízvilágért úgy küzdünk mi is, hogy képzéseinken minél hasznosabb információkat, a lehető legmagasabb színvonalon adjunk át a hallgatóságunk számára.
Nincs olyan felmerülő kérdés, amire ne tudnánk egy infografikával vagy interaktív tananyaggal válaszolni. Előadásaink precízek, tanáraink profik valamint képzéseink jó hangulatúak.



