IT Betyár | Tudástár

Multimodal AI modell

Kép – szöveg+szöveg – hang -> Multimodal minta applikáció

– Haladóbb oktatási minta projekt

IT Betyár minta applikáció

Képzéseinket vett vagy egyéb szempontból tanulságos, hasznos projektjeinket mutatjuk be a minta applikáció sorozatunkban.

IT Betyár DemoGitHub RepositoryHugging Face DemoAI Tanfolyam
IT Betyár Demo GitHub Hugging Face AI Tanfolyam

Infókártya – Multimodal applikáció

Egyszerűen és érthetően mutat be egy Multimodális AI rendszert

Közérthetően:

Fő funkció:

Multimodal AI alkalmazás, amely egy képből automatikusan generál audio történetet.

Az app 3 különböző AI modellt használ:
    • képfelismerés (image-to-text)
    • szöveggenerálást (text-to-text)
    • beszédszintézist (text-to-speech)

Fő terület:

  • Computer Vision, Text generation, Text to speech átalakítás

Alterület:

  • Haladó kód minta, oktatási, megértési célra

Alábbi csak mintakép, de lentebb megtalálod az éles demót

🌟 Funkciók

  • KépfelismerésBLIP modell segítségével szöveges leírást generál a képről
  • Történetgenerálás – fentiek alapján a GPT-3.5 Turbo használatával kreatív rövid történetet ír…
  • Beszédszintézis – … ebből Text-to-Speech technológiával audio formátumba konvertálja a történetet…
  • Intuitív felület – … Streamlit alapú, felhasználóbarát webes interfész

 

A teljes kódbázis elérhetó a Githubról és a Hugging Face demóból is – lásd az anyag linkjeit

IT Betyár Demo
IT Betyár Demo
GitHub Repository
GitHub
Hugging Face Demo
Hugging Face
AI Tanfolyam
AI Tanfolyam

Requirements

transformers==5.0.0
huggingface_hub==1.4.1
openai==1.59.5
Pillow==11.3.0
streamlit==1.40.2
torch==2.6.0

A library verziók pinneléséből és számából is láthatod, hogy miért került a „haladó” szekcióba ez a projekt!

Fenti kép nagyítható

Látható a workflow, hogy milyen lépéseken keresztül születik meg a képből az audio file

Alább kipróbálhatod  a projektet.

Ha a szoftver aludna:

  1. Az appot működtető szerver energia takarékos, így gyakran elalszik, hogy kímélje környezetét.
    Ilyen esetben csak kattints a
    Yes, get this app back up” gombra)
  2. Várj 1-3 percet! Esetleg frissítsd az oldalt!
  3. Ha nem ébredne fel rendesen akkor innen is elérhető >>

Leírás

A multimodal rendszerek lényege, hogy több típusú médiát kezel, általában több ai modell (vannak újabb megoldások, amelyekben egy modell képes kezelni többféle inputot)

Mesterséges intelligencia fejlesztő tanfolyam

🎓 Ha te is szeretnél hasonló A.I. szoftvereket létrehozni, akkor várunk képzéseinken:
A.I. Developer tanfolyam

Mesterséges Intelligencia fejlesztő tanfolyamunk

 

  • Egy vérbeli A.I. Developer képzés
  • Hozz létre A.I. eszközöket magadtól
  • Kell e mondjuk mennyire kurrens a téma? 🙂

Kapcsolódó Youtube tartalmunk

Ha érdekel hogy lehet képfelismerő neurális hálókat létrehozni akkor, alábbi youtube videóban mutatunk egy megoldást, még működö kód is van hozz!

Mesterséges Intelligencia fejlesztő tanfolyamunk

 

  • Egy vérbeli A.I. Developer képzés
  • Hozz létre A.I. eszközöket magadtól
  • Kell e mondjuk mennyire kurrens a téma? 🙂

Egyik specialitásunk, amit máshol nem találsz:

A.I. Magic oktatási tér

Törzs és kiegészítő anyagok mekkája, a hatékony tanulás izzó kóhója, a könnyen elérhetőség nulla kilóméterköve

Oktatási Ars poetikánk

Mint atléta a tizedmásodpercekért, mint Michelin csillagos séf a tökéletes ízvilágért úgy küzdünk mi is, hogy képzéseinken minél hasznosabb információkat, a lehető legmagasabb színvonalon adjunk át a hallgatóságunk számára.

Nincs olyan felmerülő kérdés, amire ne tudnánk egy infografikával vagy interaktív tananyaggal válaszolni. Előadásaink precízek, tanáraink profik valamint képzéseink jó hangulatúak. 

IT Betyar logo