IT Betyár | Tudástár

Multimodal AI modell

Kép – szöveg+szöveg – hang -> Multimodal minta applikáció

– Haladóbb oktatási minta projekt

IT Betyár minta applikáció

Képzéseinket vett vagy egyéb szempontból tanulságos, hasznos projektjeinket mutatjuk be a minta applikáció sorozatunkban.

IT Betyár Demo	GitHub Repository	Hugging Face Demo	AI Tanfolyam

Infókártya – Multimodal applikáció

Egyszerűen és érthetően mutat be egy Multimodális AI rendszert

Közérthetően:

Fő funkció:

Multimodal AI alkalmazás, amely egy képből automatikusan generál audio történetet.

Az app 3 különböző AI modellt használ:

- képfelismerés (image-to-text)
- szöveggenerálást (text-to-text)
- beszédszintézist (text-to-speech)

Fő terület:

Computer Vision, Text generation, Text to speech átalakítás

Alterület:

Haladó kód minta, oktatási, megértési célra

Alábbi csak mintakép, de lentebb megtalálod az éles demót

🌟 Funkciók

Képfelismerés – BLIP modell segítségével szöveges leírást generál a képről
Történetgenerálás – fentiek alapján a GPT-3.5 Turbo használatával kreatív rövid történetet ír…
Beszédszintézis – … ebből Text-to-Speech technológiával audio formátumba konvertálja a történetet…
Intuitív felület – … Streamlit alapú, felhasználóbarát webes interfész

A teljes kódbázis elérhetó a Githubról és a Hugging Face demóból is – lásd az anyag linkjeit

IT Betyár Demo

GitHub Repository

Hugging Face Demo

AI Tanfolyam

Requirements

transformers==5.0.0
huggingface_hub==1.4.1
openai==1.59.5
Pillow==11.3.0
streamlit==1.40.2
torch==2.6.0

A library verziók pinneléséből és számából is láthatod, hogy miért került a „haladó” szekcióba ez a projekt!

Fenti kép nagyítható

Látható a workflow, hogy milyen lépéseken keresztül születik meg a képből az audio file

Alább kipróbálhatod a projektet.

Ha a szoftver aludna:

Az appot működtető szerver energia takarékos, így gyakran elalszik, hogy kímélje környezetét.
Ilyen esetben csak kattints a
„Yes, get this app back up” gombra)
Várj 1-3 percet! Esetleg frissítsd az oldalt!
Ha nem ébredne fel rendesen akkor innen is elérhető >>

Leírás

A multimodal rendszerek lényege, hogy több típusú médiát kezel, általában több ai modell (vannak újabb megoldások, amelyekben egy modell képes kezelni többféle inputot)

🎓 Ha te is szeretnél hasonló A.I. szoftvereket létrehozni, akkor várunk képzéseinken:
A.I. Developer tanfolyam

Mesterséges Intelligencia fejlesztő tanfolyamunk

Egy vérbeli A.I. Developer képzés
Hozz létre A.I. eszközöket magadtól
Kell e mondjuk mennyire kurrens a téma? 🙂

Érdekel

Kapcsolódó Youtube tartalmunk

Ha érdekel hogy lehet képfelismerő neurális hálókat létrehozni akkor, alábbi youtube videóban mutatunk egy megoldást, még működö kód is van hozz!

Youtube

Mesterséges Intelligencia fejlesztő tanfolyamunk

Egy vérbeli A.I. Developer képzés
Hozz létre A.I. eszközöket magadtól
Kell e mondjuk mennyire kurrens a téma? 🙂

Érdekel

Megnézem

Egyik specialitásunk, amit máshol nem találsz:

A.I. Magic oktatási tér

Törzs és kiegészítő anyagok mekkája, a hatékony tanulás izzó kóhója, a könnyen elérhetőség nulla kilóméterköve

Oktatási Ars poetikánk

Mint atléta a tizedmásodpercekért, mint Michelin csillagos séf a tökéletes ízvilágért úgy küzdünk mi is, hogy képzéseinken minél hasznosabb információkat, a lehető legmagasabb színvonalon adjunk át a hallgatóságunk számára.

Nincs olyan felmerülő kérdés, amire ne tudnánk egy infografikával vagy interaktív tananyaggal válaszolni. Előadásaink precízek, tanáraink profik valamint képzéseink jó hangulatúak.

IT Betyar logo

+36203144763

info@itbetyar.hu

Multimodal AI modell

IT Betyár minta applikáció

Képzéseinket vett vagy egyéb szempontból tanulságos, hasznos projektjeinket mutatjuk be a minta applikáció sorozatunkban.

Infókártya – Multimodal applikáció

Közérthetően:

Az app 3 különböző AI modellt használ:

🌟 Funkciók

Requirements

Alább kipróbálhatod a projektet.

Leírás

Mesterséges Intelligencia fejlesztő tanfolyamunk

Kapcsolódó Youtube tartalmunk

Mesterséges Intelligencia fejlesztő tanfolyamunk

Egyik specialitásunk, amit máshol nem találsz:

Oktatási Ars poetikánk

KAPCSOLAT

INFORMATIKA OKTATÁS

A.I. fejlesztő képzés

Python tanfolyam

Üzleti A.I automatizáció workshop

COPYRIGHT BY IT BETYÁR

Adatvédelmi nyilatkozat

Általános szerződési feltételek

COPYRIGHT BY IT BETYÁR

Adatvédelmi nyilatkozat

Általános szerződési feltételek

INFORMATIKA OKTATÁS

Python tanfolyam

A.I. fejlesztő képzés

Üzleti A.I automatizáció workshop

KAPCSOLAT