SadrÅŸaj kursa
Generativna AI (ChatGPT, Gemini, Music FM)

U ovom poglavlju ćemo se detaljnije pozabaviti zvukom kao modalitetom. To znači da ćemo se potruditi da AI model navedemo da kreira miÅ¡ljenje koje je zasnovano na nekom audio snimku. U tom cilju ćemo primeniti Gemini i pokuÅ¡ati da kombinujemo tekstualni upit sa nekim zvukom. Na kraju bi trebalo da dobijemo tekstualni odgovor koji sadrÅŸi sve potrebne podatke.

Moram da vam skrenem paÅŸnju da u ovom trenutku postoji samo nekoliko sistema koji mogu da kao ulaz korite tzv. sirovi zvuk. To znači da oni ne vrÅ¡e transkripciju zvuka u tekst, da bi zatim nastavili da obrađuju tekstualne podatke, nego vrÅ¡e njegovu direktnu analizu.

Sa druge strane, situacija u kojoj se tekst direktno koristi za generisanje muzike se ne moÅŸe tretirati kao multimodalnost jer postoji samo jedna vrsta ulaza i jedan izlaz. Bez obzira na to, u ovom poglavlju ću vam pokazati kako se vrÅ¡i generisanje muzike jer bih ÅŸeleo da se Å¡to bolje upoznate sa zvukom kao modalitetom. Drugi razlog je Å¡to se na ovom polju događaju vrlo brze promene pa me ne bi iznenadilo da se uskoro pojave modeli koji mogu da kombinuju zvuk sa tekstom i na taj način generiÅ¡u muziku.

0% Završeno
Call Now Button