Generativna AI (ChatGPT, Gemini, Music FM)

U ovom poglavlju ćemo se detaljnije pozabaviti zvukom kao modalitetom. To znači da ćemo se potruditi da AI model navedemo da kreira mišljenje koje je zasnovano na nekom audio snimku. U tom cilju ćemo primeniti Gemini i pokušati da kombinujemo tekstualni upit sa nekim zvukom. Na kraju bi trebalo da dobijemo tekstualni odgovor koji sadrži sve potrebne podatke.

Moram da vam skrenem pažnju da u ovom trenutku postoji samo nekoliko sistema koji mogu da kao ulaz korite tzv. sirovi zvuk. To znači da oni ne vrše transkripciju zvuka u tekst, da bi zatim nastavili da obrađuju tekstualne podatke, nego vrše njegovu direktnu analizu.

Sa druge strane, situacija u kojoj se tekst direktno koristi za generisanje muzike se ne može tretirati kao multimodalnost jer postoji samo jedna vrsta ulaza i jedan izlaz. Bez obzira na to, u ovom poglavlju ću vam pokazati kako se vrši generisanje muzike jer bih želeo da se što bolje upoznate sa zvukom kao modalitetom. Drugi razlog je što se na ovom polju događaju vrlo brze promene pa me ne bi iznenadilo da se uskoro pojave modeli koji mogu da kombinuju zvuk sa tekstom i na taj način generišu muziku.

0% Završeno
Call Now Button