Generativna AI (ChatGPT, Gemini, Music FM)

Pre nego što počnemo da koristimo multimodalnost, ne bi bilo loše da odvojimo malo vremena i vidimo šta je to modalitet u veštačkoj inteligenciji. Modalitet se može zamisliti kao način na koji nešto predstavljeno određenom modelu veštačke inteligencije. Ako kao primer uzmemo neki opšte poznati pojam kao što je npr. jabuka (Apple), njega možemo predstaviti jednom jedinom rečju. U tom slučaju imamo tekstualnu reprezentaciju jabuke. Takođe postoji mogućnost da ovaj objekat predstavimo u formi crteža ili fotografije a možemo iskoristiti i zvuk krckanja kao njenu zvučnu reprezentaciju.

Da li se multimodalnost može uporediti sa načinom na koji mi ljudi, percipiramo svet oko nas? Najbolje poređenje bi moglo da se napravi sa našim čulima jer različiti modaliteti uključuju tekst, slike, zvuk, pa čak i video. Multimodalnost se odnosi na sisteme i modele koji mogu da primaju različite ulazne podatke i da stvaraju rezultate koji takođe mogu da imaju različite forme. Dakle, možemo da zamislimo generator slika koji kao ulazni podatak može da primi tekstualni opis i neku ilustraciju i da ih shodno tome modifikuje. Takođe možemo da zamislimo model koji na osnovu slike i pitanja u tekstualnom obliku daje različite odgovore. U ovom poglavlju ćemo posebnu pažnju posvetiti sistemima koji mogu da generišu muziku. Oni pri tome obično koriste tekstualne informacije koje predstavljaju jedan modalitet i proizvode zvuk, što spada u domen drugog modaliteta.

0% Završeno
Call Now Button