Generativna AI (ChatGPT, Gemini, Music FM)

Gemini predstavlja vodeći Google-ov model veštačke inteligencije. Što se tiče modaliteta, Gemini kao ulazni podatak može da iskoristi tekst, slike, video i sirovi audio. Pri tome treba posebno istaći ovu poslednju karakteristiku jer drugi sistemi koji prihvataju audio ulaz, moraju da ga prvo transkribuju tj. pretvore u tekst a tek nakon toga obrade njegov sadržaj. Gemini ima mogućnost da direktno iskoristi ovakvu vrstu ulaznih podataka a u ovoj lekciji ću vam pokazati kako se to odražava na njegovu multimodalnost.

Još jednu jedinstvenu karakteristiku ovog modela predstavlja njegov veoma veliki kontekstni prozor. On može da u produkciji podrži do milion tokena a u nekim istraživanjima se taj broj povećavao i do 10 miliona. To u praksi omogućava obradu 700.000 reči, jedan sat videa ili 11 sati zvuka. Ako se na sve ovo dodaju i već pomenute multimodalne mogućnosti, nije teško doći do zaključka da se Gemini zaista izdvaja od drugih modela iz oblasti veštačke inteligencije.

Gemini-ju se može pristupiti preko Google-ovog interfejsa za ćaskanje a takođe možete koristi i  Google-ov AI Studio i Vertex AI platformu.

0% Završeno
Call Now Button