Gemini – najnoviji Googleov pokušaj da demonstrira svoju AI snagu
Predstavljen je Gemini, Googleov najbolji LLM veliki jezični model sa širokim rasponom funkcija. Podržava podatke kao što su tekst, kod, audio, slike i video. Može razumjeti, upravljati i analizirati kombinaciju slika, teksta i videa, pri tome pružajući bolje mogućnosti razmišljanja te interpretirati i pisati kod visoke kvalitete u Pythonu, Javi, C++ programskim jezicima.
Google kaže da dolazi u tri veličine:
Gemini 1.0 Pro namijenjena je integraciji u Google Bard. Pruža naprednije zaključivanje, planiranje i pisanje, kao i sposobnost razumijevanja i sažimanja sadržaja. Google ovdje posebno oglašava performanse koje nadilaze GPT 3.5 (u šest od osam mjerila, uključujući MMLU i GSM8K). Za sada je ograničen na engleski jezik.
Gemini Ultra je najmoćnija verzija namijenjena za najsloženije zadatke. Bit će lansirana početkom sljedeće godine i namijenjena poslovnim korisnicima i istraživačima, pa Googleu treba više vremena za daljnje testiranje njegove pouzdanosti.
Testovi su pokazali da za sada nadmašuje ljudske stručnjake u razumijevanju masovnog višezadaćnog jezika, testu koji kombinira 57 predmeta iz matematike, fizike, prava i medicine, etike i testiranja znanja, razumijevanja čitanja i sposobnosti rješavanja problema.
Treća verzija je nano, integrirana u Google Pixel 8 Pro preko Android AICore. Može podržati sažetke snimanja glasa ili pomoći pri odgovaranju na poruke. Prilikom prezentacije Google je, hvaleći se, prikazao rezultate Gemini testa na raznim skupovima testova kao što su MMLU, različita predmetna pitanja, GSM8K matematički test, HumanEval, Python test kodiranja. Gemini pobjeđuje GPT-4 u gotovo svakom skupu, uključujući vizualni test. GPT-4V ili audio podatke se pretvara u tekst, i dalje pobjeđuje specijalizirane modele. Uz to za otprilike za sat vremena Gemini može analizirati 200.000 dokumenata znanstvenog istraživanja, filtrirati relevantne dokumente i zatim sažeti podatke.
Je li Gemini doista toliko moćan?
Sudeći prema demonstracijskom video koji prikazuje Gemini multimodalne funkcije, izgleda mnogo bolje od konkurentskih proizvoda, ali je bila lažna propaganda. Konkretno, prema stvarnoj praktičnoj situaciji, uopće ne može postići prikazane učinke brzog određivanja fizičkih objekata na ekranu i dati povratnu informaciju poput ljudskog glasa. Nakon što se vijest proširila bespućima interneta, Google DeepMind je priznao da demonstracija nije izvedena u stvarnom vremenu ili glasom, ali su negirala namjerno krivotvorenje, rekavši da je vrijeme reakcije jednostavno skraćeno radi jednostavnosti. Zanimljivo, zar ne?
allowfullscreen>
Ako želite iskusiti nadogradnje, to možete učiniti na ovoj web adresi.

