Google lansirao Gemini Omni Flash: novi AI alat stvara video iz teksta, slika i zvuka
Google je predstavio Gemini Omni Flash, novi AI alat za generiranje videa koji podržava unos teksta, slika, videa i zvuka. Riječ je o prvoj verziji nove Gemini Omni serije modela, koja kombinira mogućnosti rezoniranja i generiranja sadržaja kako bi omogućila stvaranje kompleksnih videozapisa uz pomoć umjetne inteligencije. Nova platforma već je dostupna kroz Google Gemini, Google Flow i YouTube Shorts, a Google tvrdi da je riječ o velikom koraku prema potpuno multimodalnoj umjetnoj inteligenciji.
AI uređivanje videa prirodnim jezikom
Jedna od glavnih značajki Gemini Omni Flasha je uređivanje videa pomoću prirodnog jezika. Korisnici više ne moraju koristiti klasične alate za montažu niti složene vremenske linije. Dovoljno je opisati željene izmjene, a sustav automatski prilagođava sadržaj uz zadržavanje konzistentnosti scena, likova i fizičkih efekata. Google je demonstrirao primjere u kojima AI pretvara statue u mjehuriće, dodaje efekte valova na površinu ogledala ili mijenja atmosferu cijele scene bez potrebe za ponovnim generiranjem videa od početka. Sustav također podržava višestruko uređivanje, što znači da korisnici mogu postupno mijenjati stil, kameru, kutove snimanja i detalje videa kroz više uzastopnih uputa.
Realističniji video zahvaljujući razumijevanju fizike
Google posebno ističe sposobnost modela da razumije fizičke fenomene poput gravitacije, gibanja fluida i kinetičke energije. To omogućuje stvaranje znatno realističnijih videozapisa u odnosu na klasične AI generatore. Primjerice, Gemini Omni Flash može generirati kontinuirano kretanje kamere kroz kompleksne scene uz prirodne pokrete objekata i pravilno ponašanje svjetla, refleksija i dinamike materijala.
AI može stvarati edukativne i kreativne videozapise
Osim zabavnog sadržaja, Omni Flash namijenjen je i edukativnim videima. Google navodi da AI može automatski izrađivati vizualna objašnjenja znanstvenih i tehničkih tema, uključujući animacije procesa poput savijanja proteina ili prikaza kemijskih reakcija.Sustav također može generirati tematske videozapise s titlovima i glazbom u pozadini. Tijekom demonstracije prikazan je video temeljen na slovima abecede, gdje je AI automatski povezivao pojmove i objekte sa slovima te stvarao kompletan kratki animirani sadržaj.
Podrška za tekst, slike, video i audio
Gemini Omni Flash podržava kombiniranje više vrsta ulaznih podataka u jedan projekt. Korisnici mogu istovremeno koristiti tekstualne upute, fotografije, videoisječke i zvučne zapise kako bi AI generirao jedinstven videozapis. Google je prikazao i mogućnost korištenja postojećih fotografija osoba i scena kao referenci za stvaranje videozapisa u specifičnim stilovima, poput retro-futurističkog ili znanstveno-fantastičnog izgleda. U budućnosti će biti dodana i podrška za naprednije audio funkcije te dodatne vrste zvučnih ulaza.
Digitalni avatari i SynthID zaštita
Nova platforma omogućuje i stvaranje digitalnih avatara. Korisnici mogu kreirati virtualne verzije sebe s vlastitim glasom i izgledom te koristiti AI za generiranje personaliziranog video sadržaja. Kako bi se jasno označio AI-generirani sadržaj, svi videozapisi nastali putem Gemini Omni sustava sadržavat će SynthID digitalni vodeni žig. Google navodi da će korisnici moći provjeriti podrijetlo videa putem Gemini aplikacije, Chromea i Google pretraživanja.
Dostupnost
Gemini Omni Flash trenutno je dostupan pretplatnicima Google AI Plus, Pro i Ultra paketa, dok su određene funkcije besplatno dostupne i korisnicima YouTube Shortsa te aplikacije YouTube Create. Google je također potvrdio da će u narednim tjednima proširiti pristup developerima i poslovnim korisnicima putem API-ja.