Sora, novi AI model – uzvraća udarac Googleu
Nakon što je Google predstavio Gemini 1.5, OpenAI je bio primoran što prije odgovoriti, suočen i s hitnošću pronalaženja novog financiranja.
S. Altman, majstor marketinga, predstavio je Soru, novi jezični model koji može generirati 60-sekundne realistične videozapise na temelju teksta. Sora može simulirati prirodni svijet i fizičke zakone, stvarati videozapise na temelju fotografija, ispunjavati praznine u postojećim videozapisima ili proširiti postojeće snimke novim materijalom.
Sora nije savršena – u svakom videu mogu se pronaći greške
Mnogi ljudi tvrde da je Sorin učinak impresivniji u usporedbi s Pikom, RunwayML-om, Make-A-Videom itd. To je i razumljivo. U usporedbi s poduzetničkim timovima, tvrtke s temeljnim tehnologijama poput OpenAI-a i dalje su vrlo jake.
Međutim, u 48 vizualno privlačnih demo videozapisa vidljivo je da Sora nije savršena. Videozapisi još uvijek nose neke znakove da su proizvod umjetne inteligencije. Primjerice, javljaju se nedosljednosti, zbunjenost pri obradi prostornih detalja, kao što je razlikovanje lijeve i desne strane ili nerazumijevanje interakcije osobe ili objekta sa scenom. Pojavljuju se i scene koje prkose zdravom razumu fizike, kao što je košarkaška lopta koja prolazi kroz koš ili lebdeća stolica.
Tehničke analize
OpenAI nije otkrio detalje o temeljnoj tehnologiji. U svom tehničkom izvješću saželi su samo neke često korištene metode generiranja videa i modeliranja iz prethodnih modela, uključujući rekurentne mreže, generativne kontradiktorne mreže, autoregresivne transformatore i modele difuzije.
Međutim, vrijedno je spomenuti da je glavni znanstvenik Mete za umjetnu inteligenciju, Yang Likun, izjavio da se rad o difuzijskom transformatoru, na kojem su surađivali njegov bivši kolega Xie Saining i bivši student s Berkeleyja i sadašnji inženjer OpenAI-ja William Peebles, koristi u Sori.
Također se nagađa da bi Sora mogla koristiti Googleov Patch n’ Pack (NaViT) za prilagodbu DiT-a različitim rezolucijama, trajanjima i omjerima slike. Procjenjuje se da model ima 3 milijarde parametara, što znači da obuka modela možda neće zahtijevati toliko GPU-a koliko bi se očekivalo.
Otvaranje vrata pogodnosti stvaranja videozapisa ili promijena redoslijeda na tržištu kratkih videa
Izlazak ovog modela pokrenuo je žestoku raspravu. Sora može donijeti značajnu promjenu u industriju oglašavanja, filmskih najava i industriju kratkih videa, ali možda neće nužno poraziti TikTok tako brzo. Vjerojatnije će postati alat za kreativno izražavanje na platformi TikTok. Naravno, tu je i zabrinutost da će Sora učiniti problem stvaranja lažnog sadržaja još ozbiljnijim.
OpenAI kaže da će izgraditi alate koji će pomoći u otkrivanju obmanjujućeg sadržaja, te da će primijeniti postojeće tehnologije za odbacivanje štetnih tekstualnih upita. Međutim, s obzirom na načine na koje ljudi zaobilaze zaštitu postojećih modela umjetne inteligencije, uspjeh tih napora i dalje je upitan. Postoji i dodatni rizik od takvih alata, koji čak i OpenAI i Google drže u tajnosti – mračna strana ljudske mašte je neograničena. Kada uđe u domove običnih ljudi, negativni utjecaj koji uzrokuju AI alati može izmaći kontroli.
Korištenje alata ograničeno samo za odabrane
Tvrtka OpenAI dopušta korištenje Sore samo ograničenom broju ljudi, među kojima su kreatori videozapisa i filmaši. Razlog tome je što stručnjaci “crvenog tima” testiraju sposobnost alata da se uskladi s uvjetima pružanja usluge OpenAI-a. Ti uvjeti zabranjuju “ekstremno nasilje, seksualni sadržaj, slike mržnje, portrete slavnih osoba ili IP adrese drugih ljudi”.
Uz to, OpenAI pažljivo razmatra kada će Soru otvoriti za širu javnost. Razlog tome je zabrinutost o negativnom utjecaju tehnologije dubokog lažiranja na društvo, uključujući i nedavne američke izbore.
