Google DeepMind predstavio D4RT: AI koja stvarno razumije svijet
Google DeepMind upravo je predstavio novu tehnologiju D4RT, a tehnološka zajednica već tvrdi da je riječ o jednom od najvećih iskoraka u razumijevanju stvarnog svijeta od strane umjetne inteligencije. Iako naziv zvuči složeno, sama ideja je prilično jednostavna – i istovremeno revolucionarna. D4RT omogućuje AI sustavima da videozapise ne promatraju kao niz nepovezanih kadrova, već kao cjelovitu scenu koja postoji u prostoru i vremenu.
Do sada je razumijevanje videa za računala bilo izuzetno složeno i sporo. Inženjeri su morali razdvajati zadatke: jedan sustav za praćenje gibanja, drugi za procjenu udaljenosti, treći za rotaciju kamere. Takav pristup bio je tehnički zahtjevan, sklon pogreškama, a obrada samo nekoliko sekundi videa mogla je trajati satima – ponekad i cijelu noć.
D4RT mijenja pravila igre
D4RT potpuno mijenja taj pristup. Umjesto razbijanja problema na niz koraka, video tretira kao jedinstvenu, „živu” sliku. AI pamti cijelu scenu i može odmah odgovarati na pitanja poput: gdje se određena točka nalazi u trodimenzionalnom prostoru, kako se kretala kroz vrijeme i kamo će se vjerojatno pomaknuti. Sve se to događa istodobno, bez klasične sekvencijalne obrade.
Najimpresivnije je što je D4RT desetke, pa i stotine puta brži od dosadašnjih rješenja. Video u trajanju od jedne minute može se analizirati u svega nekoliko sekundi. Tajna je u paralelnoj obradi – tisuće piksela analiziraju se istovremeno, a ne jedan po jedan.
Preciznost u stvarnom svijetu
D4RT se ističe i iznimnom preciznošću. U složenim scenama poput trčećih životinja, njišućeg se cvijeća ili gužvi na ulici, stariji sustavi često su proizvodili mutne i nepouzdane 3D rekonstrukcije. D4RT jasno razlikuje kretanje objekata od kretanja kamere, stvarajući čiste i realistične 3D modele.
Posebno je impresivna mogućnost praćenja pojedinačnih piksela. Primjerice, AI može odabrati sitnu točku na latici cvijeta i rekonstruirati njezinu trodimenzionalnu putanju kroz prošlost i budućnost, čak i ako je privremeno zaklonjena ili zamagljena. U tom trenutku AI više ne djeluje kao da samo „gleda” video, već kao da zaista razumije što se događa u sceni.
Praktične posljedice
D4RT može potpuno promijeniti robotiku i autonomna vozila. Strojevi više ne moraju samo znati gdje se objekt nalazi – sada mogu predvidjeti njegovo buduće kretanje, što je ključno za sigurnost i brzu reakciju.
U području proširene stvarnosti, D4RT otvara vrata znatno realističnijim iskustvima. AR naočale mogle bi precizno razumjeti prostor oko korisnika, prepoznati stvarne predmete i na temelju toga prikazivati virtualni sadržaj gotovo bez kašnjenja.
Čak će i obični korisnici osjetiti prednosti. Na pametnim telefonima bit će moguće naknadno mijenjati perspektivu snimke, uklanjati neželjene osobe iz kadra ili prilagođavati osvjetljenje na razini profesionalne filmske produkcije.
AI ulazi u novu dimenziju
D4RT pokazuje da umjetna inteligencija ulazi u novu fazu razvoja. Od prepoznavanja dvodimenzionalnih slika, AI sada prelazi na razumijevanje svijeta u četiri dimenzije – prostoru i vremenu. U tom kontekstu, prošlost i budućnost više nisu apstraktni pojmovi, već pitanja koja se postavljaju istoj, bogatoj slici stvarnosti.


