Google DeepMind predstavio D4RT: AI koja stvarno razumije svijet

·

DeepMind razvio  provjeru činjenica kako bi ispravio halucinacije (1)

Google DeepMind upravo je predstavio novu tehnologiju D4RT, a tehnološka zajednica već tvrdi da je riječ o jednom od najvećih iskoraka u razumijevanju stvarnog svijeta od strane umjetne inteligencije. Iako naziv zvuči složeno, sama ideja je prilično jednostavna – i istovremeno revolucionarna. D4RT omogućuje AI sustavima da videozapise ne promatraju kao niz nepovezanih kadrova, već kao cjelovitu scenu koja postoji u prostoru i vremenu.

Do sada je razumijevanje videa za računala bilo izuzetno složeno i sporo. Inženjeri su morali razdvajati zadatke: jedan sustav za praćenje gibanja, drugi za procjenu udaljenosti, treći za rotaciju kamere. Takav pristup bio je tehnički zahtjevan, sklon pogreškama, a obrada samo nekoliko sekundi videa mogla je trajati satima – ponekad i cijelu noć.

Google DeepMind predstavio D4RT_ AI koja stvarno razumije svijet_4

D4RT mijenja pravila igre

D4RT potpuno mijenja taj pristup. Umjesto razbijanja problema na niz koraka, video tretira kao jedinstvenu, „živu” sliku. AI pamti cijelu scenu i može odmah odgovarati na pitanja poput: gdje se određena točka nalazi u trodimenzionalnom prostoru, kako se kretala kroz vrijeme i kamo će se vjerojatno pomaknuti. Sve se to događa istodobno, bez klasične sekvencijalne obrade.

Najimpresivnije je što je D4RT desetke, pa i stotine puta brži od dosadašnjih rješenja. Video u trajanju od jedne minute može se analizirati u svega nekoliko sekundi. Tajna je u paralelnoj obradi – tisuće piksela analiziraju se istovremeno, a ne jedan po jedan.

Google DeepMind predstavio D4RT_ AI koja stvarno razumije svijet_3

Preciznost u stvarnom svijetu

D4RT se ističe i iznimnom preciznošću. U složenim scenama poput trčećih životinja, njišućeg se cvijeća ili gužvi na ulici, stariji sustavi često su proizvodili mutne i nepouzdane 3D rekonstrukcije. D4RT jasno razlikuje kretanje objekata od kretanja kamere, stvarajući čiste i realistične 3D modele.

Posebno je impresivna mogućnost praćenja pojedinačnih piksela. Primjerice, AI može odabrati sitnu točku na latici cvijeta i rekonstruirati njezinu trodimenzionalnu putanju kroz prošlost i budućnost, čak i ako je privremeno zaklonjena ili zamagljena. U tom trenutku AI više ne djeluje kao da samo „gleda” video, već kao da zaista razumije što se događa u sceni.

Praktične posljedice

D4RT može potpuno promijeniti robotiku i autonomna vozila. Strojevi više ne moraju samo znati gdje se objekt nalazi – sada mogu predvidjeti njegovo buduće kretanje, što je ključno za sigurnost i brzu reakciju.

U području proširene stvarnosti, D4RT otvara vrata znatno realističnijim iskustvima. AR naočale mogle bi precizno razumjeti prostor oko korisnika, prepoznati stvarne predmete i na temelju toga prikazivati virtualni sadržaj gotovo bez kašnjenja.

Čak će i obični korisnici osjetiti prednosti. Na pametnim telefonima bit će moguće naknadno mijenjati perspektivu snimke, uklanjati neželjene osobe iz kadra ili prilagođavati osvjetljenje na razini profesionalne filmske produkcije.

AI ulazi u novu dimenziju

D4RT pokazuje da umjetna inteligencija ulazi u novu fazu razvoja. Od prepoznavanja dvodimenzionalnih slika, AI sada prelazi na razumijevanje svijeta u četiri dimenzije – prostoru i vremenu. U tom kontekstu, prošlost i budućnost više nisu apstraktni pojmovi, već pitanja koja se postavljaju istoj, bogatoj slici stvarnosti.