Meta lansirala Tuna model: AI koji istovremeno razumije slike i – crta budućnost

·

Meta lansirala Tuna model_ AI koji istovremeno razumije slike i – crta budućnost

Meta je početkom 2025. tiho, ali vrlo značajno, predstavila Tuna, novi multimodalni model umjetne inteligencije koji briše granicu između razumijevanja i stvaranja vizualnog sadržaja. Riječ je o sustavu koji ne samo da može analizirati slike i videozapise, već ih i samostalno generirati – koristeći jedan jedinstveni “vizualni jezik”.

Model je razvijen pod vodstvom Metinog BizAI tima, u suradnji s istraživačima sa Sveučilišta u Hong Kongu, Sveučilišta Waterloo i nekoliko drugih institucija, a objavljen je na arXivu pod oznakom arXiv:2512.02014v1. Već na prvi pogled jasno je da Tuna ne pokušava biti još jedan specijalizirani alat, već ambiciozan korak prema svestranijoj, ljudskijoj umjetnoj inteligenciji.

Jedan AI, dvije ključne sposobnosti: vidjeti i stvarati

U dosadašnjem svijetu umjetne inteligencije vladala je stroga podjela rada. Jedni modeli su “gledali” – prepoznavali objekte, tekst i kontekst na slikama – dok su drugi “crtali”, odnosno generirali slike na temelju tekstualnih opisa. Takav pristup funkcionirao je, ali je bio ograničen. Ljudi, za razliku od strojeva, nemaju taj problem. Mi možemo promatrati sliku, razumjeti je i potom uzeti kist – ili kameru – i stvoriti nešto novo. Upravo tu sposobnost Meta pokušava preslikati u Tuni. Stoga je  Tuna zamišljena kao svestrani vizualni umjetnik: model koji koristi isti interni sustav reprezentacije bez obzira na to analizira li sliku ili je stvara. To nije samo tehnički detalj, već temeljna promjena u filozofiji dizajna AI sustava.

Ključna inovacija: jedinstveni vizualni prostor

Najveći izazov za istraživače bio je, pojednostavljeno rečeno, “naučiti AI da bude dobar i u matematici i u crtanju”. Tradicionalni modeli koriste odvojene sustave – jedan za razumijevanje, drugi za generiranje – što često dovodi do neusklađenosti i gubitka informacija. Tuna taj problem rješava stvaranjem jedinstvenog prostora vizualne reprezentacije. U tom prostoru, razumijevanje i generiranje nisu suprotstavljeni procesi, već dvije strane iste medalje. AI “razmišlja” o slici i kada je promatra i kada je stvara. Rezultat je sustav u kojem se te dvije sposobnosti međusobno pojačavaju. Što bolje razumije vizualni svijet, to ga može uvjerljivije reproducirati – i obrnuto.

Kako Tuna “razmišlja” o slici

Proces započinje VAE enkoderom koji sliku ili video pretvara u sažetu, numeričku latentnu reprezentaciju. To je svojevrsni digitalni ekvivalent sažimanja slike u njezinu bit – oblik, boje, odnose i strukturu. Zatim na scenu stupa enkoder reprezentacije, baziran na prilagođenom SigLIP 2 modelu, koji iz tih numeričkih podataka izvlači semantičko značenje. Drugim riječima, Tuna ne vidi samo piksele, već razumije što se nalazi na slici i zašto je to važno. Kod generiranja, proces se obrće. Model na temelju tekstualnog opisa stvara internu vizualnu reprezentaciju, a zatim je dekoder pretvara u konkretnu sliku ili video. Cijeli postupak podsjeća na rad umjetnika koji prvo oblikuje ideju u glavi, a tek onda je prenosi na platno.

Trening u tri faze: od šegrta do majstora

Edukacija Tuna modela provedena je kroz tri jasno definirane faze. Prva faza postavlja temelje. Model uči osnovno razumijevanje slika i jednostavno generiranje, dok je jezični dio sustava privremeno “zamrznut”. Fokus je isključivo na vizualnoj pismenosti. Druga faza uključuje cijeli model. Tuna uči složenije zadatke poput uređivanja slika i razumijevanja videa, prelazeći s pukog kopiranja na kreativno tumačenje. Treća faza koristi visokokvalitetne podatke za fino podešavanje. Ovdje se model trenira na zahtjevnim, realnim scenarijima – baš kao što se mladi umjetnik usavršava kroz praktičan rad.

Ovakav postupni pristup pokazao se ključnim za stabilnost i performanse modela.

Rezultati koji nadmašuju očekivanja

Na benchmark testovima Tuna se pokazala iznimno konkurentnom – često čak i boljom od specijaliziranih modela.

U razumijevanju slika, 7B verzija modela postigla je 61,2 % točnosti na MMStar testu i 74,3 % na OCRBenchu. U generiranju slika, Tuna je briljirala na GenEval, DPG-Bench i OneIG-Bench testovima, posebno u točnom prikazu teksta unutar slike. U uređivanju slika, gotovo se izjednačila sa specijaliziranim alatima dok u razumijevanju i generiranju videa, i manja 1,5B verzija pokazala je rezultate usporedive s većim, namjenskim modelima. Drugim riječima, Tuna ne gubi širinu zbog svestranosti – naprotiv, ona je koristi kao prednost.

Zašto je objedinjeni pristup bolji

Usporedni eksperimenti jasno pokazuju da objedinjena reprezentacija donosi bolje rezultate od odvojenih ili naknadno spojenih sustava. Dok su alternativni pristupi često pristrani prema razumijevanju ili generiranju, Tuna uspijeva zadržati ravnotežu. To je razlika između prevoditelja koji jezik uči “iz knjige” i osobe koja je dvojezična od djetinjstva.

Što to znači u praksi

U stvarnim scenarijima Tuna se pokazuje izuzetno fleksibilnom. Može generirati ilustracije i plakate s preciznim tekstom, uređivati fotografije prema složenim, čak i implicitnim uputama, stvarati koherentne videozapise s jasnom narativnom logikom, prilagođavati stil, jezik i kulturni kontekst sadržaja. Sve to otvara vrata primjenama u dizajnu, obrazovanju, marketingu, znanosti i zabavi.

Ograničenja i pogled u budućnost

Istraživači otvoreno priznaju da model još ima ograničenja, posebno u pogledu računalnih troškova i skaliranja na veće verzije s punom video podrškom. No smjer je jasan. Meta vjeruje da su objedinjeni multimodalni modeli sljedeći veliki korak prema općoj umjetnoj inteligenciji – sustavima koji ne samo da razumiju svijet, već u njemu mogu i kreativno djelovati. Za korisnike to znači pametnije AI asistente koji neće samo odgovarati na pitanja, već će aktivno pomagati u stvaranju ideja, vizuala i priča. Tuna nam već sada daje prilično jasan pogled u tu budućnost.