Google lansira Gemini 2.5 AI model koji koristi preglednik poput stvarne osobe

·

Google lansira Gemini 2.5 AI model koji koristi preglednik poput stvarne osobe.j

Google je najavio Gemini 2.5 Computer Use AI, novi model umjetne inteligencije koji omogućuje AI-u da izravno djeluje u web pregledniku poput stvarnog korisnika. Model može klikati, tipkati, pomicati stranice, povlačiti i ispuštati elemente, te navigirati web stranicama, što predstavlja značajan korak naprijed u radu AI-a sa sučeljima koja nemaju API-je ili izravne veze.

Kako radi Gemini 2.5 Computer Use

Prema Googleu, Gemini 2.5 opremljen je vizualnim razumijevanjem i sposobnostima rasuđivanja, što mu omogućuje da interpretira sadržaj na zaslonu, izvršava korisničke zahtjeve, poput ispunjavanja obrazaca ili slanja podataka i navigira kroz korisnička sučelja. Model može reagirati na različite elemente sučelja, čime se omogućuje automatizacija zadataka koji prije nisu bili jednostavno izvedivi putem API-ja.

Povijest i testiranje

Prethodne verzije ovog modela testirane su u internim projektima kao što su AI Mode i Project Mariner, gdje je AI mogao, primjerice, automatski dodavati proizvode u košaricu prema popisu korisnika. Googleova najava dolazi dan nakon predstavljanja novih ChatGPT aplikacija na OpenAI Dev Day, dok je Anthropic prošle godine predstavio značajku “korištenja računala” za Claude model.

Značajke i ograničenja

Gemini 2.5 Computer Use trenutno podržava 13 vrsta operacija, uključujući otvaranje preglednika, unos teksta, povlačenje i ispuštanje te pomicanje elemenata. Za razliku od ChatGPT Agenta ili Claude alata, ovaj model je ograničen na okruženje preglednika i nije dizajniran za upravljanje cijelim operativnim sustavom, ali  nadmašuje konkurenciju na mnogim web i mobilnim benchmark testovima.

Dostupnost i demonstracije

Gemini 2.5 dostupan je programerima putem Google AI Studija i Vertex AI. Korisnici mogu isprobati demo uživo na Browserbaseu, gdje AI obavlja zadatke poput igranja igre 2048 i pronalaženja popularnih tema na Hacker Newsu. Ovaj model predstavlja novi način interakcije AI-a s webom, približavajući umjetnu inteligenciju ponašanju stvarnog korisnika i omogućujući automatizaciju kompleksnih zadataka bez potrebe za dodatnim API-jima.