Tri stvari u kojima ChatGPT nadmašuje Geminija i zašto je vrijedan pažnje

·

Novi način učenja u ChatGPT-u radi potpuno drugačije

Na tržištu postoji desetine tisuća različitih proizvoda umjetne inteligencije (AI), iako većina nas zapravo poznaje samo mali dio njih. Usporedba dva najveća AI sustava, ChatGPT i Gemini, nije jednostavan zadatak jer oba sustava nude širok spektar mogućnosti i gotovo stalno se unapređuju, pa je teško napraviti apsolutno preciznu procjenu njihove učinkovitosti.

Prije nekoliko godina mogli smo napraviti neke paralelne usporedbe između velikih jezičnih modela, no razlike među njima su se brzo smanjivale, posebno kada govorimo o velikim brendovima poput OpenAI-ja i Googlea. Iako još uvijek možete naići na članke u kojima netko postavlja isto pitanje oba sustava i rangira odgovore prema osobnim preferencijama, takva metoda ima brojne nedostatke. Prvo, izlaz LLM-a je djelomično “nasumičan”, što znači da isto pitanje može dati različite odgovore svaki put. Drugo, oba sustava sada mogu gotovo sve što se od modernih AI-a očekuje, pa je često stvar osobnog stila i preferencija u tonu ili načinu odgovaranja. Srećom, ton i stil razgovora kod ChatGPT-a mogu se jednostavno prilagoditi vašim željama, što daje dodatnu fleksibilnost u korištenju.

Budući da ne provodimo vlastite rigorozne znanstvene procjene, ocjene kvalitete rada AI-a prepustili smo stručnjacima i standardiziranim testovima koji mjere sposobnosti sustava u različitim područjima, uključujući zaključivanje, logiku i rješavanje problema. Donosimo tri ključna područja u kojima ChatGPT trenutačno nadmašuje Geminija i pokazuje značajne prednosti.

1. Odgovaranje na teška znanstvena pitanja koja Google ne može riješiti

Jedan od najvažnijih testova za AI sustave je GPQA Diamond, koji procjenjuje sposobnost zaključivanja na razini doktora iz područja fizike, kemije i biologije. GPQA (Google-Proof Questions and Answers) uključuje posebno teška pitanja koja se ne mogu jednostavno pronaći na Googleu i koja zahtijevaju primjenu kompleksnih znanstvenih koncepata, izbjegavanje pretpostavki i ignoriranje ometajućih informacija. Radi se o pitanjima s višestrukim izborom, pa se AI model ocjenjuje samo na temelju točnosti odgovora.

Na ovom testu, ChatGPT i Gemini postižu vrlo slične rezultate, no ChatGPT trenutno ima malu prednost od 0,5%, s ocjenom 92,4% u odnosu na Gemini 3 Pro sa 91,9%. Iako stvarna pitanja nisu javna zbog svoje kompleksnosti, tipove zadataka koji se koriste u testu možete pogledati online, a oni ilustriraju koliko je važno razumjeti koncepte i logički razmišljati umjesto traženja jednostavnih odgovora.

2. Rješavanje praktičnih programskih problema

Sposobnost AI sustava da rješava stvarne probleme u softverskom inženjerstvu ključna je za primjenu u stvarnom svijetu. SWE-Bench Pro test procjenjuje kako AI može interpretirati nepoznatu bazu koda, razumjeti prijave grešaka i osmisliti učinkovita rješenja. Ovaj privatni skup podataka posebno je težak i zahtijeva napredne vještine.

U ovom testu ChatGPT-5.2 riješio je oko 24% problema, dok je Gemini uspio riješiti samo 18%, što pokazuje značajnu prednost u razumijevanju kompleksnog koda i pronalaženju rješenja u stvarnim situacijama. Iako se ti postoci mogu činiti niskima, test je dizajniran tako da predstavlja najteže izazove u programiranju, a za usporedbu, ljudi uspijevaju riješiti svih 100% zadataka u istom skupu.

3. Rješavanje apstraktnih slikovnih zagonetki

ARC-AGI-2 benchmark test procjenjuje sposobnost AI sustava da primijeni apstraktno vizualno zaključivanje. AI mora prepoznati osnovni obrazac iz nekoliko primjera i zatim ga pravilno primijeniti na novi izazov. Ovo je područje u kojem ljudi općenito dobro prolaze, dok AI često ima problema s pronalaskom pravih odgovora zbog složenosti zadataka i prisutnih ometanja.

Na ARC-AGI-2 ljestvici, ChatGPT-5.2 Pro postigao je 54,2%, dok su Geminijevi modeli postigli znatno niže rezultate: Gemini 3 Deep Think 45,1% i Gemini 3 Pro samo 31,1%. Ovi rezultati pokazuju da ChatGPT ne samo da nadmašuje Geminija, već se izdvaja i među svim ostalim konkurentima u ovom segmentu apstraktnog vizualnog zaključivanja.

Ukratko, ChatGPT pokazuje značajne prednosti u složenim zadacima koji zahtijevaju duboko razumijevanje, logičko razmišljanje i primjenu znanja, bilo da se radi o znanstvenim pitanjima, programiranju ili apstraktnim zagonetkama, što ga čini snažnim i svestranim alatom u usporedbi s Geminijem