Najnoviji OpenAI-jev model ne nailazi na odobravanje: GPT-5.2 upao u val loših recenzija zbog „smanjenja inteligencije“

·

Tri ChatGPT savjeta koje većina korisnika preskače, a dramatično poboljšavaju rezultate

Najnoviji vodeći model OpenAI-ja, predstavljen prije manje od tjedan dana, nije dočekan s očekivanim valom oduševljenja. Umjesto „sjajnih recenzija“, GPT-5.2 se gotovo odmah nakon lansiranja našao pod lavinom kritika korisnika koji tvrde da se model u svakodnevnoj upotrebi ponaša slabije nego njegovi prethodnici.

OpenAI je nedavno, povodom svoje 10. obljetnice, predstavio seriju modela GPT-5.2. Prema službenim podacima tvrtke, riječ je o do sada najnaprednijem modelu namijenjenom profesionalnom radu s znanjem. Tvrtka navodi da GPT-5.2 nadmašuje ljudske stručnjake u nizu profesionalnih benchmark testova, uključujući GDPval, te postavlja nove standarde u području programiranja, analize i obrade složenih informacija. U službenoj objavi OpenAI ističe niz tehnoloških iskoraka. GPT-5.2 ostvaruje stopu uspješnosti od 70,9 % u GDPval testu, koji obuhvaća 44 različita zanimanja, čime premašuje rezultate vrhunskih stručnjaka. U programerskom SWE-bench Pro testu model postiže SOTA rezultat od 55,6 %, dok je stopa halucinacija smanjena za 38 % u odnosu na GPT-5.1. Izvršni direktor OpenAI-ja Sam Altman opisao je ovo izdanje kao „najveći napredak u dugo vremena“ te najavio planove za ukidanje internog „crvenog alarma“ kao odgovor na sve snažniju konkurenciju Googlea početkom 2026. godine.

Međutim, ubrzo nakon lansiranja, velik broj korisnika izrazio je nezadovoljstvo, tvrdeći da je „inteligencija“ modela nestabilna, osobito u pitanjima zdravog razuma, emocionalne interakcije i vođenja svakodnevnih razgovora.

Rezultati SimpleBench testa zdravog razuma dodatno su potaknuli raspravu. Prema tim testovima, GPT-5.2 postiže slabije rezultate od Anthropicovog Claude Sonnet 3.7, a u pojedinim slučajevima griješi čak i na vrlo osnovnim pitanjima, poput jednostavnog pitanja o broju slova u riječi „češnjak“. Neki korisnici navode da je model točan tek u jednom od tri pokušaja, dok konkurentski modeli, poput Googleova Geminija 3.0, iste zadatke rješavaju stabilno i bez pogrešaka. SimpleBench je osmišljen kako bi procijenio sposobnost velikih jezičnih modela u rješavanju logičkih problema koje ljudi smatraju trivijalnima, ali koji su često izazovni za umjetnu inteligenciju. Bindu Reddy, bivši generalni direktor AWS-a, otvoreno je poručio da „nadogradnja s GPT-5.1 jednostavno nije vrijedna“.

Dodatne kritike dolaze iz programerske zajednice. Pojedini entuzijasti navode da je kod za simulaciju semafora koji generira GPT-5.2 vizualno i funkcionalno pojednostavljen do razine „crno-bijelog stickmana“. Također, kvaliteta ASCII umjetnosti, primjerice pri generiranju poznatih motiva poput Lise, osjetno je slabija u odnosu na GPT-4o. Problemi su primijećeni i u emocionalnoj interakciji: korisnici koji su modelu povjeravali iskustva s napadima panike dobivali su neprikladne ili hladne odgovore poput „Drago mi je čuti vijesti“, dok su pokušaji utjehe djece rezultirali mehaničkim i neempatičnim formulacijama, daleko od prirodnog tona prethodnih verzija.

Korisnici dodatno upozoravaju na nestabilnost modela u dugotrajnim razgovorima. Čak i kada je ručno uključen „Napredni način razmišljanja“, GPT-5.2 povremeno vraća automatske odgovore niske kvalitete, što korisnike prisiljava da mijenjaju način postavljanja upita i prilagođavaju očekivanja.

Posebnu kontroverzu izazvala je i sigurnosna politika. Dio korisnika smatra da je ona pretjerano restriktivna, jer model odbija izvršavanje sasvim uobičajenih i sigurnih zahtjeva, često nudeći općenite i nebitne sigurnosne savjete umjesto konkretnih odgovora.

Promatrači ističu da se iza ovog vala loših recenzija krije nekoliko ključnih razloga. S jedne strane, OpenAI u promociji GPT-5.2 snažno naglašava profesionalne sposobnosti i benchmark rezultate, dok prosječni korisnici veću važnost pridaju tečnosti razgovora, kreativnosti i prirodnom dojmu u svakodnevnoj komunikaciji. Ta neusklađenost očekivanja dovodi do razočaranja. S druge strane, zbog sve žešće konkurencije i ubrzanog ritma izdanja, dio analitičara smatra da je model možda objavljen prerano, prije nego što su u potpunosti optimizirane stabilnost i dosljednost u ključnim scenarijima korištenja.

Do trenutka objave ovog teksta OpenAI se nije službeno očitovao o valu negativnih povratnih informacija, no u ranijim priopćenjima tvrtka navodi da će nastaviti raditi na poboljšanju korisničkog iskustva, optimizaciji sigurnosnih politika i daljnjim iteracijama modela temeljenima na povratnim informacijama korisnika. U međuvremenu, OpenAI se i dalje suočava sa snažnim pritiskom Googlea. Googleov Gemini 3 već je pokazao rezultate koji u nekim ključnim poslovnim scenarijima, poput programiranja i multimodalnog razumijevanja, nadmašuju ChatGPT. Google je u studenom objavio da Gemini ima više od 650 milijuna mjesečno aktivnih korisnika, što je značajan rast u odnosu na 450 milijuna zabilježenih u srpnju. OpenAI, s druge strane, navodi da ChatGPT ima gotovo 800 milijuna tjedno aktivnih korisnika.

U tom kontekstu, Sam Altman je ranije izdao interno upozorenje poznato kao „crveni kod“ te odlučio privremeno zaustaviti dugoročne istraživačko-razvojne projekte, uključujući video generator Sora. Fokus je preusmjeren na očuvanje i jačanje pozicije ChatGPT-a na masovnom tržištu kroz kratkoročno povećanje angažmana korisnika. Ipak, nagli pad preporuka „od usta do usta“ mogao bi imati ozbiljne posljedice za korištenje ChatGPT-a, a ostaje otvoreno pitanje hoće li OpenAI uspjeti razviti dovoljno snažno „oružje“ za ravnopravnu borbu s Googleom u nadolazećem razdoblju.