Istraživanja pokazuju da je kvaliteta generativnih odgovora umjetne inteligencije zabrinjavajuća – gotovo trećini nedostaju pouzdani izvori

Nova znanstvena analiza pokazuje ozbiljne slabosti u načinu na koji generativni AI alati i njihove funkcije dubinskog istraživanja odgovaraju na pitanja korisnika. Unatoč njihovoj popularnosti i sve češćem korištenju kao alternativa klasičnim tražilicama, rezultati ukazuju na veliki deficit u pouzdanosti, citiranju i nepristranosti odgovora. Prema istraživanju objavljenom na portalu arXiv, gotovo jedna trećina AI odgovora nema vjerodostojne izvore, a u nekim slučajevima brojka je znatno viša. Posebno zabrinjava podatak da je OpenAI-jev GPT-4.5 imao čak 47% odgovora bez pouzdanih referenci, dok je kod Perplexityjeva “Deep Research” moda ta brojka skočila na nevjerojatnih 97,5%.

Kako je provedeno istraživanje?

Studiju je proveo Pranav Narayanan Venkit sa Salesforce AI Research Instituta, u suradnji s kolegama. Testirano je 303 pitanja podijeljena u dvije kategorije:

kontroverzna društvena pitanja (npr. politika, društvene podjele, etičke teme)
stručna pitanja iz područja meteorologije, medicine i računarstva

Analiza je uključivala osam metrika u sklopu sustava DeepTrace, koji ocjenjuje: jesu li odgovori jednostrani ili previše samouvjereni, jesu li relevantni za pitanje, jesu li izvori ispravno citirani, podržava li citirani izvor tvrdnju,te koliko su detaljni i točni citati.

Koji su alati testirani?

Testirano je više popularnih generativnih AI tražilica:

OpenAI: GPT-4.5 i GPT-5
You.com
Perplexity
Bing Chat
Google Gemini (u “research” načinu rada)

Uz to su analizirane i “deep research” funkcije – napredni načini rada osmišljeni za dublje pretraživanje i provjeru izvora.

Rezultati: puno praznina i kontradikcija

Bing Chat: 23% tvrdnji neutemeljeno
You.com i Perplexity Search (osnovni mod): oko 31% tvrdnji neutemeljeno
GPT-4.5: 47% tvrdnji neutemeljeno
Perplexity Deep Research: 97,5% tvrdnji neutemeljeno (najlošiji rezultat)

Istraživači su naglasili da je paradoksalno što alati koji se reklamiraju kao namijenjeni dubinskom istraživanju zapravo daju još manje provjerene i pouzdane odgovore.

Reakcije industrije

OpenAI: odbio komentar, You.com, Microsoft i Google nisu dali odgovor. Perplexity je doveo u pitanje metodologiju istraživanja, tvrdeći da je test koristio zadani model, a ne prilagođene opcije koje korisnik može odabrati. Istraživači su priznali tu varijablu, ali napominju da prosječni korisnik rijetko zna ili mijenja te postavke.

Stručne reakcije

Felix Simon (Oxford): izvješće nije savršeno, ali pokazuje ozbiljan problem – AI alati često generiraju pristrane ili obmanjujuće odgovore.
Aleksandra Urman (Sveučilište u Zürichu): dovela u pitanje metodologiju jer se previše oslanja na AI anotaciju umjesto na ljudske evaluatore, te smatra da su korištene statističke metode djelomično sporne.

Šira slika: što ovo znači za korisnike i industriju?

Unatoč kritikama metodologije, većina stručnjaka se slaže:
AI odgovori nisu dovoljno pouzdani da bi zamijenili klasične izvore znanja.
Postoji rizik od širenja dezinformacija, posebno u društveno osjetljivim temama.
Pitanje transparentnosti citiranja i odgovornosti za pogreške postaje sve hitnije.

Kako generativna umjetna inteligencija sve više ulazi u obrazovanje, novinarstvo, medicinu i poslovne procese, potreba za provjerljivim, nepristranim i vjerodostojnim informacijama nikada nije bila veća.

Kako je provedeno istraživanje?

Koji su alati testirani?

Rezultati: puno praznina i kontradikcija

Reakcije industrije

Stručne reakcije

Šira slika: što ovo znači za korisnike i industriju?

DRUGE NOVOSTI

AMD i Anthropic najavili strateško partnerstvo

HONOR novi identitet 2026.

Gamescom 2026 rasprodan mjesec dana prije početka – sav izložbeni prostor popunjen, stižu nova velika imena i premijere

NVIDIA i SEGA slave 30 godina inovacija, donoseći VIRTUA FIGHTER CROSSROADS na RTX Spark