Istraživanja pokazuju da je kvaliteta generativnih odgovora umjetne inteligencije zabrinjavajuća – gotovo trećini nedostaju pouzdani izvori
Nova znanstvena analiza pokazuje ozbiljne slabosti u načinu na koji generativni AI alati i njihove funkcije dubinskog istraživanja odgovaraju na pitanja korisnika. Unatoč njihovoj popularnosti i sve češćem korištenju kao alternativa klasičnim tražilicama, rezultati ukazuju na veliki deficit u pouzdanosti, citiranju i nepristranosti odgovora. Prema istraživanju objavljenom na portalu arXiv, gotovo jedna trećina AI odgovora nema vjerodostojne izvore, a u nekim slučajevima brojka je znatno viša. Posebno zabrinjava podatak da je OpenAI-jev GPT-4.5 imao čak 47% odgovora bez pouzdanih referenci, dok je kod Perplexityjeva “Deep Research” moda ta brojka skočila na nevjerojatnih 97,5%.
Kako je provedeno istraživanje?
Studiju je proveo Pranav Narayanan Venkit sa Salesforce AI Research Instituta, u suradnji s kolegama. Testirano je 303 pitanja podijeljena u dvije kategorije:
- kontroverzna društvena pitanja (npr. politika, društvene podjele, etičke teme)
- stručna pitanja iz područja meteorologije, medicine i računarstva
Analiza je uključivala osam metrika u sklopu sustava DeepTrace, koji ocjenjuje: jesu li odgovori jednostrani ili previše samouvjereni, jesu li relevantni za pitanje, jesu li izvori ispravno citirani, podržava li citirani izvor tvrdnju,te koliko su detaljni i točni citati.
Koji su alati testirani?
Testirano je više popularnih generativnih AI tražilica:
- OpenAI: GPT-4.5 i GPT-5
- You.com
- Perplexity
- Bing Chat
- Google Gemini (u “research” načinu rada)
Uz to su analizirane i “deep research” funkcije – napredni načini rada osmišljeni za dublje pretraživanje i provjeru izvora.
Rezultati: puno praznina i kontradikcija
- Bing Chat: 23% tvrdnji neutemeljeno
- You.com i Perplexity Search (osnovni mod): oko 31% tvrdnji neutemeljeno
GPT-4.5: 47% tvrdnji neutemeljeno - Perplexity Deep Research: 97,5% tvrdnji neutemeljeno (najlošiji rezultat)
Istraživači su naglasili da je paradoksalno što alati koji se reklamiraju kao namijenjeni dubinskom istraživanju zapravo daju još manje provjerene i pouzdane odgovore.
Reakcije industrije
OpenAI: odbio komentar, You.com, Microsoft i Google nisu dali odgovor. Perplexity je doveo u pitanje metodologiju istraživanja, tvrdeći da je test koristio zadani model, a ne prilagođene opcije koje korisnik može odabrati. Istraživači su priznali tu varijablu, ali napominju da prosječni korisnik rijetko zna ili mijenja te postavke.
Stručne reakcije
- Felix Simon (Oxford): izvješće nije savršeno, ali pokazuje ozbiljan problem – AI alati često generiraju pristrane ili obmanjujuće odgovore.
- Aleksandra Urman (Sveučilište u Zürichu): dovela u pitanje metodologiju jer se previše oslanja na AI anotaciju umjesto na ljudske evaluatore, te smatra da su korištene statističke metode djelomično sporne.
Šira slika: što ovo znači za korisnike i industriju?
- Unatoč kritikama metodologije, većina stručnjaka se slaže:
- AI odgovori nisu dovoljno pouzdani da bi zamijenili klasične izvore znanja.
- Postoji rizik od širenja dezinformacija, posebno u društveno osjetljivim temama.
- Pitanje transparentnosti citiranja i odgovornosti za pogreške postaje sve hitnije.
Kako generativna umjetna inteligencija sve više ulazi u obrazovanje, novinarstvo, medicinu i poslovne procese, potreba za provjerljivim, nepristranim i vjerodostojnim informacijama nikada nije bila veća.
