Istraživanja pokazuju da je kvaliteta generativnih odgovora umjetne inteligencije zabrinjavajuća – gotovo trećini nedostaju pouzdani izvori

·

Istraživanja pokazuju da je kvaliteta generativnih odgovora umjetne inteligencije zabrinjavajuća – gotovo trećini nedostaju pouzdani izvori

Nova znanstvena analiza pokazuje ozbiljne slabosti u načinu na koji generativni AI alati i njihove funkcije dubinskog istraživanja odgovaraju na pitanja korisnika. Unatoč njihovoj popularnosti i sve češćem korištenju kao alternativa klasičnim tražilicama, rezultati ukazuju na veliki deficit u pouzdanosti, citiranju i nepristranosti odgovora. Prema istraživanju objavljenom na portalu arXiv, gotovo jedna trećina AI odgovora nema vjerodostojne izvore, a u nekim slučajevima brojka je znatno viša. Posebno zabrinjava podatak da je OpenAI-jev GPT-4.5 imao čak 47% odgovora bez pouzdanih referenci, dok je kod Perplexityjeva “Deep Research” moda ta brojka skočila na nevjerojatnih 97,5%.

Kako je provedeno istraživanje?

Studiju je proveo Pranav Narayanan Venkit sa Salesforce AI Research Instituta, u suradnji s kolegama. Testirano je 303 pitanja podijeljena u dvije kategorije:

  • kontroverzna društvena pitanja (npr. politika, društvene podjele, etičke teme)
  • stručna pitanja iz područja meteorologije, medicine i računarstva

Analiza je uključivala osam metrika u sklopu sustava DeepTrace, koji ocjenjuje: jesu li odgovori jednostrani ili previše samouvjereni, jesu li relevantni za pitanje, jesu li izvori ispravno citirani, podržava li citirani izvor tvrdnju,te koliko su detaljni i točni citati.

Koji su alati testirani?

Testirano je više popularnih generativnih AI tražilica:

  • OpenAI: GPT-4.5 i GPT-5
  • You.com
  • Perplexity
  • Bing Chat
  • Google Gemini (u “research” načinu rada)

Uz to su analizirane i “deep research” funkcije – napredni načini rada osmišljeni za dublje pretraživanje i provjeru izvora.

Rezultati: puno praznina i kontradikcija

  • Bing Chat: 23% tvrdnji neutemeljeno
  • You.com i Perplexity Search (osnovni mod): oko 31% tvrdnji neutemeljeno
    GPT-4.5: 47% tvrdnji neutemeljeno
  • Perplexity Deep Research: 97,5% tvrdnji neutemeljeno (najlošiji rezultat)

Istraživači su naglasili da je paradoksalno što alati koji se reklamiraju kao namijenjeni dubinskom istraživanju zapravo daju još manje provjerene i pouzdane odgovore.

Reakcije industrije

OpenAI: odbio komentar, You.com, Microsoft i Google  nisu dali odgovor. Perplexity je doveo u pitanje metodologiju istraživanja, tvrdeći da je test koristio zadani model, a ne prilagođene opcije koje korisnik može odabrati. Istraživači su priznali tu varijablu, ali napominju da prosječni korisnik rijetko zna ili mijenja te postavke.

Stručne reakcije

  • Felix Simon (Oxford): izvješće nije savršeno, ali pokazuje ozbiljan problem – AI alati često generiraju pristrane ili obmanjujuće odgovore.
  • Aleksandra Urman (Sveučilište u Zürichu): dovela u pitanje metodologiju jer se previše oslanja na AI anotaciju umjesto na ljudske evaluatore, te smatra da su korištene statističke metode djelomično sporne.

Šira slika: što ovo znači za korisnike i industriju?

  • Unatoč kritikama metodologije, većina stručnjaka se slaže:
  • AI odgovori nisu dovoljno pouzdani da bi zamijenili klasične izvore znanja.
  • Postoji rizik od širenja dezinformacija, posebno u društveno osjetljivim temama.
  • Pitanje transparentnosti citiranja i odgovornosti za pogreške postaje sve hitnije.

Kako generativna umjetna inteligencija sve više ulazi u obrazovanje, novinarstvo, medicinu i poslovne procese, potreba za provjerljivim, nepristranim i vjerodostojnim informacijama nikada nije bila veća.