DeepMind razvio “provjeru činjenica” kako bi ispravio halucinacije Claudea, Gemini, GPT-a i PaLM-2

·

DeepMind razvio  provjeru činjenica kako bi ispravio halucinacije (1)

Jedno od najkritičnijih ponašanja AI chatbotova je takozvana halucinacija, u kojoj umjetna inteligencija izmišlja gluposti. Možda nije toliko problem ako se koristit za fotografije ili videozapise, jer se mogu dobiti maštovitiji prikazi ili u nekim slučajevima možemo te neke nepravilnosti vidjeti. Međutim, u chatbotovima temeljenim na velikim jezičnim modelima (LLM) i tekstu za pružanje informacija koje odgovaraju činjenicama, halucinacije apsolutno nisu poželjne.

DeepMind razvio  provjeru činjenica kako bi ispravio halucinacije (2)

Sprječavanje haluciniranja umjetne inteligencije i provjera činjenica nije tehnički lak zadatak, a Google DeepMind i Sveučilište Stanford pronašli su jedno od mogućih rješenja – Ocjenjivač činjenicama proširenog pretraživanjem (SAFE).

Prvo, SAFE dijeli odgovor na pojedinačne činjenice, revidira ih i uspoređuje s rezultatima Google pretraživanja. Sustav također provjerava relevantnost pojedinih činjenica za izvorno pitanje i učinkovito procjenjuje činjeničnost odgovora dugog oblika koje generiraju AI chatbotovi. Jednostavnije rečeno, analizira, obrađuje i procjenjuje odgovore kako bi provjerio njihovu točnost i autentičnost.

DeepMind razvio  provjeru činjenica kako bi ispravio halucinacije (3)

Nikon, Sony i Canon pokrenuli tehnologiju protiv krivotvorina na svojim fotoaparatima

Čuvajte se da vas ne nokautira Gemini Nano AI na vašem telefonu!

Google otvara jezični model umjetne inteligencije PaLM API kako bi osporio ChatGPT

DeepMind razvio  provjeru činjenica kako bi ispravio halucinacije (4)

Kako bi procijenili performanse učinkovitosti SAFE-a, izgrađen je Long Fact, skup podataka od oko 16 000 činjenica. Zatim su testirali sustav u 13 LLM-ova u četiri različite serije (Claude, Gemini, GPT, PaLM-2). U 72 posto slučajeva SAFE je dao iste rezultate kao i ljudska provjera. U slučaju neslaganja, SAFE je 76 posto točan.

Osim toga, istraživači tvrde da je korištenje SAFE-a 20 puta jeftinije od ljudske provjera činjenica pružajući tako ekonomski održivo rješenje koje se može primijeniti u razmjeru.

Za sve detalje  kao što su rezultati istraživanja, svi eksperimentalni kodovi i skupovi podataka pogledajte na  arXiv.org e-Print archive poveznici.