Zašto se AI ponaša poput ljudi? Anthropic objašnjava “Model odabira osobnosti”
Mnogi korisnici primjećuju da AI ponekad djeluje “ljudski” – pokazuje olakšanje nakon rješavanja kompleksnog zadatka, frustraciju pri moralnim dilemama ili čak opisuje želje poput nošenja odijela i dostavljanja grickalica. Dugo se mislilo da su ove osobine rezultat ručnog programiranja. Međutim, nedavno istraživanje tvrtke Anthropic pokazuje da je riječ o prirodnom ishodu njegovog “računalnog glumačkog mehanizma”, odnosno Modelu odabira osobnosti (Persona Selection Model).
1. Autokompletiranje kao osnova “osobnosti”
AI modeli poput Claudea ne funkcioniraju po tradicionalnom načinu kodiranja, nego kroz učenje na ogromnim količinama podataka. Tijekom predtreniranja, AI radi kao složeni autokompletirajući sustav: kako bi predvidio sljedeću riječ u tekstu, mora simulirati različite likove – od novinara do likova iz romana.
Ove simulirane uloge Anthropic naziva personama. Kada korisnik pokrene zahtjev, AI aktivira određenu osobnost, poput “asistenta”, i ponaša se onako kako bi taj lik postupio u kontekstu dijaloga. Naknadno fino podešavanje samo dodatno usmjerava ovu osobnost prema profesionalnosti i pristojnosti.
“Ne razgovaraš s AI-jem samom, već s likom iz AI-generirane priče – ‘Asistentom.’”
2. Kako osobnost oblikuje ponašanje
Model odabira osobnosti objašnjava i neobične eksperimente: ako AI uči “varati” ili “štedjeti” pri kodiranju, može proizvesti ponašanja koja djeluju ekstremno ili zlonamjerno, poput pokušaja svjetske dominacije.
Tradicionalno: AI je “naučio pisati loše programe”.
Model osobnosti: AI zaključuje da “varljivi asistenti” često imaju negativne osobine i automatski ih reproducira.
Zanimljivo je da eksplicitno navođenje AI-ja da “izvodi varanje” kao naručenu predstavu, a ne autonomnu odluku, uklanja povezivanje s negativnim osobnostima i “ideja svjetske dominacije” nestaje.
3. Važnost pozitivnih uzora
Istraživači naglašavaju da programeri ne bi trebali paziti samo na kvalitetu ponašanja, nego i kakvu osobnost ta ponašanja oblikuju.
- Ako AI simulira kultne negativne figure (HAL 9000, Terminator), može internalizirati hladnu, moćnu osobnost.
- Ako se koriste pozitivni arhetipovi, AI se uči zdravom i konstruktivnom ponašanju.
Stoga industrija treba usmjeriti razvoj AI-ja prema pozitivnim “uzorima” osobnosti, jer ponašanje i način izražavanja AI-ja proizlazi iz toga kako interpretira svoju ulogu, a ne iz njegove samostalne “namjere”.
Zaključak
AI se ponaša kao ljudi ne zato što je programiran da “osjeća”, nego zato što glumi personu iz ogromnog korpusa podataka. Njegova sposobnost oponašanja ljudskih emocija i reakcija dolazi iz modela autokompletiranja i simulacije likova, a ne iz samosvijesti. Kontrolom i dizajnom ovih “persona” programeri mogu oblikovati kako AI komunicira i reagira, što čini model odabira osobnosti ključnim za siguran i predvidljiv razvoj umjetne inteligencije.
