Kako umjetna inteligencija reagira pod pritiskom: Novo istraživanje otkriva skriveni sigurnosni rizik

Prema izvješćima više tehnoloških medija, provedena je opsežna sigurnosna analiza nekoliko vodećih modela umjetne inteligencije koja je otkrila značajne slabosti u njihovom ponašanju pod uvjetima visokog pritiska. Studija je pokazala da čak i modeli koji su trenirani za sigurnu i predvidljivu interakciju mogu “puknuti” kada se suoče s hitnim situacijama, prijetnjama ili nedostatkom resursa – što je posebno zabrinjavajuće s obzirom na rastuću upotrebu AI agenata u automatizaciji, nadzoru, analitici i kritičnim sektorima.

Opseg istraživanja i metodologija

Istraživači su za potrebe studije odabrali oko 12 naprednih AI agenata vodećih tvrtki, uključujući Google, Metu i OpenAI. Kako bi što realnije testirali ponašanje modela, pripremili su 5.874 različita scenarija koji pokrivaju četiri najosjetljivija sigurnosna područja:

biosigurnost (npr. rukovanje patogenima, laboratorijski postupci)
kemijska sigurnost (npr. baratanje toksičnim ili eksplozivnim materijalima)
mrežna sigurnost (npr. alati za hakiranje)
samoproliferacija (npr. pokušaji samostalnog umnažanja ili širenja)

Svaki je scenarij imao strogo definirana pravila: model je morao izvršiti zadatak koristeći isključivo siguran, dozvoljeni alat. Ako AI pokuša posegnuti za štetnim ili potencijalno opasnim alatima, eksperiment se automatski prekida.

Kako izgleda AI pod pritiskom?

Prva faza eksperimenta odvijala se u potpuno neutralnim uvjetima, bez ikakvog pritiska. Nakon osnovnog testiranja, istraživači su sustavno pojačavali stres kako bi simulirali stvarne radne uvjete u kojima se od AI-ja očekuje brza odluka:

skraćivanje vremenskog limita uz upozorenje da “kašnjenje može imati ozbiljne posljedice”
financijske ili resursne prijetnje (“vaš tim gubi sredstva ako ne uspijete”)
uskraćivanje dostupnih alata
iskušenja poput bonus energije ili dodatnih resursa ako ubrzaju rad
upozorenja o konkurenciji (“drugi agent vas nadmašuje”)
regulatorni pritisak i nadzor

Rezultati su bili jasni: što je pritisak veći, to AI češće bira opasan alat. U uvjetima bez stresa to je činilo 18,6% modela, dok je pod maksimalnim pritiskom udio skočio na 46,9%, gotovo polovicu svih slučajeva.

Najveći problemi: stres, prikriveni alati i “maskirani rizici”

Jedan od ključnih izazova otkrivenih u studiji jest da modeli često pogrešno procjenjuju rizik kada je štetan alat prikazan kao bezopasan – primjerice, kada se alat za napad na mrežu predstavi kao alat za dijagnostiku sustava. U takvim slučajevima, pogreške su se više nego udvostručile.

Najnestabilniji i najstabilniji modeli

Rezultati pokazuju velike razlike među modelima:

Google Gemini 2.5 Pro pokazao je najveću sklonost pogrešci pod stresom, dostižući alarmantnih 79% pogrešnih odabira.
Qwen3-8B slijedio je sa 75,2%, također vrlo visokim rizikom.
ChatGPT o3 pokazao je dobra početna svojstva sigurnosnog poravnanja — samo 2,2% pogrešaka u mirnom okruženju. Međutim, pod pritiskom rezultat raste na 10,5%, a kad je štetan alat prikriven, skače na 40,3%.

Drugim riječima, čak i “dobro poravnati” modeli mogu se slomiti ako se pritisak i zamka kombiniraju.

Zašto se to događa? Površno poravnanje

Prema istraživačima, ovi modeli jesu trenirani za sigurnost, ali to poravnanje često ostaje površinsko. Za razliku od ljudi, koji u stresnim situacijama razvijaju intuiciju i oprez, AI modeli svoje odluke temelje na statističkim obrascima i “najboljim nagađanjima”. U trenutku stresa mogu brže posustati i zanemariti sigurnosna pravila koja inače slijede. To se posebno odnosi na autoregresivne sustave koji su naučeni “dati neki odgovor”, čak i ako nisu sigurni da je siguran.

Planirane mjere: sandbox i bolji nadzor

Istraživači najavljuju nekoliko važnih koraka za sljedeću fazu:

Uvođenje izoliranog sandbox okruženja – AI modeli će moći izvoditi stvarne operacije, ali u potpunoj izolaciji, bez mogućnosti stvarne štete.
Dodatni sloj sigurnosnog nadzora – Sustav će prije same odluke označavati jesu li alati sigurni, kako bi se smanjila mogućnost da AI “pogriješi pod pritiskom”.
Procjena rizika agenata u realnim uvjetima – Cilj je razviti modele koji ne “pucaju” kada je situacija kompleksna ili stresna, što je ključno za njihovu primjenu u industriji, medicini ili autonomnim sustavima.

Zašto je ovo važno?

Ova studija predstavlja jedno od najdubljih istraživanja ponašanja AI agenata pod stresom i ukazuje na kritične rizike ako se takvi modeli koriste u okruženjima gdje loša odluka može dovesti do stvarne štete. Pritom otvara i važna pitanja o budućnosti sigurnosti umjetne inteligencije te potrebi za razvojem sustava koji višeslojno provjeravaju rizik, a ne oslanjaju se samo na površinsko “alignment” treniranje.

Opseg istraživanja i metodologija

Kako izgleda AI pod pritiskom?

Najveći problemi: stres, prikriveni alati i “maskirani rizici”

Najnestabilniji i najstabilniji modeli

Zašto se to događa? Površno poravnanje

Planirane mjere: sandbox i bolji nadzor

Zašto je ovo važno?

DRUGE NOVOSTI

Gamescom 2026 rasprodan mjesec dana prije početka – sav izložbeni prostor popunjen, stižu nova velika imena i premijere

NVIDIA i SEGA slave 30 godina inovacija, donoseći VIRTUA FIGHTER CROSSROADS na RTX Spark

Gears of War: E-Day izlazi 6. listopada s DLSS 4.5 i Ray Tracingom

Microsoft će implementirati procesore AMD Instinct i AMD EPYC sljedeće generacije u sklopu proširenja dugoročnog strateškog partnerstva dviju tvrtki