Hakeri i GPT-5

·

Hakeri i GPT-5

Istraživači kibernetičke sigurnosti upravo su uspješno demonstrirali novu tehniku koja može ugroziti OpenAI-jev model GPT-5. Ova metoda kombinira algoritam Echo Chamber s manipulacijom temeljenom na naraciji, pokazujući koliko su sustavi umjetne inteligencije ranjivi na sofisticirane oblike iskorištavanja. Za razliku od starijih metoda napada, koje su se oslanjale na izravne zahtjeve za zlonamjernim sadržajem, ova tehnika skriva se iza pripovijedanja i postupno navodi umjetnu inteligenciju da generira opasne informacije.

Na početku napadač unosi naizgled bezazlene ključne riječi poput „koktel“, „priča“, „preživljavanje“, „plinska bomba“, „sigurnost“ ili „život“. Kada se povežu u narativni kontekst, te riječi postaju alati koji modelu otvaraju put prema stvaranju opasnih detalja. Metoda funkcionira u četiri koraka: sijanje toksičnog konteksta, odabir narativnog puta koji izbjegava sigurnosne okidače, provođenje ciklusa uvjeravanja „unutar priče“ te prilagođavanje same priče kada se pojave znakovi stagnacije. Scenariji koji ističu hitnost, sigurnost i preživljavanje pokazali su se najučinkovitijima jer potiču umjetnu inteligenciju da daje detaljne, ali opasne upute – dok i dalje „vjeruje“ da ostaje u sigurnom, izmišljenom okviru.

Hakeri i GPT-5_1

Ranjivosti u sigurnosti umjetne inteligencije

Studija je otkrila da i minimalna loša namjera, kada se spoji s vještinom vođenja narativa, može dramatično povećati uspješnost napada. Time se razotkriva ozbiljna ranjivost današnjih sigurnosnih sustava umjetne inteligencije: oni su usmjereni na otkrivanje izravnih i eksplicitnih zlonamjernih zahtjeva, ali teško prepoznaju postupne, kontekstualne promjene.

Filtri ključnih riječi i standardne metode detekcije namjere više nisu dovoljni za zaustavljanje ovakvih višeslojnih napada. Stručnjaci za kibernetičku sigurnost stoga preporučuju uvođenje nadzora na razini cijelog razgovora, kako bi se otkrili obrasci uvjeravanja i pokušaji kontekstualne manipulacije. Tvrtke koje koriste umjetnu inteligenciju trebale bi razviti napredne „crvene protokole“ i sustave za rano otkrivanje trovanja konteksta, umjesto da se oslanjaju isključivo na trenutne filtere sadržaja.

Hakeri i GPT-5_2

Ova studija jasno pokazuje da ulazimo u novu fazu utrke u naoružanju: s jedne strane razvijaju se sigurnosne mjere umjetne inteligencije, a s druge strane sve sofisticiranije tehnike iskorištavanja usmjerene na najnoviju generaciju jezičnih modela.