Anthropic Claude 3.5 Sonnet – najsigurniji Jezični model

·

SIGURNOSNO TESTIRANJE MODELA UMJETNE INTELIGENCIJE

Chatterbox Labs je proveo testiranje sigurnosti različitih jezičnih modela i zaključio da je Anthropic Claude 3.5 Sonnet najsigurniji. Ovaj model je pokazao izvrsne rezultate u otpornosti na generiranje štetnog sadržaja poput nasilja, mržnje ili dezinformacija.U ovom testu, Chatterbox Labs koristio je 30 različitih izazovnih pitanja kako bi testirao odziv modela na potencijalno štetne teme kao što su samoozljeđivanje, pornografija, sigurnosne prijetnje i zlonamjerni softver. Rezultati ispitivanja pokazali su da su svi glavni modeli uključeni u test u većoj ili manjoj mjeri generirali štetan sadržaj. Ovi modeli uključuju:

  • Microsoft Phi 3.5 Mini Instruct(3.8b)
  • Mistral AI 7b Instruct v0.3
  • OpenAI GPT-4o
  • Google Gemma 2 2b Upute
  • TII Falcon 7b Upute
  • Antropski Claude 3.5 sonet(20240620)
  • Cohere zapovjedništvo R
  • Meta Llama 3.1 8b Upute

Kako je Anthropic postigao ove rezultate?

Anthropic je razvio jedinstven pristup obuci modela koji omogućava modelu da samostalno uči i slijedi unaprijed definirane etičke principe.Osim unutarnjih mehanizama, Anthropic koristi i vanjske filtre kako bi dodatno osiguralo da model ne generira štetan sadržaj. Tvrtka je posvećena transparentnosti u razvoju svojih modela i osigurava da se podaci korisnika ne koriste za obuku modela.

Europska unija je donijela Zakon o umjetnoj inteligenciji

ChatGPT i Claude 3: Usporedba velikih jezičnih modela u neformalnom obliku

Ako se ChatGPT ponovno sruši, imate Claude

Zašto je to važno?

Sigurnost je ključni faktor u razvoju umjetne inteligencije. Sigurni modeli su manje vjerojatno da će biti zloupotrijebljeni za širenje dezinformacija, generiranje mržnje ili druge štetne aktivnosti.Razvoj sigurnih i etičnih modela umjetne inteligencije je neophodan za izgradnju povjerenja javnosti u ovu tehnologiju.

Anthropic postavlja nove standarde u industriji umjetne inteligencije i pokazuje kako se može razvijati sigurna i korisna umjetna inteligencija. Predstavlja značajan korak naprijed u ovom području i pokazuje da je moguće razviti moćne jezične modele koji su istovremeno sigurni i korisni.