Svijetu nestaje podataka za obuku umjetne inteligencije

Tvorci sustava umjetne inteligencije (AI) godinama su se oslanjali na beskrajan izvor tekstova, slika i videozapisa s interneta za obuku svojih modela. No, ovaj izvor podataka polako nestaje.

Studija koja je proučavala 14.000 internetskih domena uključenih u tri skupa podataka za obuku AI-a otkrila je da su internetske platforme poduzele korake za sprječavanje prikupljanja svojih podataka. Istraživači su procijenili da je 5 % ukupnih podataka, a 25 % podataka iz najkvalitetnijih izvora u tri skupa podataka (C4, RefinedWeb i Dolma) bilo ograničeno prošle godine. Ta su ograničenja postavljena korištenjem protokola o isključenju robota (robots.txt), dugogodišnje metode koju vlasnici web stranica koriste za sprječavanje automatiziranih programa (botova) da pretražuju web stranice. Osim toga, studija je otkrila da je do 45 % podataka u paketu C4 ograničeno uvjetima pružanja usluge web stranica.

“Vidimo brzi pad pristanka na korištenje podataka na webu, što će imati posljedice ne samo za umjetnu inteligenciju, već i za istraživače, akademike i nekomercijalne organizacije”, rekao je Shayne Longpre, glavni autor studije.

Podaci su ključni element za sustave umjetne inteligencije

Učenje iz ogromnih količina podataka omogućuje AI alatima poput OpenAI-jevog ChatGPT-a, Googleovih Blizanaca i Anthropicovog Claudea da pišu tekst, kodiraju i generiraju slike i videozapise. Općenito, što više visokokvalitetnih podataka se ugradi u ove modele, to je bolji njihov izlaz. Godinama su programeri AI-a mogli lako prikupljati podatke. No, eksplozija generativne umjetne inteligencije u posljednjih nekoliko godina dovela je do napetosti s vlasnicima podataka. Mnogi su zabrinuti zbog korištenja svojih podataka za obuku AI-a, a neki žele biti nadoknađeni za to.

Neki su izdavači podigli platne zidove ili promijenili uvjete pružanja usluge kako bi ograničili korištenje svojih podataka u svrhu obuke AI-a. Web stranice poput Reddita i StackOverflowa počele su naplaćivati tvrtkama AI-a pristup svojim podacima, a neki su izdavači poduzeli pravne radnje. Primjerice, The New York Times tužio je OpenAI i Microsoft zbog kršenja autorskih prava prošle godine, optužujući ih da koriste novinske članke za obuku svojih modela bez dopuštenja. U posljednje vrijeme, nekoliko tvrtki AI-a postiglo je sporazume s izdavačima, uključujući The Associated Press i News Corp, vlasnika The Wall Street Journala, što im omogućuje da i dalje pristupaju sadržaju tih izdavača.

Međutim, sve veća ograničenja podataka mogu predstavljati prijetnju tvrtkama AI-a kojima je potrebna stalna opskrba visokokvalitetnim podacima kako bi njihovi modeli ostali svježi i ažurirani. To bi moglo otežati poslovanje i manjim tvrtkama AI-a koje se često oslanjaju na javne skupove podataka i možda si neće moći priuštiti licenciranje podataka izravno od izdavača. Jedan od takvih javnih skupova podataka je Common Crawl. Uključuje milijarde stranica web sadržaja i održava ga neprofitna organizacija. Ali, tvrtke poput Googlea i OpenAI-a koristile su ga za obuku ranijih verzija svojih modela umjetne inteligencije.

Kako popularne AI usluge rukuju našim podacima

Je li OpenAI prekršio GDPR zakon o privatnosti?

Google postaje prva AI tvrtka kažnjena zbog podataka za obuku

Google AI Gemini zadržava podatke 3 godine: briga o privatnosti ili standardna praksa?

Kriza pristanka na korištenje podataka za obuku modela umjetne inteligencije (AI) prirodan je odgovor na “nekontrolirano” prikupljanje podataka u ovoj industriji

Prikupljanje novih podataka postalo je znatno teže za startupe i istraživače, koji se suočavaju s platnim zidovima, blokiranima datotekama robots.txt i vlasničkim transakcijama. Neki vjeruju da se zidovi podataka mogu proširiti korištenjem sintetičkih podataka, koje generira sam sustav umjetne inteligencije. No, mnogi istraživači sumnjaju u sposobnost današnjih AI sustava da generiraju dovoljno visokokvalitetnih sintetičkih podataka koji bi zamijenili podatke koje je stvorio čovjek. Velike tehnološke tvrtke već posjeduju sve potrebne podatke, pa promjena licenci za korištenje podataka neće utjecati na njihov prethodni pristup.

Podaci su ključni element za sustave umjetne inteligencije

Kako popularne AI usluge rukuju našim podacima

Je li OpenAI prekršio GDPR zakon o privatnosti?

Google postaje prva AI tvrtka kažnjena zbog podataka za obuku

Google AI Gemini zadržava podatke 3 godine: briga o privatnosti ili standardna praksa?

Kriza pristanka na korištenje podataka za obuku modela umjetne inteligencije (AI) prirodan je odgovor na “nekontrolirano” prikupljanje podataka u ovoj industriji

DRUGE NOVOSTI

Predsjednik ADATA-e upozorava: Globalna nestašica RAM-a mogla bi potrajati sljedećih deset godina

Arhitektura NVIDIA Vera: Kako je prilagođeni Arm CPU dizajniran za eru agentske umjetne inteligencije

NVIDIA otkrila kako DLSS 5 funkcionira: programeri dobivaju veću kontrolu nad AI renderiranjem igara

Giga Computing ubrzava umjetnu inteligenciju za poduzeća velikih razmjera s AMD EPYC™ serverskim procesorima 6. generacije