Nvidia suočena s tužbom zbog AI trening podataka: postaje li piratski sadržaj “siva zona” industrije?

·

NVIDIA planira lansirati procesor na razini računala Arm arhitekture

Nvidia se našla u središtu nove pravne bitke koja bi mogla imati dalekosežne posljedice za cijelu industriju umjetne inteligencije. Protiv kompanije je podnesena kolektivna tužba zbog navodnog korištenja piratskih knjiga za treniranje velikih jezičnih modela, što ponovno otvara pitanje granica autorskog prava u eri generativnog AI-ja. Slučaj dodatno naglašava rastuće napetosti između tehnoloških kompanija koje razvijaju AI sustave i nositelja autorskih prava koji tvrde da se njihova djela koriste bez odobrenja.

Optužbe: “shadow libraries” i NeMo Megatron

Tužbu je pokrenulo pet autora koji tvrde da je Nvidia koristila njihove zaštićene knjige kao dio trening podataka za modele razvijene unutar NeMo Megatron frameworka. Prema optužnici podnesenoj Okružnom sudu Sjeverne Kalifornije, kompanija je navodno posegnula za tzv. “shadow libraries” — internetskim repozitorijima koji često sadrže piratski sadržaj — kako bi ubrzala razvoj AI modela. Tužitelji navode da je Nvidia, nakon neuspjelog pokušaja kupnje licenciranih datasetova od izdavača, pribjegla platformama poput Anna’s Archive, čime je dobila pristup velikim količinama knjiga u kratkom roku. Interni dokumenti citirani u tužbi sugeriraju da je kompanija osigurala pristup približno 500 TB podataka kako bi ostala konkurentna tijekom naglog AI “boom” razdoblja nakon uspjeha ChatGPT-a.

Books3, The Pile i sporni datasetovi

Osim toga, Nvidia je optužena za korištenje datasetova povezanih s projektom The Pile — popularnim skupom trening podataka u AI zajednici. Posebno je sporan podskup Books3, koji navodno sadrži oko 190.000 knjiga preuzetih iz Bibliotika baze. Tužitelji tvrde da razvoj velikih modela poput Nemotron-4 15B zahtijeva ogromne količine tekstualnih podataka te da je bez oslanjanja na nelicencirane izvore teško dosegnuti potrebnu skalu. U optužnici se također navodi da je Nvidia pružala alate i skripte koji su korisnicima olakšavali preuzimanje i obradu datasetova s upitnim autorskim statusom.

Nvidia se poziva na “fair use”

Dana 31. siječnja 2026. Nvidia je podnijela zahtjev za odbacivanje tužbe, tvrdeći da tužitelji nisu pružili dovoljno dokaza te da korištenje podataka spada u okvir “poštene uporabe” (fair use). Ročište je zakazano za početak veljače, a ishod bi mogao postaviti važan presedan za buduće AI sporove.

Industrijski trend: tužbe protiv AI kompanija sve češće

Nvidia nije jedina kompanija suočena s ovakvim optužbama. OpenAI, Meta, Anthropic, xAI i druge AI tvrtke već su predmet sličnih pravnih postupaka. U nekim slučajevima postignute su i nagodbe — primjerice, Anthropic je navodno pristao na višemilijardne financijske obveze kako bi riješio sporove povezane s autorskim pravima. Sudovi u SAD-u zasad pokazuju oprezan pristup: korištenje zaštićenih djela za treniranje AI sustava ponekad se može smatrati fair useom, ali namjerno prikupljanje velikih količina piratskog sadržaja i dalje nosi značajan pravni rizik.

Ključno pitanje: može li AI bez “sivih zona” podataka?

Val sudskih sporova otvara fundamentalno pitanje za industriju umjetne inteligencije: može li razvoj velikih modela dugoročno opstati bez oslanjanja na nelicencirane izvore podataka? Ako sudovi zauzmu stroži stav, kompanije bi mogle biti prisiljene na skupe licencne sporazume, što bi promijenilo ekonomiju razvoja AI modela i potencijalno usporilo inovacije. Kako se pravni okvir tek formira, ishod slučajeva poput ovog mogao bi definirati pravila igre za sljedeću generaciju umjetne inteligencije.