DeepSeek, može li promijeniti pravila AI utrke?
Bez obzira jeste li redoviti pratitelj tehnoloških vijesti ili ne, vjerojatno ste već čuli za DeepSeek, AI proizvod koji posljednjih tjedana dominira novinskim naslovima. Sve je počelo 20. siječnja, kada je kineska tehnološka tvrtka DeepSeek lansirala svoj model zaključivanja, DeepSeek-R1. Ovaj model postigao je istu razinu performansi kao GPT-01, ali po cijeni koja je samo desetina onoga što koštaju OpenAI-ovi modeli.
Prije toga, DeepSeek je objavio model DeepSeek-V3 koji je koštao samo 5,58 milijuna dolara, što je manje od jedne desetine troškova GPU čipova i vremena obuke drugih globalnih kompanija. Istovremeno, postigao je performanse usporedive s GPT-4, Claude Sonnet 3.5 i drugim vrhunskim modelima koji koštaju stotine milijuna dolara za obuku. Ova vijest ubrzo je privukla pažnju tehnološke zajednice. Samo 10 dana nakon lansiranja R1 modela, DeepSeek je zauzeo prvo mjesto na ljestvicama preuzimanja u Apple App Storeu u više od 70 zemalja, uključujući Kinu i SAD. Po prvi put u nekoliko godina, proizvod izvan OpenAI-a nadmašio je popularnost ChatGPT-a.
Ovaj uspjeh stvorio je zabrinutost u tehnološkoj utrci za umjetnu inteligenciju, prebacujući pritisak na američke tehnološke gigante. Velika popularnost DeepSeeka također je izazvala zabrinutost u pogledu potražnje za računalnom snagom, što je rezultiralo reakcijama na Wall Streetu. 27. siječnja tržišna vrijednost američkih tehnoloških dionica smanjila se za više od 1 bilijun dolara. Dionice Nvidije pale su za 16,86%, što je dovelo do gubitka tržišne vrijednosti od 589 milijardi dolara – ekvivalentnog gubitku dvije Alibabe. Oracle je pao za 13,78%, Supermicro za 12,49%, Broadcom za 17,4%, a TSMC za 13%. U međuvremenu, američke tehnološke tvrtke počele su proučavati i oponašati kineske rivale. Meta je, prema izvještajima, osnovala četiri tima posvećena DeepSeeku, što je dovelo do dodatnih istraživanja i testiranja.
Kineske internetske i tehnološke tvrtke već su godinama pokušavale sustići američke konkurente, no nakon što je 2022. godine američka vlada uvela restrikcije na izvoz čipova, kineske tvrtke su se morale okrenuti novim pristupima kako bi stvorile konkurenciju gigantima poput OpenAI-a i Mete. Pojava DeepSeeka srušila je industrijski konsenzus prema kojem su veliki AI modeli bili rezervirani samo za divove u industriji s ogromnim kapitalom i računalnim resursima. DeepSeek je predstavio novu ideju kineskim tvrtkama: umjesto da se natječu u utrci za računalnim resursima, oni su optimizirali algoritme, birajući put “jeftinog i visokog izlaza”. Ovaj pristup omogućio im je postizanje visoke učinkovitosti uz manju potrošnju resursa.
Kako je DeepSeek uspio prestići velike modele koji ovise o kvantitativnim resursima?
Iako su početni komentari medija i investitora označili DeepSeek kao “nepoznatu kinesku tvrtku”, to nije bila točna procjena. DeepSeek je mlada tvrtka osnovana 2023. godine, ali njezina matična tvrtka, High-Flyer Quantitative, vodeća je kvantitativna trgovačka firma u Kini s imovinom većom od 100 milijardi juana. Godinama se bave istraživanjem umjetne inteligencije, a osnivač DeepSeeka, Liang Wenfeng, započeo je istraživanje umjetne inteligencije kako bi iskoristio GPU čipove za izračunavanje trgovačkih pozicija i treniranje kvantitativnih modela. S vremenom je tvrtka prikupila više od 10.000 naprednih GPU čipova i počela trenirati modele umjetne opće inteligencije (AGI), postavljajući temelje za razvoj svojih modela.
DeepSeek nije došao iznenada. Prije lansiranja V3 i R1 modela, tvrtka je već privukla pozornost u kineskoj AI industriji smanjenjem cijena modela. U svibnju 2024. objavili su DeepSeek-V2 po cijeni od gotovo 1% cijene GPT-4-Turbo. U narednim mjesecima, cijene velikih modela drugih tvrtki poput Bytea, Baidua i Alija smanjene su, dok je DeepSeek smanjivao cijene tri puta godišnje, svaki put za više od 85%. Ova smanjenja cijena rezultat su stalnog smanjenja troškova obuke i zaključivanja modela. Za razliku od OpenAI-ja, koji troši stotine milijuna dolara na obuku, DeepSeek je odabrao “efikasniji” pristup. Njihovi istraživači razvili su novi MLA (novi mehanizam latentne pažnje s više glava) u kombinaciji s DeepSeek MoESparse (hibridna stručna struktura) kako bi smanjili memorijski otisak na 5-13% MHA arhitekture koja se koristi u drugim modelima.
Iako industrija obično koristi trilijune tokena za obuku modela, DeepSeek koristi tehnologiju “destilacije podataka” – proces u kojem visokoprecizni opći model djeluje kao učitelj, minimizirajući izračune podataka i koristeći samo 1/5 volumena podataka za postizanje istih rezultata, čime smanjuje troškove. Ovaj pristup omogućio je DeepSeeku da trenira svoj R1 model s troškom od samo 5,576 milijuna dolara na klasteru od 2,048 NVIDIA H800 GPU-a, dok su OpenAI i druge tvrtke koristile tisuće vrhunskih grafičkih kartica, što je stvorilo troškove obuke od stotine milijuna dolara.
Iako OpenAI i kineske tvrtke nisu isključile mogućnost takvih modularnih rješenja, odabrali su druge pristupe s obzirom na svoje prednosti u kapitalu i računalnoj snazi. OpenAI se fokusira na “opću inteligenciju” s velikim parametrima, dok DeepSeek odabire vertikalne scenarije, tražeći bolje performanse u specifičnim područjima poput matematike i programiranja prije nego proširi mogućnosti na druge oblasti.
Usporedba mogućnosti DeepSeek R1 i OpenAI O1 DeepSeek R1 pokazuje kako su ti modeli usporedivi s OpenAI-ovim modelom O1 u nekoliko ključnih područja, uključujući matematiku, kodiranje, zaključivanje na prirodnom jeziku i druge zadatke. Međutim, ovaj alternativni pristup nosi sa sobom veće izazove i rizike. Ako usmjeravanje modela nije pravilno postavljeno – primjerice, ako se pjesma pogrešno klasificira kao matematički problem – kvaliteta rezultata može naglo opasti. Također, izolacija znanja između modula (kao što je slučaj s pisanjem ljubavnih pisama pomoću matematičkih formula) može rezultirati neuspjehom u rješavanju zadataka u više domena. Ako se ne razvije dovoljno učinkovit modularni model, početna ulaganja mogu biti izgubljena.
Zbog ograničenja resursa, većina tvrtki teško se odlučuje za ovako rizičan pristup.
Iako nije jednostavno, DeepSeek je kroz daljnji razvoj i optimizaciju smanjio stopu lažno pozitivnih rezultata u svom MoE modelu. U početnim fazama, stopa lažnih pozitivnih bila je veća od 15%, no tim je kroz učenje s pojačanjem uspio postići nisku jednoznamenkastu stopu grešaka u testiranjima nakon intenzivnog treniranja.
Mnogi stručnjaci u industriji prepoznaju DeepSeekov pristup kao isticanje “modularne specijalizacije”, koja omogućuje modelu da bude konkurentan, a u nekim područjima čak i nadmaši “opća čudovišta” poput OpenAI-a. Iako je tehnologija DeepSeeka još uvijek daleko iza onih koje koriste američke tvrtke poput OpenAI-a, dovoljno je konkurentna da se smatra ozbiljnim izazivačem koji postupno smanjuje jaz u tehnološkoj moći.
Štoviše, DeepSeek preskače korake koje američki programeri smatraju ključnima, što im omogućuje da, uz ograničene kapitalne i računalne resurse, AI startupi u Kini i diljem svijeta mogu sustići i nadmašiti velike tvrtke. Fokusiranje na vertikalna polja također im može omogućiti da izbjegnu izravnu konkurenciju s gigantima i pronađu svoje vlastite prednosti, stvarajući konkurentske prednosti u specifičnim scenarijima.
Model otvorenog koda, DeepSeekov izbor i prepreke DeepSeek je izazvao senzaciju, ne samo zbog izvrsnih performansi svog modela, već i zbog svog inzistiranja na otvorenom izvornom kodu, koji omogućava pristup izvorima, težinama i arhitekturi modela. To znači da pojedinci, programeri i tvrtke mogu besplatno koristiti najnovije modele i graditi dodatne aplikacije na njima.
Ovu su odluku pozdravili mnogi stručnjaci iz industrije i investitori.
Jim Fan, viši znanstveni istraživač u NVIDIA-i, komentirao je: “Živimo u vremenu u kojem tvrtka izvan SAD-a nastavlja izvršavati svrhu OpenAI-ja – provođenje vrhunskih istraživanja koja su zaista otvorena i osnažujuća za sve.”
Marc Andreessen, osnivač rizičnog kapitala A16Z, također je komentirao da je DeepSeek-R1 najnevjerojatniji i najimpresivniji proboj koji je ikada vidio, te da je njegov izlazak kao model otvorenog koda donio pravo bogatstvo svijetu.
Ovaj pristup DeepSeeka nije samo izazov tehnološkom monopolu, već se temelji i na vlastitim razvojnim strategijama. Startupi u nepovoljnom položaju u pogledu resursa i računalne snage mogu brzo izgraditi ekosustav i dobiti veću podršku od korisnika i programera.
