Nvidia je i dalje kralj: GB200 dominira, AMD zaostaje
Pravila igre u svijetu AI-a tiho se mijenjaju. Novi izvještaji otkrivaju ključni obrat: pobjednika više ne određuje samo sirova računalna snaga ili broj GPU-a, već koliko inteligencije možete proizvesti po dolaru.
Razmišljanje o AI-u više nije samo o FLOP-ovima
U najnovijem izvješću Signal65, NVIDIA GB200 NVL72 pokazuje impresivne rezultate. Propusnost ovog čipa je 28 puta veća od AMD MI350X, a u scenarijima s puno interakcije, trošak po tokenu u DeepSeek-R1 može biti i do 15 puta manji. Da, satnica GB200 je gotovo dvostruko skuplja od konkurencije, ali zahvaljujući NVLink međusobnoj vezi i softverskom raspoređivanju na razini racka, struktura troškova se potpuno mijenja. Ben Pouladian, glavni investitor, rezimira: “Ključ sada nije broj GPU-ova ili čipova, već koliko inteligentnog izlaza možete kupiti po dolaru.” Danas, Nvidia je i dalje nezaustavljiva. Konkurenti jednostavno ne mogu dostići razinu interaktivnosti i učinkovitosti koju NVL72 pruža.
Fokus na inteligenciji po dolaru
Izvještaj Signal65 istražuje kako arhitekture Mixture of Experts (MoE) transformiraju ekonomiju inferencije. Tradicionalni “gusti modeli” zahtijevaju aktivaciju svih parametara za generiranje svakog tokena, što povećava troškove i memorijske zahtjeve. MoE modeli aktiviraju samo relevantne „stručnjake“ po tokenu, što omogućuje veću učinkovitost i niži trošak generiranja tokena. Zanimljivo je da 12 od 16 najboljih LLM-a danas koristi MoE arhitekturu.
Uska grla i komunikacija između GPU-a
Glavno ograničenje MoE modela je usko grlo u komunikaciji. Kada su različiti stručnjaci raspoređeni na više GPU-ova, kašnjenje u prijenosu podataka može ostaviti GPU-ove neaktivnim, čime se gubi računalna snaga i povećavaju troškovi. Signal65 navodi da više od 50% tokena tijekom inferencije može biti pogođeno ovim „vremenom mirovanja“. Upravo ovdje GB200 NVL72 pokazuje prednost: NVLink međuveze i softverska orkestracija omogućuju da 72 GPU-a rade sinkronizirano, smanjujući neproduktivne cikluse i optimizirajući trošak po tokenu.
Benchmark performanse: GB200 vs. AMD
Analiza Llama 3.3 70B pokazuje:
- B200 (HGX) vs. MI355X: B200 je 1,8 puta brži na osnovnoj interaktivnosti.
- Pri većim interakcijama (110 tokena/sekundi po korisniku) GB200 NVL72 je više od 6 puta brži od MI355X.
- U DeepSeek-R1 inferenciji, GB200 NVL72 ostvaruje 10 puta bolje performanse od H200 i 16 puta bolje od MI325X pri 25 tokena/sec/korisniku.
- Na 60 tokena/sec/korisniku, prednost se povećava na više od 24 puta u odnosu na H200 i 11,5 puta u odnosu na MI355X.
Iako je cijena GB200 NVL72 po GPU satu viša, performanse koje omogućuje u kombinaciji s softverskom optimizacijom čine ga najekonomičnijim rješenjem po dolaru za generiranje tokena. Drugim riječima, skuplji GPU zapravo može biti jeftiniji kada se gleda cijena po inteligentnom tokenu.
Što to znači za industriju
Kako modeli postaju veći i kompleksniji, s MoE arhitekturom i intenzivnom inferencijom, sirova snaga GPU-a više nije presudna. Platforme dizajnirane od temelja, koje optimiziraju međuveze, komunikaciju i softversku orkestraciju, ključ su za niskobudžetne i visoko učinkovite AI usluge.
OpenAI, Meta i Anthropic već grade modele koji se oslanjaju na ovu filozofiju. Nvidia, sa svojom GB200 NVL72 serijom, trenutno vodi u performansama i ekonomiji, dok AMD teško dohvaća konkurenciju. Arhitekture poput Google TPU-a nude alternative, ali njihove performanse za nezavisne modele još uvijek nisu jasne.
Zaključak
Performanse, propusnost, softverska orkestracija i optimizacija komunikacije čine razliku u AI inferenciji. Nvidia GB200 NVL72 pokazuje da investicija u skuplje, bolje povezane i optimizirane GPU platforme može drastično smanjiti trošak po tokenu, omogućiti složenije modele i poboljšati ukupnu ekonomiju AI infrastrukture.
Jednom riječju: Nvidia i dalje vodi, AMD gubi teren, a „inteligencija po dolaru“ postaje nova valuta u svijetu AI-a.
