Može li se ChatGPT trenirati koristeći samo 3000 GPU-a?

·

ChatGPT i Claude 3 Usporedba velikih jezičnih modela u neformalnom obliku

Istraživači iz Nacionalnog laboratorija Oak Ridge uspjeli su trenirati veliki jezični model (LLM) veličine ChatGPT-a koristeći samo 3.072 od ukupno 37.888 GPU-a na Frontier superračunalu. Tim je objavio istraživački rad u kojem su opisali kako su postigli ovaj značajan uspjeh i s kakvim su se izazovima suočili.

Frontier superračunalo opremljeno je s 9.472 Epyc 7A53 CPU-a i 37.888 Radeon Instinct GPU-a. Međutim, za trening jednog LLM-a s 1 trilijun parametara koristili su samo 3.072 GPU-a, dok su za drugi LLM, sa 175 milijardi parametara, koristili 1.024 GPU-a. Ključni izazov prilikom treniranja tako velikih modela bio je zahtjev za ogromnom količinom memorije – najmanje 14 TB. To je zahtijevalo upotrebu više MI250X GPU-a s 64 GB VRAM-a. Međutim, to je otvorilo problem paralelizma: kada se koristi više GPU-a, potrebno je optimizirati komunikaciju među njima kako bi se osigurala učinkovita upotreba resursa. U suprotnom, dodatna procesorska snaga može biti izgubljena.Rad detaljno opisuje kako su inženjeri optimizirali procese korištenjem okvira poput Megatron-DeepSpeeda i FSDP-a, prilagođavajući ih specifično za Frontier. Na kraju, rezultati su impresivni, postignuta je 100% efikasnost u skaliranju, što znači da je dodavanje više GPU-a povećalo učinkovitost proporcionalno povećanju opterećenja.

S druge strane, “snažna učinkovitost skaliranja” za LLM od 175 milijardi parametara iznosila je nešto nižih 89%, dok je za LLM od 1 trilijuna parametara iznosila 87%. Ova vrsta skalabilnosti odnosi se na dodavanje procesora bez promjene veličine radnog opterećenja, što često dovodi do smanjenja efikasnosti prema Amdahlovom zakonu. Ipak, obzirom na broj korištenih GPU-a, i 87% je vrlo dobar rezultat.Tim je, međutim, ukazao na izazove u postizanju takve efikasnosti na Frontieru, ističući potrebu za daljnjim radom na optimizaciji performansi obuke na AMD GPU-ima, gdje je ROCm platforma manje razvijena u odnosu na Nvidijin CUDA ekosustav. Ovi napori pomoći će razvoju i drugih softverskih rješenja izvan Nvidia okruženja.

Unatoč ovim izazovima, Frontier ostaje najbrže superračunalo na svijetu, a sav njegov hardver dolazi od AMD-a. Aurora, drugo najbrže superračunalo, koristi Intelov hardver, uključujući GPU-e, iako je trenutno samo polovica tog hardvera u upotrebi. Nvidia GPU pokreće treće najbrže superračunalo, Eagle. Ako AMD i Intel žele zadržati svoje pozicije, morat će se uhvatiti u koštac s naprednim softverskim rješenjima koje Nvidia nudi.