Što je HBM memorija visoke propusnosti i zašto je bitna za AI primjenu?

·

sto_je_hbm_1

Što je HBM?

Memorija visoke propusnosti (HBM) je DRAM (Dynamic Random Access Memory)  visokih performansi koji se temelji na postupku 3D slaganja. Kao što su građevni blokovi složeni u 3D, DRAM se sastavlja u 3D stereoskopski format putem naprednog pakiranja, čime se povećava propusnost i prostor za pohranu. HBM i tradicionalni DRAM nemaju zamjenski odnos; umjesto toga, oni predstavljaju tehnologije koje su razvijene za različite zahtjeve aplikacija Razvili su je Samsung Electronics, AMD i SK Hynix, a pogodna je za aplikacije koje zahtijevaju visoku propusnost memorije, poput grafičkih procesora, uređaja za prebacivanje i prosljeđivanje mreže (npr. usmjerivača i prekidača). Prvi uređaj koji je koristio memoriju visoke propusnosti bila je AMD Radeon Fury serija grafičkih kartica.

U listopadu 2013. godine, JEDEC je službeno usvojio memoriju visoke propusnosti kao industrijski standard. JEDEC je u siječnju 2016. usvojio memoriju visoke propusnosti druge generacije (HBM2). Nove vodeće Tesla računalne akceleratorske kartice tvrtke NVIDIA, poput Tesla P100, kao i AMD-ova serija Radeon RX Vega i Intelov Knight Landing, također koriste memoriju visoke propusnosti druge generacije.

Po čemu se HBM razlikuje od tradicionalnog DRAM-a?

Jednostavno rečeno, što je AI procesor snažniji, to i memorija mora biti jača. Praveen Vaidyanathan, potpredsjednik i generalni direktor Poslovne grupe za računalne proizvode Micronovog Odjela za računarstvo i umrežavanje, istaknuo je da su performanse čipova pozitivno povezane s propusnošću i kapacitetom memorije. S povećanjem broja parametara velikog jezičnog modela (LLM) potrebna je i veća propusnost memorije kako bi AI procesori radili glatko. Visoka propusnost može se usporediti s autocestom: što je cesta šira, to više prometa može podnijeti. Drugim riječima, što je veća propusnost, to je veća količina podataka koju memorija može prenijeti. Prema SemiAnalysisu, samo GPT-4 sadrži 1,8 bilijuna parametara, a ako želite koristiti AI, morate imati veći kapacitet i bržu pristupnu memoriju poput HBM-a kako bi se parametri mogli lako prenijeti i pohraniti.

sto_je_hbm_2

Uska grla HBM-a

Iako HBM ima mnoge prednosti, također se suočava s nekoliko slabosti. Jedan od glavnih razloga koji ograničavaju razvoj HBM memorije je visok proces i značajno povećanje troškova. Cijena najranijeg HBM1 više nije poznata, ali, uzimajući za primjer 8 GB HBM2, košta oko 150 USD, dok silikonski interposer košta oko 25 USD, što čini ukupno 175 USD. U usporedbi, GDDR5 od 8 GB iz istog razdoblja košta samo 52 USD. Bez obzira na troškove testiranja pakiranja, cijena HBM-a već je otprilike tri puta veća od GDDR-a. Kada je RX Vega opremljen HBM2 video memorijom, maloprodajna cijena od 400 USD otprilike je polovica troškova potrošenih na video memoriju. Stoga AMD rijetko koristi HBM video memoriju na igraćim grafičkim karticama za potrošače, a umjesto toga se više oslanja na GDDR video memoriju.

HBM memorija je, stoga, prisutna na profesionalnim računalnim karticama. U usporedbi s običnim igraćim karticama, najveća prednost korištenja HBM video memorije je što može uštedjeti prostor na PCB-u i smanjiti duljinu grafičke kartice. Uz to, HBM nudi mnoge druge prednosti, kao što su veća propusnost, veća širina bita i manja potrošnja energije, što ga čini poželjnim za profesionalne kartice.

Još jedan nedostatak HBM video memorije je visoka proizvodnja topline. Zbog 2.5D strukture HBM-a dolazi do značajnog zagrijavanja, što se dodatno pogoršava zbog blizine CPU-a i GPU-a. Stoga se proizvodnja topline ne smije podcijeniti. Međutim, HBM video memorija se uglavnom koristi u grafičkim karticama namijenjenim AI-u, a ove kartice imaju visoke specifikacije sustava odvođenja topline, pa tako toplinski učinak ima manji utjecaj.

Pojava CoWoS-a

Posljednje usko grlo HBM-a predstavlja tehnologija pakiranja koja zahtijeva TSMC-ov CoWoS (Chip-on-Wafer-on-Substrate), 2.5D tehnologiju pakiranja koja može kombinirati više čipleta na jedan supstrat. Ova tehnologija prvi je put predstavljena 2012. godine. CoWoS nudi brojne prednosti, među kojima su ušteda prostora, poboljšana povezanost između čipova i smanjena potrošnja energije.

Nakon godina razvoja, TSMC, koji je postao gigant u industriji poluvodiča, brzo je napredovao u primjeni naprednih tehnologija pakiranja čipova. U posljednjih deset godina, CoWoS paket prošao je kroz pet generacija razvoja, a proizvodi koji trenutno koriste CoWoS paket distribuiraju se u potrošačkom sektoru i sektoru poslužitelja. Potražnja za naprednim tehnologijama pakiranja čipova, kao što su umjetna inteligencija i računalstvo visokih performansi, raste, a CoWoS je pakiranje koje mnogi proizvođači čipova koriste za AI poslužitelje.

sto_je_hbm_3

TSMC također razvija naprednije procese pakiranja, poput SoIC i drugih 3D pakiranja, koji omogućuju bolje slaganje video memorije na čip. Na primjer, AMD-ov 3D V-Cache procesor koristi ovu tehnologiju. Međutim, najveći problem s X3D procesorima ostaje pregrijavanje, zajedno s faktorima poput prinosa i troškova, što nije primjenjivo na HBM video memoriju. Prema TSMC-ovom planu, vidljivo je da je tvrtka predana poboljšanju silicijskog interposera CoWoS-a kako bi mogao podržati veće logičke čipove i više HBM hrpa, što je u skladu s potrebama proizvođača dizajna AI čipova. Trenutno, TSMC-ova tehnologija pakiranja CoWoS može smjestiti 12 HBM hrpa.

Spomenuti silikonski interposer zahtijeva korištenje tehnologije “reticle stitching” prilikom podizanja. Budući da alat za litografiju SLIT/SCAN podržava maksimalnu veličinu čipa, koja obično iznosi 26 mm x 33 mm, GPU čipovi postaju sve veći i bliži tom ograničenju. Proizvođači umjetne inteligencije također trebaju instalirati HBM video memoriju oko ovih čipova, što znači da je potreban veći interposer kako bi se omogućilo pakiranje većih čipova i HBM video memorije.

Trenutno, TSMC razvija CoWoS rješenje za pakiranje šeste generacije, pokušavajući integrirati više čipleta i DRAM čipova. Očekuje se da će u istom paketu moći smjestiti dva računalna čipa i osam ili više HBM3 DRAM čipova. TSMC će također pružiti nova rješenja za odvođenje topline i primijeniti nove materijale kako bi smanjio toplinsku otpornost s prethodnih 0,15 puta, što će poboljšati rasipanje topline. Važno je napomenuti da je CoWoS također razvio nekoliko varijanti tehnologije, kao što su CoWoS-R i CoWoS-L. Prva zamjenjuje silicijski interposer organskim RDL-om, što može smanjiti troškove, ali pri tom žrtvuje I/O gustoću. Potonji, koji je TSMC posebno dizajnirao za čipove za obuku umjetne inteligencije, kombinira prednosti TSMC-ovog CoWoS-S-a i informacijske tehnologije, a očekuje se da će biti primijenjen kasnije ove godine.

Koje su poteškoće HBM tehnologije?

Iako tehnologija zvuči jednostavno, postoji mnogo tehničkih prepreka koje treba prevladati. Vaidyanathan ističe tri ključne poteškoće:

1. Debljina:
HBM je samo polovica debljine ljudske kose, što znači da se debljina svakog sloja DRAM-a mora pažljivo kontrolirati, a brušenje mora biti izuzetno precizno. “Jednom kada složite više slojeva, DRAM mora biti tanji. U takvoj situaciji, poduzeća moraju imati naprednije procese izrade DRAM-a kako bi to postigla.”

2. Točnost slaganja pločica:
Pakiranje HBM-a zahtijeva slaganje svake DRAM pločice, a zatim njihovo rezanje kako bi se dobila rezana matrica HBM-a. Međutim, kako bi se postigla manja debljina, proizvođači će zamijeniti olovni okvir tradicionalne ambalaže navojem rupa u silikonskim pločicama i punjenjem metalom kako bi ih energizirali. Ova tehnologija bušenja naziva se “Through Silicon Via” (TSV). U slučaju složenih HBM-a s četiri sloja, TSV mora biti precizno poravnat prije nego što se snop pločica reže; bilo kakvo pomicanje može spriječiti provođenje električne energije. Vaidyanathan napominje da je veličina silicijevih perforacija samo nešto veća od veličine bakterija, što zahtijeva vrlo osjetljiv proces.

3. Problem rasipanja topline:
HBM je razvijen kako bi omogućio proizvođačima čipova da upakiraju memoriju i procesore, uključujući CPU i GPU, u jedan integrirani krug (IC).

sto_je_hbm_4

Koje su aplikacije HBM-a i koje druge koriste HBM uz AI poslužitelje?

Zbog visokih tehničkih poteškoća, trošak HBM-a je također relativno visok. HBM je prvi put razvijen 2013. godine kada je AMD zatražio od Shanghai Luxa da zajednički razvije prvu generaciju HBM-a. Međutim, proizvođači čipova rijetko su ga usvajali zbog visoke cijene. Danas se njegova upotreba povećava, ponajprije zbog primjene u umjetnoj inteligenciji. Prema analizi proizvođača čipova, iako je HBM napredniji, njegova viša cijena može se opravdati ukoliko je njegova učinkovitost dobra i dovoljna za uštedu energije. Proizvođači će biti spremni ponovno ga usvojiti, jer, kako bi Huang (izvršni direktor Huide) rekao, “kupi više, uštedi više”.

Trenutno su AI poslužitelji najvažnije tržište za HBM. Micron i Hynixov HBM3e potvrđeni su od strane NVIDI-e, a šuška se da je NVIDIA platila stotine milijuna dolara unaprijed kako bi osigurala opskrbu. “Poslužitelji umjetne inteligencije zahtijevaju 5 do 6 puta više memorije od tradicionalnih poslužitelja.” Micronov potpredsjednik i generalni direktor poslovne grupe računalnih proizvoda Odjela za računalstvo i umrežavanje, Vaidyanathan, izjavio je novinarima kako su performanse GPU-a pozitivno povezane s propusnošću i kapacitetom memorije.

Osim AI poslužitelja, buduće tržište samovozećih automobila također predstavlja važan scenarij primjene za HBM. U izvješću objavljenom u listopadu, Mordor Intelligence navodi da samovozeći automobili i ADAS (sustavi pomoći u autonomnoj vožnji) potiču potražnju za HBM-om. Iz ove situacije, čini se da će tržišna potražnja za AI poslužiteljima i HBM-om u vozilima trajati najmanje 10 godina.

Zašto HBM?

Sve navedeno predstavlja uvod u HBM, pa se postavlja pitanje: zašto koristiti HBM i kako se razlikuje od GDDR memorije koju poznajemo?

Veće brzine
Kao što možete vidjeti iz prikazanog shematskog dijagrama, HBM memorija povezana je s GPU ili CPU jezgrom putem silikonskog interpozera, što značajno ubrzava kretanje podataka između memorije i procesora.

Veća propusnost
Propusnost HBM memorije mnogo je veća od propusnosti tradicionalne GDDR6 i GDDR6X memorije, koja može doseći desetke GB/s ili čak stotine GB/s. To znači da HBM memorija može brže prenositi podatke, poboljšavajući performanse GPU-a.

Veća širina bita
Budući da je HBM memorija složena kroz TSV (Through Silicon Via), može postići veći broj I/O operacija i značajno povećati širinu memorijskog bita, koja može doseći 1024 bita. Zbog ove složenosti, HBM može lako postići veći kapacitet video memorije, kao što je NVIDIA-ina H100, koja može imati čak 96 GB video memorije.

Kraći put prijenosa signala između DRAM matrice i procesora
Jedna od prednosti HBM-ove TSV i mikro-bump tehnologije je to što postiže kraći put prijenosa signala između DRAM matrice i procesora. Također, niža jednopinska I/O brzina i I/O napon čine HBM memoriju energetski učinkovitijom.

Pouzdanost
HBM video memorija daleko je pouzdanija od GDDR video memorije. Iako neki ljudi često kažu

Manja veličina
Uz performanse i potrošnju energije, HBM se ističe i uštedom prostora u svojoj proizvodnji