asus_tuf_gaming_geforce_rtx_5080_oc_3

Pred nama je danas GeForce RTX 5080 kartica u Asusovoj TUF Gaming verziji s tvornički podignutim taktovima. Nova je Nvidijina RTX 50 serija lansirana prošli tjedan s najjačim 5090 modelom, a ovaj tjedan je na redu sljedeća u nizu – RTX 5080. Grafički procesori koji pogone ove kartice su bazirani na novoj Blackwell arhitekturi koja donosi nove AI bazirane Neural Rendering i Neural shading tehnologije koje omogućavaju DLSS 4, tj. AI multi-frame generation tehniku ubrzavanja gameplaya. Kakva je TUF Gaming GeForce RTX 5080 OC i kako radi DLSS 4 čitajte na drugoj stranici, a sada ćemo se malo detaljnije posvetiti arhitekturi i tehnologijama.

nvidia_rtx_blackwell_chip

NVIDIA Blackwell RTX arhitektura nasljednik je Ada Lovelace arhitekture iz RTX 40 serije grafičkih kartica, a glavna marketinška značajka je kako nova arhitektura donosi do 8x ubrzanje frameratea (broja sličica u sekundi) i igrama uz pomoć nove NVIDIA DLSS 4 tehnologije koja omogućava kreiranje do 3 sličice uz pomoć AI-a, te kako je uz pomoć nove NVIDIA Reflex 2 tehnologije moguće smanjiti ulazno kašnjenje do 75%.

Neuralno renderiranje i DLSS 4

rtx_dlss4_1

Neuralno renderiranje predstavlja sljedeću era računalne grafike. Integracijom neuronskih mreža u procesu renderiranja, Nvidia tvrdi kako je moguće napraviti dramatične korake u izvedbi, kvaliteti slike i interaktivnosti. Prvi primjer neuralnog renderiranja bio je DLSS (Deep Learning Super Sampling). Koristile su se renderirane sličice niže rezolucije kao ulaz u neuronsku mrežu, koja je osposobljena za izlaz sličica pune rezolucije. DLSS se od tada razvio do točke u kojoj može generirati cijele kadrove i razumjeti kompoziciju scene uključujući sjene, refleksije i okluzije za generiranje slika koje su u određenim slučajevima bolje od izvornog renderiranja.

S DLSS-om 4 i Multi-Frame Generation tehnikom koja radi u skladu s kompletnim paketom DLSS tehnologija, moguće je umnožiti broj sličica u sekundi do 8x u odnosu na tradicionalno brute-force renderiranje i pružiti bolju kvalitetu slike i od izvornog renderiranja. Ipak, DLSS je tek početak. Nvidia integrira neuronske mreže unutar programabilnih shadera za stvaranje neuronskih shadera. RTX Neuralni shaderi se mogu koristiti za komprimiranje tekstura do 7 puta, pri čemu se štede ogromne količine grafičke memorije, a uz to i koristiti za stvaranje tekstura kinematografske kvalitete i još naprednije svjetlosne efekte u igrama.

Jedna od velikih novosti, RTX Neural Faces donosi inovativan pristup poboljšanju kvalitete lica pomoću generativne umjetne inteligencije. Umjesto tradicionalnog renderiranja, Neural Faces kao ulaz uzima jednostavno rasterizirano lice i podatke o 3D pozi i koristi generativni AI model u stvarnom vremenu za zaključivanje prirodnijeg lica.

Kao što smo u uvodu napisali, DLSS Multi-Frame Generation generira do tri dodatne sličice po tradicionalno prikazanoj sličici, te radi u skladu s kompletnim paketom DLSS tehnologija, pri čemu umnožava broja sličica u sekundi za do 8 puta u odnosu na tradicionalno brute-force renderiranje. Ovo poboljšanje performansi na GeForce RTX 5090 grafičkoj kartici omogućava igranje popularnih naslova u 4K rezoluciji i s do 240 fps-a s uključenim Ray Tracingom.

DLSS 4 također predstavlja najveću nadogradnju AI modela od izdanja DLSS-a 2.0 iz 2020. godine. DLSS Ray Reconstruction, DLSS Super Resolution i DLAA sada će se pokretati u stvarnom vremenu po prvi put korištenom u ovoj industriji tehnologijom “transformera”. Riječ je o naprednoj arhitekturi koja pogoni AI modele kao što su ChatGPT, Flux i Gemini. DLSS modeli transformera poboljšavaju kvalitetu slike s poboljšanom vremenskom stabilnošću, manje je ghostinga i više detalja u pokretu.

rtx_dlss4_2

DLSS 4 tehnologija je dostupna samo na GeForce RTX 50 seriji kartica jer koristi snagu novih Tensor jezgara u Blackwell arhitekturi. 75 DLSS igara i aplikacija koje koriste Frame Generation mogu se nadograditi na Multi-Frame Generation. Za te iste igre, Frame Generation dobiva nadogradnju za GeForce RTX 50 seriju i GeForce 40 seriju GPU-a, koja povećava performanse uz smanjenje upotrebe VRAM-a. A na svim GeForce RTX GPU-ima, DLSS igre s Ray Tracingom, Super resolutionom i DLAA-am mogu biti nadograđene na novi model DLSS transformera.

Multi-Frame Generation

rtx_dlss4_3

AI model DLSS 3 Frame Generation koristi podatke iz igre kao što su vektori kretanja i dubine, te optičkog flow fielda (Optical Flow Accelerator iz GeForce RTX 40 serije) za generiranje jedne dodatne sličice. Generiranje višestrukih sličica bilo je nemoguće jer su i Optical Flow Accelerator i AI model bili potrebni za svaku novu generiranu sličicu, a taj bi trošak zagušio GPU.

DLSS 4 Multi-Frame Generation kombinira više Blackwell hardverskih i DLSS softverskih inovacija kako bi generiranje više sličica postalo stvarnost. Taj novi model AI generacije sličica je 40% brži, koristi 30% manje VRAM-a i mora se pokrenuti samo jednom po renderiranoj sličici za generiranje više sličica. Na primjer, u Warhammer 40,000: Darktide igri, ovaj model pruža 10% veći broj sličica u sekundi, dok koristi 400 MB manje memorije pri 4K, maksimalnim postavkama, koristeći DLSS Frame Generation. Hardverski Optical Flow Accelerator je zamijenjen AI modelom koji je efikasniji i brži.

rtx_dlss4_4

No, čak i uz povećanu učinkovitost, GPU i dalje treba izvršiti pet AI modela u Super Resolutionu, Ray Reconstrucion i Multi-frame generiranje za svaku renderiranu sličicu, sve unutar nekoliko milisekundi, inače bi DLSS Multi-Frame Generation mogao usporavati proces, a ne ubrzavati ga. Da bi se osiguralo ubrzanje, GeForce RTX GPU-i serije 50 imaju tensorske jezgre 5. generacije s do 2,5 puta većim performansama AI obrade. Nakon što se generiraju nove sličice, one se ravnomjerno kreću kako bi se pružilo glatko iskustvo gledanja. DLSS 3 Frame Generation koristi tempo temeljen na CPU-u s varijabilnošću koja se može kombinirati s dodatnim sličicama, što dovodi do manje dosljednog razmaka između sličica, što pak utječe na glatkoću.

Kako bi riješio složenost generiranja više sličica, Blackwell koristi hardverski Flip Metering, koji pomiče logiku ritma sličica na mehanizam za prikaz, omogućujući GPU-u preciznije upravljanje s vremenom prikaza. Blackwellov display mehanizam također je poboljšan dvostrukom obradom piksela mogućnost podržavanja viših razlučivosti i učestalosti osvježavanja za hardverski Flip Metering s DLSS-om 4. U kombinaciji, sve ove tehnologije omogućuju DLSS 4 generiranje 15 od svakih 16 piksela uz visoku kvalitetu slike, glatkoću i latenciju. Ovo je teoretski limit, dok s se u praksi koristi generiranje do 3 sličice za svaku brut-force renderiranu.

Transformer model

rtx_transformer_model_1

DLSS 4 donosi veliku nadogradnju arhitekture za DLSS Ray Reconstruction, DLSS Super Resolution, i DLAA s prvom upotrebom transformatorskog modela u grafičkoj industriji u stvarnom vremenu.

Prethodno je DLSS koristio konvolucijske neuronske mreže (CNN) za generiranje novih piksela analizom lokaliziranog konteksta i praćenjem promjena u tim područjima tijekom uzastopnih sličica. Nakon šest godina i stalnim poboljšanjima, dosegli su granice onoga što je moguće s DLSS CNN arhitekturom, pa su se u Nvidiji okrenuli DLSS modelu transformatora. On procjenjuje relativnu važnost svakog piksela u cijeloj sličici ili u više sličica. Koristeći dvostruke parametre CNN-ovog modela kako bi se postiglo dublje razumijevanje scena, novi model generira piksele koji nude veću stabilnost, smanjenu pojavu duhova, više detalja u pokretu i glatkije rubove u sceni.

rtx_transformer_model_2

U intenzivnom Ray Tracing sadržaju, novi model transformatora za rekonstrukciju zraka donosi veliki napredak u kvaliteti slike, posebno u scenama s izazovnim uvjetima osvjetljenja. Na primjer, u gornjim scenama iz Alan Wake 2, stabilnost je povećana na vrlo detaljnoj lančanoj ogradi, duhovi na lopaticama ventilatora su smanjeni, a svjetlucanje na električnim vodovima je eliminirano.

rtx_transformer_model_3

Model transformatora za Super Resolution također pokazuje obećavajuće rezultate i bit će objavljen kao beta kako bi se korisnicima omogućilo istraživanje poboljšanja i davanje povratnih informacija prije službenog izdanja. Model je pokazao bolju vremensku stabilnost, manje duhova i više detalja u pokretu. Nova arhitektura modela transformatora osigurat će godine prostora za isporuku kontinuiranim poboljšanjanem kvalitete, kao je bilo sa CNN arhitekturom u proteklih 6 godina.

Blackwell arhitektura

rtx_blackwell_gb202_fullchip

Da bi sve ovo bilo moguće, stvorena je Blackwell arhitektura koja donosi nove SM (streaming multiprocessor) značajke koje preko Ray Tracing i Tensor jezgara ubrzavaju i poboljšavaju mogućnosti neuralnog renderiranja. Novi SM-i poduplavaju propusnost cjelobrojnog računanja po taktu, čime su povećane i performanse address generation poslova. Ray Tracing jezgre su četvrte generacije, a Tensor jezgre pete koje donose FP8 Transformer podršku.

rtx_blackwell_gpc

Čip ima i MaxQ značajke za povećanu energetsku efikasnost. Napredan power gating i odvojeni napojni vodovi omogućavaju finiju granulaciju kontrole i isporuke snage različitim on-chip sistemima, a takt se sada može dinamički prilagođavati čak 1000 puta brže nego na prethodnim generacijama čipova. Nova arhitektura donosi i upotrebu GDDR7 memorije koja donosi PAM3 (pulsna amplitudna modulacija) tehnologiju čime se povećava brzina i energetska efikasnost. RTX 5090 ima čak 32 GB, a RTX 5080 16 GB GDDR7 memorije. Novosti u arhitekturi uključuju i AI management processor (AMP) koji omogućava upotrebu višestrukih AI modela (govor, prijevod, slika, animacija, ponašanje itd.), a tu je i Mega Geometry tehnologija za povećanje geometrijskih detalja u Ray Tracing primjeni.

Puni GB202 GPU (da ne bude zabune, to nije čip koji je na RTX 5090 kartici) ima 12 GPC-a (graphics processing cluster), 96 TPC-a (texture processing cluster), 192 SM-a i 512-bitno memorijsko sučelje podijeljeno na 16 32-bitnih kontrolera. Svaki SM ima po dvije FP64 jezgre pa ih je ukupno 384, s TFLOP stopom od 1/64 one koju ima FP32 operacija. Tako GB202 GPU ima 24.576 tradicionalnih CUDA jezgara, 192 Ray Tracing jezgre, 768 Tensor jezgara i 768 teksturnih jedinica.

rtx_blackwell_sm

GPC je dominantni high-lever hardverski blok u svima GB20x GPU-ima, i u njemu se nalaze sve ključne grafičke jedinice. Svaki GPC ima dedicirani raster engine, dva ROP-a (raster operation), pri čemu svaka particija ima osam individualnih ROP-ova i osam TPC-a. Svaki pak TPC ima jedan PolyMorph engine i po dva SM-a. Puni GB202 čip uz to ima i 128 MB L2 memorije, dok se na RTX 5090 kartici nalazi 96 MB.

SM jedinica je ključna komponenta Nvidia GPU arhitekture, koja omogućava veliki paralelizam u obradi podataka preko različitih tipova jezgara – CUDA, Tensor i Ray Tracing, zatim warp schedulinga, menadžmenta memorije i podrške za AI. Svaki GB202 GPU ima 192 SM-a, a svaki SM ima 128 CUDA jezgri, jednu RT jezgru, četiri Tensor jezgre, četiri teksturne jedinice, 256KB registar i 128 KB L1 dijeljenje memorije.

rtx_blackwell_vs_ada

Broj mogućih INT32 cjelobrojnih operacija se u Blackwellu poduplao u odnosu na Ada Lovelace arhitekturu, jer su potpuno unificirane s FP32 jezgrama koje mogu raditi ili kao FP32 ili kao INT32 jezgre u bilo kojem ciklusu takta. Broj teksturnih jedinca je narastao s 512 kod RTX 4090, na 680 u RTX 5090 GPU-u što znači i kako je bilinear-filtered texel stopa narasla s 1.290,2 Gigateksela/s, na 1.636,76 Gigateksela/s. Blackwell poduplava i performanse point-sampling tekstura po taktu u odnosu na Ada arhitekturu, što ubrzava algoritme poput STF-a (stochastic texture filtering).

Uz promjene na arhitekturi tu je i dodatak nove GDDR7 video memorije koje na RTX 5090 karticama ima 32 GB data ratea 28 Gbps i propusnosti od 1,792 TB/s. Na RTX 5080 karticama je manje memorije, 16 GB, ali radi na većem data rateu od 30 Gbps, a preko užeg sučelja daje 960 GB/s propusnost.

rtx_blackwell_tensor

Tensor jezgre su specijalizirane računalne jezgre visokih performansi koje su prilagođene matričnim izračunima i matematičkim operacijama akumuliranja koje se koriste u AI i HPC aplikacijama. Poput NVIDIA Ada GPU tensor jezgri, RTX Blackwell tensor jezgre podržavaju FP16, BF16, TF32,INT8, INT4 i Hopperov FP8 Transformer Engine. RTX Blackwell dodaje novu podršku za FP4 i FP6 Tensor Core operacije i novi FP8 Transformer Engine druge generacije, sličan Blackwell GPU-ima za podatkovne centre.

rtx_blackwell_display

Dok su Ada i prethodne GPU arhitekture nudile podršku za 4:4:4 i 4:2:0 chroma formate u H.264 i H.265 videu, Blackwell dodaje hardversku podršku za kodiranje i dekodiranje za 4:2:2 chromasampled video. Video datoteke koriste YUV format boja, pa umjesto pohranjivanja boje kao vrijednosti crvene, zelene i plave (RGB), boja se pohranjuje kao svjetlina (Y), plava razlika u boji (U) i crvena razlika u boji (V). Chromasampling ima prednost jer je ljudsko oko osjetljivije na promjene u osvjetljenju, nego na one u boji. 

Blackwell arhitektura donosi i devetu NVENC generaciju kodera koja poboljšava kvalitetu AV1 i HEVC-a za 5%, i dodaje podršku za 4:2:2 H.264 i HEVC kodiranje. RTX 5090 GPU podržava tri kodera i dva dekodera čime su brzine eksportiranja povećane za oko 50% u odnosu na prethodnu generaicju. Tu je i šesta generacija NVDEC-a koja je brža, te podrška za DisplayPort 2.1b (80 Gbps) i do 8K@165Hz.