Heterogeno računalstvo, NPU i AI telefoni

Što je Heterogeno računalstvo? Što je NPU? Kako telefon učiniti “AI”? Qualcomm nudi odgvore u novo objavljenoj bijeloj knjizi u kojoj detaljno opisuje važnost NPU-a i heterogenog računalstva za upotrebu generativne umjetne inteligencije na strani uređaja.

Heterogeno računalstvo

Heterogeno računalstvo predstavlja koncept korištenja različitih procesorskih jedinica u jednom sustavu. Nužno je za generativnu umjetnu inteligenciju. Može dati punu igru hardveru svojom arhitekturum i omogućuje iskorištavanje specifičnih prednosti svake procesorske jedinice za optimalnu obradu različitih zadataka. Primjerice, CPU-i su dobri za sekvencijalnu kontrolu i modele koji zahtijevaju nisku latenciju. Mogu se koristiti za upravljanje resursima i obavljanje operacija na manjim modelima neuronske mreže ili nekim specifičnim velikim jezičnim modelima (LLM). S druge strane, GPU-i su odlični u paralelnoj obradi za visokoprecizne formate, poput obrade slika i videozapisa. Zahvaljujući velikoj broju procesorskih jezgri, mogu efikasno obraditi velike količine podataka i generirati visokokvalitetne rezultate. Dolazimo do još jedne ključne tehnologije za generativni dizajn umjetne inteligencije – procesor neuronske mreže.

Što je procesor neuronske mreže (NPU)?

NPU (Neural Processing Unit) je namjenski procesor dizajniran za ubrzanje izvođenja zadataka umjetne inteligencije. Al radno opterećenje uglavnom uključuje sloj neuronske mreže koji se sastoji od skalarne, vektorske i tenzorske matematike, kao i nelinearne aktivacijske funkcije. Dobar dizajn NPU-a može donijeti ispravne dizajnerske odluke za rješavanje ovih radnih opterećenja umjetne inteligencije i u skladu je s smjerom industrije umjetne inteligencije. Njegova arhitektura se kontinuirano razvija i usklađuje s novim algoritmima, modelima i slučajevima upotrebe.

Kako telefon učiniti “AI”

Vidjeli smo da se OPPO i Meizu u potpunosti posvećuju području umjetne inteligencije, a generativna umjetna inteligencije na mobilnim uređajima opremljenim platformom Snapdragon 8 treće generacije postupno ulazi u živote sve više korisnika.

Trenutno HEKSAGON NPU integrira različite komponente, a vršne performanse tenzorske aritmetičke jezgre značajno se povećavaju za 98 posto. Poboljšane su i aritmetičke performanse skalara i vektora. Integriran je modul segmentacijske mreže za obradu slike, a dodane su i mogućnosti hardverskog ubrzanja za nelinearne funkcije. Osim toga, integrira veliku zajedničku memoriju kako bi pružio namjensku stazu za isporuku energije za akceleratore, što također donosi veću propusnost velikoj zajedničkoj memoriji. Ovdje treba dodati da implementacija velikih jezičnih modela na strani uređaja ima visoke zahtjeve u pogledu brzine i kapaciteta memorije. Snapdragon 8 treće generacije podržava LPDDR5X memoriju, radi do 4,8 GHz i ima sposobnost pokretati velike jezične modele pri velikim brzinama.

Za problem velikih modela koji jedu memoriju, Qualcomm pruža izvornu podršku za 4-bitne cjelobrojne modele na NPU-u, koji zauzimaju mnogo manju memoriju od 16-bitnih cjelobrojnih modela. Tehnologije poput kompresije modela integrirane u Qualcomm AI Engine omogućuju velikim modelima nesmetan rad u ograničenom memorijskom prostoru.

Uz sve to Qualcomm gradi unutar tvrtke Adreno GPU i ne samo da dobro funkcionira, već ima i bolje performanse u smislu energetske učinkovitosti. Uz to svaka procesorska jedinica nadopunjuje se kako bi izgradila heterogenu računalnu snagu, što je upravo ono što generativna umjetna inteligencija treba, a također je znatno bolje rješenje od kraja do kraja.

HONOR osvjetljava budućnost AI u pametnim uređajima na MWC-u

Tehnološki divovi otpuštaju: AI revolucija ili promjena smjera?

OpenAI predstavlja “memoriju” za ChatGPT: poboljšano iskustvo za korisnike

Ove godine, nova generacija Snapdragon mobilna platforma u smislu CPU-a, imati će samorazvijene Oryon jezgre. U usporedbi s prethodnom ARM javnom arhitekturom, Oryon nesumnjivo ima veću autonomiju, a naknadna optimizacija je također lakša.

Konačno, dobro je znati da čak avatar AI asistent također treba heterogenu računalnu obradu, koja treba pokrenuti ASR model za pretvaranje govora u tekst, zatim generirati tekstualne odgovore kroz veliki jezični model i potom pretvoriti tekst u govor kroz model. Blendshape tehnika se zatim koristi za usklađivanje glasa s oblikom usta avatara za sinkronizaciju glasa s avatarom. Nakon toga, avatar se prikazuje u realnom vremenu putem GPU-a. Rezultat je sinergistička upotreba svih različitih modula obrade na Qualcomm AI Engineu za postizanje izvrsnog interaktivnog iskustva.

Za više informacija pogledajte Qualcommovu bijelu knjigu o generativnoj umjetnoj inteligenciji i NPU-u.