TensorRT-LLM može donijeti do 8 puta veću izvedbu AI zaključivanja

·

TensorRT-LLM može donijeti do 8 puta veću izvedbu AI zaključivanja

NVIDIA predviđa da će industrije poput financija, medicinske skrbi, maloprodaje, telekomunikacija, medija, zabave, proizvodnje i energetike uvesti modele Large Language Model (LLM) jezika, a njegova tehnologija razvijati vrlo brzo.

Međutim, kako se veličina modela nastavlja širiti, implementacija AI modela također će postati složenija i zahtijeva više računalnih resursa za zaključivanje. Kako bi poboljšala ovu situaciju, NVIDIA je pokrenula TensorRT-LLM računalni okvir, koji je visoko optimiziran i otvorenog koda, a podržava LLM-ove kao što su GPT-3, Llama, Flacon 180B i BLOOM, kao i AI jezgre poput SmoothQuant, FlashAttention i fMHA.

Uz to, TensorRT-LLM također podržava računalstvo s više GPU-a i više čvorova, te uvodi tehnologiju In-Flight Batching koja može optimizirati raspored rada i automatski pretvoriti model u format podataka FP8 putem Transformer motora.

Prema podacima koje je dostavila NVIDIA, H100 GPU uparen s TensorRT-LLM može donijeti 8 puta bolje GPT-J 6B performanse zaključivanja od A100 GPU-a. Što se tiče Llama 2 dijela, H100 GPU uparen s TensorRT-LLM može donijeti 4,6 puta bolje performanse zaključivanja od A100 GPU-a.

Iako GPU korišten u gornjim podacima o izvedbi pripada drugoj generaciji proizvoda, može se vidjeti da korištenje H100 GPU-a s TensorRT-LLM-om i samo korištenje H100 također može dovesti do poboljšanja performansi.