NVIDIA je lansirala novi model otvorenog koda za automatsko prepoznavanje govora za obradu 60 minuta audio datoteka u 1 sekundi

·

NVIDIA je lansirala novi model otvorenog koda za automatsko prepoznavanje govora za obradu 60 minuta audio datoteka u 1 sekundi

Nvidia je nedavno predstavila svoj najnoviji open-source model za automatsko prepoznavanje govora – Parakeet TDT 0.6B. Ovaj model može obraditi čak 60 minuta audio zapisa za samo 1 sekundu, što je 50 puta brže od većine današnjih open-source ASR modela. Osim brzine, može se pohvaliti i vrlo niskom stopom pogrešaka (WER) od 6.05% na Open ASR ljestvici koju vodi Hugging Face – što je izvrsno za modele otvorenog koda. To ga čini idealnim za ozbiljne primjene kao što su transkripcija u stvarnom vremenu, analiza govora, AI za call centre i pretraživanje audio sadržaja.

Parakeet TDT 0.6B se temelji na naprednoj Transformer arhitekturi s čak 600 milijuna parametara, koristi kodiranje-dekodiranje strukturu, a dodatno je fino podešen uz pomoć vrhunskih transkripcijskih podataka. Model je posebno optimiziran za NVIDIA hardver, koristi kvantizaciju i fusion-core tehnologiju za još brže izvođenje, i podržava TDT (Transducer Decoder Transformer) arhitekturu.

NVIDIA poziva na ublažavanje propisa o izvozu AI čipova, ali Trumpova administracija ih želi još više pooštriti

NVIDIA će opremiti GeForce RTX 5060 sa 128-bitnom sabirnicom i GDDR7 memorijom

Koje se tvrtke NVIDIA najviše boji u Kini?

No, nije sve samo brzina i preciznost – Parakeet donosi i niz kul dodataka. Može, primjerice, prepoznavati tekstove pjesama, što je korisno za glazbene servise i medijske platforme. Također razumije brojeve, datume i vrijeme, što jako olakšava čitanje transkripata sastanaka, pravnih dokumenata ili medicinskih bilješki. Uz to, automatski dodaje interpunkciju, što pomaže u daljnjoj obradi teksta u NLP aplikacijama.