NVIDIA NVLM 1.0, multimodalni model velikih razmjera

OGLAS

NVIDIA istraživački tim objavio je NVLM 1.0, multimodalni model velikih razmjera. Najveća verzija, NVLM-D-72B, ima 72 milijarde parametara (72B), što ga stavlja uz bok vodećim privatnim modelima poput GPT-4o i modelima otvorenog koda, kao što su Llama 3-V 40.5B i InternVL 2. Ovi modeli uključuju i razumijevanje meme grafova kao primjera. Ipak, NVLM 1.0 je osmišljen za unapređenje AI industrije i služi isključivo za istraživačke svrhe, bez dopuštenja za komercijalnu upotrebu.

▲ Kao primjer, možete uzeti fotografiju izvršnog direktora Huanga Renxuna kako biste demonstrirali izvanredne sposobnosti modela u praćenju naredbi i generiranju visokokvalitetnih, detaljnih opisa slika.

▲ Model čak može razumjeti značenje iza memova.

NVIDIA istraživački tim navodi da je NVLM 1.0 usporediv s vodećim modelima jezika velikih razmjera u projektima koji uključuju vizualni jezik i čisti tekst. Model prednjači u testovima OCRBencha i VQAv2, te premašuje, ili je barem jednako dobar kao privatni GPT-4o u svim testovima. Osim toga, NVLM-1.0 72B nadmašio je Googleov Gemini 1.5 Pro u multimodalnim testovima.

DRUGE NOVOSTI

Predsjednik ADATA-e upozorava: Globalna nestašica RAM-a mogla bi potrajati sljedećih deset godina

Arhitektura NVIDIA Vera: Kako je prilagođeni Arm CPU dizajniran za eru agentske umjetne inteligencije

NVIDIA otkrila kako DLSS 5 funkcionira: programeri dobivaju veću kontrolu nad AI renderiranjem igara

Giga Computing ubrzava umjetnu inteligenciju za poduzeća velikih razmjera s AMD EPYC™ serverskim procesorima 6. generacije