NVIDIA NVLM 1.0, multimodalni model velikih razmjera
NVIDIA istraživački tim objavio je NVLM 1.0, multimodalni model velikih razmjera. Najveća verzija, NVLM-D-72B, ima 72 milijarde parametara (72B), što ga stavlja uz bok vodećim privatnim modelima poput GPT-4o i modelima otvorenog koda, kao što su Llama 3-V 40.5B i InternVL 2. Ovi modeli uključuju i razumijevanje meme grafova kao primjera. Ipak, NVLM 1.0 je osmišljen za unapređenje AI industrije i služi isključivo za istraživačke svrhe, bez dopuštenja za komercijalnu upotrebu.
▲ Kao primjer, možete uzeti fotografiju izvršnog direktora Huanga Renxuna kako biste demonstrirali izvanredne sposobnosti modela u praćenju naredbi i generiranju visokokvalitetnih, detaljnih opisa slika.
▲ Model čak može razumjeti značenje iza memova.
NVIDIA istraživački tim navodi da je NVLM 1.0 usporediv s vodećim modelima jezika velikih razmjera u projektima koji uključuju vizualni jezik i čisti tekst. Model prednjači u testovima OCRBencha i VQAv2, te premašuje, ili je barem jednako dobar kao privatni GPT-4o u svim testovima. Osim toga, NVLM-1.0 72B nadmašio je Googleov Gemini 1.5 Pro u multimodalnim testovima.
