NVIDIA predstavlja novi glasovni AI model Fugatto: tjera mačke i pse da pjevaju, klavir svira ljudski vokal ili mijenja emocije

NVIDIA je predstavila novi AI model za generiranje glazbe i zvuka koji može modificirati zvukove i generirati nove zvukove – tehnologiju namijenjenu proizvođačima glazbe, filmova i videoigara. Tehnologija je poznata kao Fugatto, što je skraćenica za Foundational Generative Audio Transformer Opus.

Tehnologija, kao i druge tehnologije koje predstavljaju startupi poput Runwaya i velike tvrtke poput Mete, može generirati audio ili video na temelju tekstualnih uputa. NVIDIA verzija može generirati zvučne efekte i glazbu na temelju tekstualnih opisa, uključujući nove zvukove, kao što je pjevanje mačaka i pasa ili pretvaranje sviranja violine u lavež pasa.

Razlikuje se od ostalih AI tehnologija po tome što je sposoban primati i modificirati postojeći zvuk, kao što je pretvaranje fraze koju svira klavir u frazu koju pjeva ljudski glas ili promjena naglaska i emocija izraženih govornom snimkom.

U procesu zaključivanja, model koristi tehniku nazvanu ComposableART, koja kombinira upute koje se pojavljuju odvojeno tijekom vježbanja. Na primjer, skup upita može se koristiti za traženje da se tekst izgovori francuskim naglaskom s tužnim osjećajima. Sposobnost modela da interpolira između uputa daje korisnicima finu kontrolu nad tekstualnim uputama.

“Želio sam omogućiti korisniku da kombinira atribute na subjektivan ili umjetnički način, birajući koliko naglaska želi na svakom atributu“, kaže Rohan Badlani, istraživač umjetne inteligencije koji je dizajnirao ove aspekte modela. “U mojim testovima rezultati su često iznenađujući i čine da se osjećam pomalo kao umjetnik, iako sam informatičar.”

“Ako razmišljamo o sintetiziranom zvuku u posljednjih 50 godina, glazba sada zvuči drugačije zbog računala, zbog sintisajzera“, rekao je Bryan Catanzaro, potpredsjednik primijenjenog istraživanja dubokog učenja u NVIDIA-i. “Mislim da će generativna umjetna inteligencija donijeti nove mogućnosti glazbi, videoigrama i običnim ljudima koji žele stvarati stvari.”

Fugatto je svestran alat za kreativne industrije, koji filmašima i audio profesionalcima omogućuje stvaranje jedinstvenih zvučnih pejzaža, izdvajanje ključnih audio elemenata i poboljšanje kvalitete pripovijedanja i produkcije. Glazbenike i skladatelje mogu nadahnuti novi alati za eksperimentiranje sa stilovima, instrumentima i aranžmanima.

Dok tvrtke poput OpenAI-ja pregovaraju s holivudskim studijima o tome hoće li i kako koristiti umjetnu inteligenciju za industriju zabave, odnosi između tehnoloških tvrtki i Hollywooda postali su zategnuti, posebno nakon što je holivudska zvijezda Scarlett Johansen optužila OpenAI da oponaša njezin glas.

NVIDIA-in novi model obučen je na podacima otvorenog koda, a tvrtka kaže da još uvijek raspravlja o tome hoće li i kako ga javno objaviti.

“Postoji određeni rizik za bilo koju generativnu tehnologiju jer bi je ljudi mogli koristiti za generiranje stvari koje ne želimo da generiraju“, rekao je Catanzaro. Moramo biti oprezni u vezi s tim, zbog čega nemamo planove za hitno puštanje ove tehnologije.”

Kreatori generativnih AI modela još nisu odredili kako spriječiti zlouporabu tehnologije, kao što je generiranje dezinformacija od strane korisnika ili kršenje autorskih prava generiranjem likova zaštićenih autorskim pravima.

OpenAI i Meta također nisu otkrili kada planiraju objaviti model koji generira audio ili video u javnost.

DRUGE NOVOSTI

Jednostavan oporavak Windowsa uz QNAP HDP Recovery Media Creator

Procurili detalji o Intel Core Ultra 400 procesorima: Nova Lake stiže s do 52 jezgre

Što je MCP i zašto ga prihvaćaju OpenAI, Google, Microsoft i drugi tehnološki divovi?

Apple ponovno preuzeo titulu najvrjednije tvrtke na svijetu, Nvidia izgubila vodeću poziciju