IBM izdaje model otvorenog koda Granite Code, nadmašujući Googleov model u programskim zadacima
IBM je nedavno objavio skup modela otvorenog koda pod nazivom Granite Code, dizajnirani da pomognu tvrtkama da ostvare razne zadatke razvoja softvera i istaknu se u mjerilima. Ne samo da ovi modeli nadmašuju neke od većih konkurenata otvorenog koda, već pokazuju i snažne performanse u programskim zadacima.
Granite Code podijeljen je na osnovni model i vođeni model. Svaki ima četiri varijante različitih skala u rasponu od 30 do 34 milijarde parametara. Ovi modeli imaju relativno kratke kontekstne prozore. Primjerice jedan od njih ima kontekstni prozor od samo 128K što ograničava njegovu učinkovitost kada je u pitanju sadržavanje savjeta kao što su određeni dokumenti ili vlastita baza kodova. Međutim, IBM radi na verziji s većim kontekstualnim prozorom.
Obuka osnovnog modela podijeljena je u dvije faze. Prva faza je obučena pomoću 3-4 bilijuna tokena iz 116 programskih jezika za izgradnju širokog razumijevanja. U prvoj fazi modeli se dodatno obučavaju pomoću 500 milijardi markera iz visokokvalitetnog koda i podataka na prirodnom jeziku kako bi se ojačale mogućnosti logičkog zaključivanja. Vođeni modeli stvaraju se poboljšanjem temeljnog modela filtriranjem zapisima o izvršavanju, s uputama na prirodnom jeziku i sintezom generiranih skupova podataka koda.
Dosadašnji testovi pokazali su da Granite Code modeli nadmašuju sve razmjere i mjerila u više referentnih vrijednosti uključujući sintezu koda, ispravljanje pogrešaka, tumačenje, uređivanje i zaključivanje.
Većina podataka o vježbanju za ove modele dolazi iz očišćenog GitHub seta, StarCoderData i drugih javno dostupnih baza kodova. To je važno jer trenutno postoji niz tužbi protiv drugih tipova kodova ključujući i sam GitHub zbog navodnog kršenja autorskih prava podataka o obuci.
IBM planira redovito ažurirati ove modele. Uskoro dolaze specijalizirane verzije s većim kontekstnim prozorima te za Python i Javu. Granite Code modeli dostupni su na Hugging FaceGitHub i također su dio IBM-ove watsonx enterprise platforme.



