Kad AI postane liječnik: kako je Baichuan M3 prvi put nadmašio OpenAI u zdravstvu i zašto je to tek početak

Jeste li ikada pitali AI asistenta za savjet vezan uz vlastito zdravlje. Ako ste, poput autorice ovog teksta, intenzivan korisnik umjetne inteligencije, velika je vjerojatnost da ste to već učinili barem jednom. Ta praksa više nije iznimka, nego pravilo.

Prema podacima samog OpenAI-ja, zdravlje je danas jedno od najčešćih područja primjene ChatGPT-a. Više od 230 milijuna ljudi diljem svijeta svakog tjedna postavlja pitanja povezana sa zdravljem i dobrobiti. Upravo zato, s ulaskom u 2026. godinu, zdravstveni sektor sve jasnije postaje novo bojno polje umjetne inteligencije.

Početkom siječnja OpenAI je predstavio ChatGPT Health, funkciju koja korisnicima omogućuje povezivanje elektroničkih medicinskih kartona i zdravstvenih aplikacija kako bi odgovori bili personaliziraniji i precizniji. Samo nekoliko dana kasnije, Anthropic je lansirao Claude for Healthcare i naglasio sposobnosti svog modela u medicinskim scenarijima. No ovoga puta posebno je zanimljivo to što kineske AI tvrtke nisu ostale u sjeni. Naprotiv, pokazale su snažan osjećaj vodstva. Dana 13. siječnja Baichuan Intelligence objavio je novi model Baichuan M3, koji je na službenom OpenAI-jevom evaluacijskom testu HealthBench nadmašio GPT-5.2 High i postigao najbolji rezultat na svijetu. Riječ je o povijesnom trenutku, jer je to prvi put da jedan model u području zdravstva prestigne OpenAI na njegovu vlastitom standardu.

Nakon razdoblja u kojem je Baichuan često bio percipiran kao ambiciozan, ali nedovoljno dokazan igrač, ovaj rezultat označava jasnu prekretnicu. Tim povodom Geek Park je razgovarao s Wang Xiaochuanom kako bi iz prve ruke doznao kako Baichuan gleda na potencijal M3 modela i kakva je njihova dugoročna vizija medicinske umjetne inteligencije.

Prvi put u povijesti: AI model nadmašuje OpenAI u zdravstvenoj evaluaciji

Najveće postignuće modela Baichuan M3 jest činjenica da je osvojio prvo mjesto na HealthBenchu, jednom od najuglednijih evaluacijskih skupova u medicini i zdravstvu. HealthBench je OpenAI objavio u svibnju 2025. godine, a zajednički su ga izradila 262 liječnika iz 60 zemalja. Sadrži 5.000 iznimno realističnih, višekružnih medicinskih razgovora i danas se smatra testom najbližim stvarnim kliničkim scenarijima.

Od njegova lansiranja, OpenAI-jevi modeli uvjerljivo su dominirali ljestvicom. No sada je Baichuan M3 s ukupnim rezultatom od 65,1 bod preuzeo vrh. Još impresivnije, isti je model ostvario najbolji rezultat i na HealthBench Hard, testu koji se fokusira na složeno kliničko donošenje odluka. Baichuan je dodatno objavio podatke o stopi halucinacija. M3 je postigao samo 3,5 posto medicinskih halucinacija, što je trenutačno najniži rezultat na svijetu, i to u čistom modelu koji se ne oslanja na vanjske alate za dohvat informacija.

Ključ ovog uspjeha leži u tehnologiji Fact-Aware Reinforcement Learning, koju je Baichuan prvi put primijenio upravo na M3. Cilj je jednostavan, ali presudan: model ne smije izmišljati činjenice niti govoriti besmislice. U medicini to nije luksuz, nego nužnost.

U neoptimiziranim modelima najčešće se javljaju dva problema. Prvi je izmišljanje simptoma i pretpostavljanje bolesti koje korisnik uopće nema. Drugi je nejasan, dvosmislen jezik koji na kraju ne pomaže ni pacijentu ni liječniku. Baichuan je taj problem riješio uvođenjem semantičkog grupiranja i ponderiranja važnosti, pri čemu ključne medicinske tvrdnje imaju veću težinu od sporednih informacija.

Kako model sazrijeva, algoritam dinamički pooštrava kriterije točnosti, čime se postupno smanjuje prostor za halucinacije, a povećava pouzdanost odgovora.

Razina konzultacija koja nadmašuje ljudske liječnike

Nadmašivanje OpenAI-ja na HealthBenchu nije jedini važan trenutak. Baichuan je paralelno razvio vlastiti evaluacijski sustav nazvan SCAN-bench, čiji je cilj procjena cjelokupne konzultacijske sposobnosti modela. Prema Baichuanovim istraživanjima, svako povećanje točnosti konzultacije od dva posto dovodi do rasta točnosti dijagnoze i terapije za jedan posto. Drugim riječima, nije dovoljno samo odgovoriti točno, već treba znati postaviti prava pitanja.

SCAN-bench temelji se na principima stvarne kliničke prakse i razrađen je u suradnji s više od 150 liječnika. Dijagnostički proces razložen je na prikupljanje anamneze, pomoćne pretrage i konačnu dijagnozu.

Usporedba je pokazala nešto iznenađujuće. U specijaliziranim slučajevima M3 je u četiri ključna kvadranta postigao bolje rezultate od stvarnih liječnika. Razlog nije u tome što je AI „pametniji“, već u tome što je strpljiviji, dosljedniji i sposobniji povezivati znanja iz različitih medicinskih područja.

Primjerice, kod djece s dugotrajnom i nejasnom temperaturom, ljudski liječnici često su ograničeni vlastitom specijalizacijom, dok AI može sustavno obuhvatiti širi spektar mogućih uzroka bez umora ili predrasuda.

Sljedeći korak: ozbiljna medicinska skrb, a ne površni scenariji

Za Baichuan Intelligence ovo nije samo tehnološki uspjeh, nego signal da je medicinska umjetna inteligencija ušla u fazu stvarne primjenjivosti. Model M3 već je dostupan korisnicima putem weba i aplikacije Baixiaoying, s jasno odvojenom verzijom za liječnike i pacijente.

Dok liječnička verzija nudi sažete odgovore s referencama, verzija za pacijente vodi strukturiran razgovor, postavlja dodatna pitanja i postupno dolazi do dijagnoze. Model nije treniran da ugađa korisniku, nego da inzistira na ključnim informacijama, čak i kada su pitanja neugodna ili zahtjevna.

Wang Xiaochuan naglašava da Baichuan ne želi birati lake scenarije. Umjesto psihološkog savjetovanja, koje je lakše automatizirati, fokus stavljaju na onkologiju i druge teške, jasno definirane medicinske discipline. Razlog je jednostavan: ondje postoji čvrsta znanstvena osnova i mogućnost stvarnog nadmašivanja ljudskih granica.

Dugoročna vizija ide još dalje. Baichuan vjeruje da umjetna inteligencija može pomoći u rješavanju kroničnog nedostatka kvalitetnih medicinskih resursa, osobito u primarnoj zdravstvenoj zaštiti. Ako vrhunsko medicinsko znanje postane dostupno svakoj zajednici, smanjit će se pritisak na velike bolnice i povećati povjerenje pacijenata u sustav.

U konačnici, cilj je ambiciozan: kroz dugoročne AI konzultacije prikupljati visokokvalitetne podatke i izgraditi matematički model života. To je područje koje ljudska medicina još nije u potpunosti istražila, ali bi upravo umjetna inteligencija mogla napraviti presudan iskorak.

Ako se taj cilj ostvari, medicinska umjetna inteligencija neće biti samo alat, nego jedan od ključnih koraka prema pravoj općoj umjetnoj inteligenciji.

Prvi put u povijesti: AI model nadmašuje OpenAI u zdravstvenoj evaluaciji

Razina konzultacija koja nadmašuje ljudske liječnike

Sljedeći korak: ozbiljna medicinska skrb, a ne površni scenariji

DRUGE NOVOSTI

Gamescom 2026 rasprodan mjesec dana prije početka – sav izložbeni prostor popunjen, stižu nova velika imena i premijere

NVIDIA i SEGA slave 30 godina inovacija, donoseći VIRTUA FIGHTER CROSSROADS na RTX Spark

Gears of War: E-Day izlazi 6. listopada s DLSS 4.5 i Ray Tracingom

Microsoft će implementirati procesore AMD Instinct i AMD EPYC sljedeće generacije u sklopu proširenja dugoročnog strateškog partnerstva dviju tvrtki