Medicinski rad Microsofta i Sveučilišta Washington slučajno je otkrio specifikacije AI modela koje je razvio OpenAI, uključujući GPT-4, GPT-4o i o1
Ovo otkriće privuklo je pažnju stručne javnosti jer donosi detaljne informacije o tehničkim karakteristikama nekih od najnaprednijih jezičnih modela današnjice.
Otkrivene tehničke specifikacije
- GPT-4: 1,76 bilijuna parametara.
- GPT-4o: 200 milijardi parametara.
- GPT-4o mini: 8 milijardi parametara.
- o1-pregled: 300 milijardi parametara.
- o1-mini: 100 milijardi parametara.
- Claude 3.5 Sonet: 175 milijardi parametara.
Ono što najviše iznenađuje je da GPT-4o ima parametre puno niže od očekivanih, pri čemu mini verzija sadrži samo 8 milijardi parametara. Stručnjaci sugeriraju da bi mini GPT-4o mogao biti MoE (Mixture of Experts) model, gdje se aktivira samo dio parametara u svakom koraku obrade, što može značajno povećati učinkovitost uz manju potrošnju resursa.
MEDEC standardi evaluacije i medicinske primjene
U istoj studiji otkriveno je kako je istraživački tim iz Microsofta i Sveučilišta Washington razvio standard nazvan MEDEC (Medical Error Detection and Correction), koji je dizajniran za otkrivanje i ispravljanje pogrešaka u kliničkim bilješkama. Cilj ovog standarda je poboljšanje sigurnosti i preciznosti u medicinskoj dokumentaciji, što ima ključnu ulogu u unaprjeđenju kliničkih praksi.
Informacije o MEDEC-u
Obuhvaća 3848 kliničkih dokumenata iz 488 bilješki prikupljenih iz tri bolnička sustava u SAD-u.
Kategorizacija pogrešaka u pet glavnih tipova:
- Dijagnoza: Pogrešna dijagnoza.
- Liječenje: Neispravni koraci u liječenju bolesti.
- Metoda liječenja: Pogrešna terapijska metoda.
- Lijekovi: Preporuka pogrešnog lijeka.
- Patogen: Pogrešna identifikacija organizama koji uzrokuju bolesti.
- Testiranje AI modela i usporedba s liječnicima
MEDEC je korišten za procjenu izvedbe više naprednih AI modela, uključujući GPT-4, GPT-4o, o1-pregled, Claude 3.5 Sonnet i Gemini 2.0 Flash. Testovi su se fokusirali na tri glavna zadatka:
- Utvrđivanje postoji li pogreška.
- Prepoznavanje rečenice s pogreškom.
- Predlaganje popravka.
Rezultati testiranja
- LLM (modeli velikog jezika) pokazali su dobre rezultate u otkrivanju i ispravljanju pogrešaka, ali su i dalje zaostajali za ljudskim liječnicima u preciznosti i pouzdanosti.
- o1-preview model se istaknuo u ispravljanju pogrešaka.
- Claude 3.5 Sonnet postigao je najveću točnost u detekciji pogrešaka.
Izazovi u primjeni LLM-a u medicini
Unatoč napretku, primjena velikih jezičnih modela u medicinskim scenarijima suočava se s nizom izazova:
- Halucinacije: Modeli često generiraju netočne ili čak izmišljene informacije, što može predstavljati rizik za kliničke odluke.
- Nedostatak praktičnog iskustva: Otkrivanje pogrešaka zahtijeva kombinaciju medicinske stručnosti i iskustva, što trenutačni modeli još uvijek ne mogu u potpunosti replicirati.
- Pouzdanost: Ispitivanja pokazuju potrebu za daljnjim unaprjeđenjem kako bi LLM dosegao razinu usporedivu s ljudskim liječnicima u složenim zadacima.
Autori Microsoftove studije
Rad su vodili istaknuti istraživači iz Microsofta i Sveučilišta Washington, uključujući:
- Wen-wai Yim: Viši primijenjeni znanstvenik u Microsoftu, s bogatim iskustvom u bioinženjeringu, biomedicinskoj i zdravstvenoj informatici. Glavni fokus njenog rada je izvlačenje informacija iz kliničkih bilješki i medicinskih podataka.
- Yujuan Fu: Doktorant na Sveučilištu Washington, specijaliziran za medicinsku obradu prirodnog jezika i fino podešavanje velikih jezičnih modela.
- Zhaoyi Sun: Doktorant na Sveučilištu Washington, s fokusom na primjenu velikih jezičnih modela u kliničkim aplikacijama i multimodalnom dubokom učenju.
- Fei Xia: Profesor na Odsjeku za lingvistiku Sveučilišta Washington, s iskustvom u obradi prirodnog jezika i projektima vezanim za gramatiku i učenje jezika.
Svi navedeni autori doprinijeli su multidisciplinarnim uvidima i stručnošću, što je ključno za unaprjeđenje AI primjena u medicini.
