Primjena ChatGPT-a u općoj medicini
27.04.2023.
Autori članka objavljenog u JMIR Medical Education su istražili postoji li mogućnost korištenja jezičnog modela temeljnog na umjetnoj inteligenciji, ChatGPT-a u općoj medicini. U opservacijskoj studiji su primijenili test znanja koji se inače polaže kao kvalifikacijiski za članstvo u udruženje liječnika obiteljske medicine kako bi pokazali mogućnosti i ograničenja primjene ChatGPT-a u primarnoj zdravstvenoj zaštiti.
Danas su nam dostupni jezični modeli temeljeni na umjetnoj inteligenciji koji se uspoređuju s postignućima ljudi u specijaliziranim zadatcima. Takav jedan primjer je i Generative Pretrained Transformer 3.5, koji je temelj obrade ChatGPT-a. Poznato je da su potrebna kontrolirana ispitivanja kako bi se razumjele današnje mogućnosti nove tehnologije te kako bi se inovacije mogle usmjeriti na dobrobit pacijenata i liječnika.
U istraživanju su procijenjene prednosti i slabosti ChatGPT-a u primarnoj zdravstvenoj zaštiti korištenjem primijenjenog testa znanja koji se koristi za članstvo u Royal College of General Practitioners.
Test pitanja su uzeta iz banke pitanja na webu i 2 rada. U ChatGPT je ukupno uneseno 674 jedinstvenih pitanja provjere znanja liječnika obiteljske medicine pri čemu su zabilježeni odgovori modela i uspoređeni s točnim odgovorima koje je dao Royal College of General Practitioners. Svako pitanje je uneseno dva puta u odvojenim ChatGPT sesijama. Težina predmeta procijenjena je pozivanjem na izvješća ispitivača od 2018. do 2022.
Zabilježena su nova objašnjenja iz ChatGPT-a – definirana kao pružena informacija koja nije unesena unutar pitanja ili izbora više odgovora. Učinkovitost je analizirana s obzirom na temu, težinu, izvor pitanja i rezultate novih modela kako bi se istražile prednosti i slabosti ChatGPT-a.
Prosječna ukupna izvedba ChatGPT-a bila je 60,17%, što je ispod prosječne prolazne ocjene za liječnike obiteljske medicine u posljednje 2 godine (70,42%). Točnost se razlikovala između izvora (P=.04 i .06). Uspješnost ChatGPT-a varirala je ovisno o kategoriji predmeta (P=.02 i .02), ali varijacije nisu bile u korelaciji s težinom (Spearman ρ=–0.241 i –0.238; P=.19 i .20). Sklonost ChatGPT-a da kreira neka nova objašnjenja nije utjecala na točnost (P>.99 i .23).
Veliki jezični modeli približavaju se mogućnostima pojedinih stručnjaka i specijalista, ali ih je potrebno i dalje razvijati kako bi se uskladili s nivoom znanja kvalificiranih liječnika primarne zdravstvene zaštite. Pitanje je mogu li validirani modeli poslužiti kao pomoćnici ili autonomni klinički alati za ublažavanje krize radne snage koja postoji na nivou obiteljske medicine?