Posustaje li umjetna inteligencija kod procjene pacijenta koje nije "vidjela"?
17.01.2024.
Računalni algoritmi koji su dizajnirani da pomognu liječnicima u liječenju osoba sa shizofrenijom ne prilagođavaju se dobro novim, neviđenim podacima, pokazalo je istraživanje.
Sustavnim pregledom 308 modela kliničkog predviđanja za psihijatrijske ishode utvrđeno je da je samo oko 20% modela prošlo validaciju na uzorcima koji nisu oni na kojima su razvijeni.
Liječnici se oslanjaju na algoritme za personaliziranu medicinu - ali analiza ispitivanja shizofrenije pokazuje da se alati ne uspijevaju prilagoditi novim skupovima podataka.
Takvi alati - koji koriste umjetnu inteligenciju (AI) za uočavanje uzoraka u velikim skupovima podataka i predviđanje kako će pojedinci reagirati na određeni tretman - ključni su za preciznu medicinu, u kojoj zdravstveni djelatnici pokušavaju prilagoditi liječenje svakoj osobi.
U radu objavljenom 11. siječnja u časopisu Science, istraživači su pokazali da AI modeli mogu predvidjeti ishode liječenja s visokom točnošću za ljude u uzorku na kojem su bili obučeni. Ali njihova izvedba pada na malo bolju od slučajnosti kada se primijeni na podskupove početnog uzorka ili na različite skupove podataka. Ova studija u osnovi daje dokaz da algoritme treba testirati na više uzoraka.
Istraživači su procijenili algoritam koji se obično koristi u modelima psihijatrijskog predviđanja. Koristili su podatke iz pet kliničkih ispitivanja antipsihotika, u kojima je sudjelovalo 1513 sudionika diljem Sjeverne Amerike, Azije, Europe i Afrike, kojima je dijagnosticirana shizofrenija. Pokusi, koji su provedeni između 2004. i 2009., mjerili su simptome sudionika prije i četiri tjedna nakon uzimanja jednog od tri antipsihotika (ili su uspoređivali učinke različitih doza istog lijeka).
Tim je uvježbao algoritam za predviđanje poboljšanja simptoma tijekom četiri tjedna liječenja antipsihoticima. Prvo su istraživači testirali točnost algoritma u ispitivanjima u kojima je razvijen - uspoređujući njegova predviđanja sa stvarnim rezultatima zabilježenim u ispitivanjima - i otkrili su da je točnost bila visoka.
Zatim su upotrijebili nekoliko pristupa kako bi procijenili koliko dobro model generalizira nove podatke. Istraživači su ga uvježbali na podskupu podataka iz jednog kliničkog ispitivanja, a zatim su ga primijenili na drugi podskup iz istog ispitivanja. Također su uvježbali algoritam na svim podacima iz jednog pokusa - ili grupe pokusa - i zatim izmjerili njegovu izvedbu na zasebnom pokusu.
Model je imao loše rezultate u ovim testovima, generirajući naizgled gotovo nasumična predviđanja kada se primijeni na skup podataka na kojemu nije bio uvježban. Tim je ponovio eksperiment koristeći drugačiji algoritam predviđanja, ali su dobili slične rezultate.
Autori studije kažu da njihovi nalazi naglašavaju kako kliničke modele predviđanja treba rigorozno testirati na velikim skupovima podataka kako bi se osigurala njihova pouzdanost. Sustavnim pregledom 308 modela kliničkog predviđanja za psihijatrijske ishode utvrđeno je da je samo oko 20% modela prošlo validaciju na uzorcima koji nisu oni na kojima su razvijeni.