Czy sztuczna inteligencja (AI) może zrewolucjonizować opiekę zdrowotną? To pytanie zadali sobie naukowcy z Uniwersytetu Stanforda, Beth Israel Deaconess Medical Center oraz Uniwersytetu Wirginii, przeprowadzając badania nad efektywnością diagnozowania przypadków medycznych przy wsparciu AI. Wyniki eksperymentu okazały się zaskakujące.
Eksperyment: lekarze kontra sztuczna inteligencja
W badaniu udział wzięli lekarze medycyny ogólnej, w tym specjaliści medycyny internistycznej, rodzinnej oraz ratunkowej. Naukowcy podzielili ich na dwie grupy. Pierwsza korzystała z klasycznych metod diagnostycznych, mogąc używać wszelkich dostępnych źródeł informacji – z wyjątkiem systemów AI, takich jak ChatGPT. Druga grupa miała możliwość wsparcia diagnozy za pomocą modelu GPT-4, choć nie była zobowiązana do jego używania.
Celem było ocenienie trafności diagnoz postawionych przez obie grupy oraz ich szybkości w rozwiązywaniu medycznych zagadek – każdy lekarz miał zdiagnozować sześć przypadków w ciągu godziny. Wyniki były oceniane według 3-punktowej skali:
- 0 punktów za błędną diagnozę,
- 1 punkt za diagnozę częściowo poprawną lub niewystarczająco szczegółową,
- 2 punkty za odpowiedź dokładną.
Dla porównania, naukowcy ocenili również skuteczność diagnoz postawionych wyłącznie przez model GPT-4.
Mediana trafności diagnoz w przypadku lekarzy korzystających z tradycyjnych metod wyniosła 74% (IQR wynosił 63-84%), podczas gdy grupa wspierająca się AI osiągnęła jedynie nieznacznie lepszy wynik – 76% (IQR wówczas 66-87%). Różnica ta była na tyle niewielka, że trudno mówić o przełomie. Podobnie sytuacja wyglądała z czasem diagnozowania. Lekarze stosujący metody klasyczne potrzebowali średnio 565 sekund na diagnozę jednego przypadku. Z kolei ci, którzy mogli wspierać się ChatGPT, skrócili ten czas do 519 sekund – różnica wynosiła zaledwie kilkadziesiąt sekund.
Zaskoczeniem był natomiast wynik uzyskany przez sam model GPT-4. Sztuczna inteligencja, działając bez wsparcia lekarzy, postawiła trafną diagnozę w 92% przypadków. To znacznie więcej niż osiągnęły obie grupy lekarzy – niezależnie od tego, czy korzystali z AI, czy nie.
Dlaczego lekarze nie wykorzystali pełnego potencjału AI?
Naukowcy zauważyli, że lekarze biorący udział w badaniu nie zawsze ufali rekomendacjom AI. Nawet gdy model GPT-4 sugerował inną diagnozę niż początkowe przypuszczenia lekarza, specjaliści rzadko zmieniali swoje stanowisko. Może to świadczyć o braku zaufania do sztucznej inteligencji lub niewystarczającym przeszkoleniu w korzystaniu z takich narzędzi. Eksperci podkreślają, że lepsze wyniki mogłyby zostać osiągnięte, gdyby lekarze mieli więcej doświadczenia w pracy z AI i zrozumieli, w jaki sposób można skutecznie włączyć takie narzędzia do procesu diagnostycznego.
Choć wyniki badania pokazują, że sztuczna inteligencja może osiągać bardzo wysoką trafność diagnoz, wydaje się mało prawdopodobne, aby w najbliższym czasie zastąpiła lekarzy. Zdecydowanie bardziej realnym scenariuszem jest rola AI jako narzędzia wspierającego proces diagnostyczny, pomagającego specjalistom w podejmowaniu decyzji oraz zwiększającego dokładność i szybkość diagnozowania.
Nie można jednak ignorować potencjalnych wyzwań – zarówno technicznych, jak i etycznych. AI będzie musiała zdobyć zaufanie środowiska medycznego oraz pacjentów, co wymaga czasu i dalszych badań.