Czy sztuczna inteligencja (AI) może zrewolucjonizować opiekę zdrowotną? To pytanie zadali sobie naukowcy z Uniwersytetu Stanforda, Beth Israel Deaconess Medical Center oraz Uniwersytetu Wirginii, przeprowadzając badania nad efektywnością diagnozowania przypadków medycznych przy wsparciu AI. Wyniki eksperymentu okazały się zaskakujące.

Eksperyment: lekarze kontra sztuczna inteligencja

W badaniu udział wzięli lekarze medycyny ogólnej, w tym specjaliści medycyny internistycznej, rodzinnej oraz ratunkowej. Naukowcy podzielili ich na dwie grupy. Pierwsza korzystała z klasycznych metod diagnostycznych, mogąc używać wszelkich dostępnych źródeł informacji – z wyjątkiem systemów AI, takich jak ChatGPT. Druga grupa miała możliwość wsparcia diagnozy za pomocą modelu GPT-4, choć nie była zobowiązana do jego używania.

Celem było ocenienie trafności diagnoz postawionych przez obie grupy oraz ich szybkości w rozwiązywaniu medycznych zagadek – każdy lekarz miał zdiagnozować sześć przypadków w ciągu godziny. Wyniki były oceniane według 3-punktowej skali:

  • 0 punktów za błędną diagnozę,
  • 1 punkt za diagnozę częściowo poprawną lub niewystarczająco szczegółową,
  • 2 punkty za odpowiedź dokładną.

Dla porównania, naukowcy ocenili również skuteczność diagnoz postawionych wyłącznie przez model GPT-4.

Mediana trafności diagnoz w przypadku lekarzy korzystających z tradycyjnych metod wyniosła 74% (IQR wynosił 63-84%), podczas gdy grupa wspierająca się AI osiągnęła jedynie nieznacznie lepszy wynik – 76%  (IQR wówczas 66-87%). Różnica ta była na tyle niewielka, że trudno mówić o przełomie. Podobnie sytuacja wyglądała z czasem diagnozowania. Lekarze stosujący metody klasyczne potrzebowali średnio 565 sekund na diagnozę jednego przypadku. Z kolei ci, którzy mogli wspierać się ChatGPT, skrócili ten czas do 519 sekund – różnica wynosiła zaledwie kilkadziesiąt sekund.

Zaskoczeniem był natomiast wynik uzyskany przez sam model GPT-4. Sztuczna inteligencja, działając bez wsparcia lekarzy, postawiła trafną diagnozę w 92% przypadków. To znacznie więcej niż osiągnęły obie grupy lekarzy – niezależnie od tego, czy korzystali z AI, czy nie.

Dlaczego lekarze nie wykorzystali pełnego potencjału AI?

Naukowcy zauważyli, że lekarze biorący udział w badaniu nie zawsze ufali rekomendacjom AI. Nawet gdy model GPT-4 sugerował inną diagnozę niż początkowe przypuszczenia lekarza, specjaliści rzadko zmieniali swoje stanowisko. Może to świadczyć o braku zaufania do sztucznej inteligencji lub niewystarczającym przeszkoleniu w korzystaniu z takich narzędzi. Eksperci podkreślają, że lepsze wyniki mogłyby zostać osiągnięte, gdyby lekarze mieli więcej doświadczenia w pracy z AI i zrozumieli, w jaki sposób można skutecznie włączyć takie narzędzia do procesu diagnostycznego.

Choć wyniki badania pokazują, że sztuczna inteligencja może osiągać bardzo wysoką trafność diagnoz, wydaje się mało prawdopodobne, aby w najbliższym czasie zastąpiła lekarzy. Zdecydowanie bardziej realnym scenariuszem jest rola AI jako narzędzia wspierającego proces diagnostyczny, pomagającego specjalistom w podejmowaniu decyzji oraz zwiększającego dokładność i szybkość diagnozowania.

Nie można jednak ignorować potencjalnych wyzwań – zarówno technicznych, jak i etycznych. AI będzie musiała zdobyć zaufanie środowiska medycznego oraz pacjentów, co wymaga czasu i dalszych badań.

Baner zgody na pliki cookie od Real Cookie Banner