Tutkimus: Tekoälypohjaiset chatbotit tekevät virheellisiä diagnooseja yli 80 prosentissa varhaisvaiheen lääketieteellisistä tapauksista

Uuden tutkimuksen mukaan kuluttajille suunnatut tekoälypohjaiset chatbotit eivät toimi luotettavasti lääketieteellisten diagnoosien tekemisessä, etenkin kun tiedot ovat puutteellisia. Tutkimus korostaa riskejä, joita liittyy niiden käyttämiseen digitaalisten lääkäreiden korvikkeina.

Tutkimuksen mukaan johtavat suuret kielimallit eivät pysty tarjoamaan laajaa valikoimaa mahdollisia diagnooseja, kun potilastiedot ovat rajallisia, vaan ne rajoittuvat usein liian nopeasti yhteen ainoaan vastaukseen.

Tulokset viittaavat tekoälyn laajempaan rajoitukseen: vaikka chatbotit pystyvät tunnistamaan todennäköisiä sairauksia, kun tapaus on määritelty tarkasti, ne eivät ole yhtä luotettavia kliinisen päättelyn varhaisemmissa, epävarmemmissa vaiheissa.

Tutkimustulokset korostavat vaaroja, joita liittyy pelkästään teknologiaan luottamiseen terveysongelmien tunnistamisessa, etenkin tilanteissa, joissa käyttäjien syöttämät tiedot voivat olla epätarkkoja tai puutteellisia.

”Nämä mallit ovat erinomaisia lopullisen diagnoosin määrittämisessä, kun tiedot ovat täydelliset, mutta ne kohtaavat vaikeuksia tapauksen alkuvaiheessa, kun tietoa on vielä vähän”, sanoi Arya Rao, tutkimuksen pääkirjoittaja ja tutkija massachusettsilaisessa Mass General Brigham -terveydenhuoltojärjestelmässä.

Maanantaina Jama Network Open -lehdessä julkaistussa tutkimuksessa testattiin tekoälymalleja käyttäen 29 kliinistä tapauskuvausta, jotka perustuivat vakiintuneeseen lääketieteelliseen viitekirjaan.

Kokeessa tiedot paljastettiin vaiheittain, mukaan lukien nykyisen sairauden historia, fyysisen tutkimuksen havainnot ja laboratoriotulokset. Tutkijat esittivät suurille kielimalleille diagnoosikysymyksiä ja mittasivat niiden virheprosentteja, jotka määriteltiin niiden kysymysten osuudeksi, joihin ei vastattu täysin oikein.

Tutkijat arvioivat 21 suurta kielimallia (LLM), mukaan lukien OpenAI:n, Anthropicin, Googlen, xAI:n ja DeepSeekin johtavat mallit.

Tutkimuksessa havaittiin, että virheprosentti ylitti 80 prosenttia kaikissa malleissa tilanteissa, joissa niiden piti suorittaa niin sanottu differentiaalidiagnoosi – eli silloin, kun potilaan tiedot eivät olleet täydelliset.

Virheprosentti laski alle 40 prosenttiin lopullisissa diagnooseissa, joista oli saatavilla kattavampia tietoja, ja parhaimmillaan tarkkuus ylitti 90 prosenttia.

Anthropicin mukaan Claude on koulutettu ohjaamaan lääketieteellisiä kysymyksiä esittävät henkilöt asiantuntijoiden puoleen. Googlen mukaan Gemini on suunniteltu toimimaan samalla tavalla, ja sen sovellukseen on sisällytetty muistutuksia, jotka kehottavat käyttäjiä tarkistamaan tiedot uudelleen.

OpenAI:n käyttöehdoissa todetaan, että sen palveluja ei saa käyttää lääketieteellisen neuvonnan antamiseen ilman asianmukaista ammattilaisen osallistumista, jos neuvonta edellyttää toimilupaa.
xAI ei vastannut kommenttipyyntöön. DeepSeekiltä ei saatu kommenttia.

Yritykset ovat kehittäneet entistä erikoistuneempia lääketieteellisiä suurkielimalleja, kuten Googlen Articulate Medical Intelligence Explorer (AMIE) ja MedFound.

Lontoon hygienia- ja trooppisen lääketieteen korkeakoulun kliininen epidemiologi Sanjay Kinra totesi, että esimerkiksi AMIE-mallin arviointien alustavat tulokset olivat lupaavia. Hän lisäsi kuitenkin, että mallien tulokset eivät todennäköisesti pystyisi vastaamaan sitä, miten lääkäreiden kliiniset arviot ”perustuvat vahvasti potilaan ulkonäköön ja yleiskuntoon”.

”Niillä voi kuitenkin olla merkitystä, etenkin tilanteissa tai alueilla, joilla lääkärin palvelujen saatavuus on rajallista”, Kinra sanoi. ”Siksi tarvitsemme kiireellisesti tutkimuksia, joihin osallistuu todellisia potilaita juuri näistä ympäristöistä.”