ChatGPT Health subestimează gravitatea problemelor medicale în peste jumătate din cazuri

Un studiu publicat în „Nature Medicine” ne arată că ChatGPT Health, versiunea specială pentru sănătate a ChatGPT dezvoltat de OpenAI, subestimează adesea cât de grave sunt problemele medicale. Cercetătorii au descoperit că în mai mult de jumătate din cazuri, chatbot-ul nu a recomandat mersul la spital atunci când era necesar. Studiul a testat cum se descurcă ChatGPT Health în trierea cazurilor pe baza gravității, folosind scenarii inspirate din situații reale.

Soluțiile oferite de AI au fost comparate cu recomandările medicilor, bazate pe reguli și experiență clinică, pentru 60 de scenarii, fiecare cu 16 variante. Rezultatele arată că ChatGPT Health a subestimat gravitatea problemelor în 51,6% din cazuri, sugerând vizita la doctor în 48 de ore în loc de mersul imediat la urgență.

Pe de altă parte, chatbot-ul a făcut triajul corect în 100% din situațiile cu urgențe evidente, cum ar fi accidentele vasculare cerebrale. Totuși, AI-ul a avut și tendința de a exagera gravitatea problemelor în 64,8% din cazuri, recomandând vizite medicale când nu era nevoie. Cercetătorii au spus că nu înțeleg inconsecvența răspunsurilor și recomandările diferite pentru cazuri similare, observând aceeași problemă și în scenarii legate de idei suicidare sau autovătămare.

Studiul a concluzionat că ChatGPT Health ratează frecvent situațiile care necesită urgență medicală și poate să nu identifice corect ideile suicidare, iar experții avertizează că aceste erori ar putea provoca răni inutile sau chiar decese.

OpenAI a lansat funcția „Health” în luna ianuarie pentru un număr limitat de utilizatori, promovând-o ca un mod sigur de a conecta dosarele medicale și aplicațiile de wellness pentru a primi sfaturi de sănătate. Se estimează că peste 40 de milioane de oameni cer zilnic sfaturi medicale de la ChatGPT. Prima evaluare independentă a siguranței ChatGPT Health, publicată în luna februarie, a arătat că platforma a subestimat gravitatea mai multor cazuri. Dr. Ashwin Ramaswamy, autorul principal al studiului, a spus că cercetătorii și-au propus să afle dacă, în cazul unei urgențe reale, ChatGPT Health ar recomanda mersul la camera de gardă.

Echipa de cercetători a creat 60 de scenarii realiste cu pacienți, de la afecțiuni ușoare până la urgențe, și trei medici independenți au stabilit nivelul de îngrijire necesar conform ghidurilor clinice. Apoi au cerut sfaturi de la ChatGPT Health în diferite condiții, schimbând genul pacientului, adăugând rezultate de laborator sau comentarii ale familiei, generând aproape 1.000 de răspunsuri. Recomandările AI-ului au fost comparate cu evaluările medicilor.

Deși sistemul s-a descurcat bine în urgențe clare, cum ar fi accidentele vasculare cerebrale sau reacțiile alergice severe, a avut dificultăți în alte situații. Spre exemplu, într-un caz cu astm, chatbot-ul a recomandat pacientului să aștepte acasă, deși identificase semne timpurii de insuficiență respiratorie, ceea ce ar fi necesitat urgent îngrijire medicală.

Recomandările ChatGPT Health pot pune viața pacienților în pericol

Cercetătorii au descoperit că în peste jumătate din cazurile în care pacienții ar fi trebuit să meargă imediat la spital, platforma le-a spus să rămână acasă sau să își facă o programare obișnuită. Alex Ruani, cercetător doctoral la University College London specializat în combaterea dezinformării în sănătate, a spus că acest rezultat este extrem de periculos.

Ea a explicat că, în situații precum insuficiența respiratorie sau cetoacidoza diabetică, există aproape 50% șanse ca AI-ul să spună că problema nu este gravă. Ruani a subliniat că cea mai mare problemă este falsa senzație de siguranță pe care o creează aceste sisteme. Dacă cineva este sfătuit să aștepte 48 de ore în timpul unui atac de astm sau al unei crize diabetice, această amânare ar putea fi fatală.

Ea a menționat că într-una dintre simulări, platforma a sfătuit în 84% dintre cazuri o femeie care se sufoca să facă o programare medicală ulterioară, pe care nu ar fi mai avut timp să o onoreze. În același timp, aproape două treimi dintre persoanele complet sănătoase au fost sfătuite să solicite imediat îngrijiri medicale.

Ruani a remarcat că platforma tinde să minimizeze simptomele atunci când „pacientul” menționează că un „prieten” din scenariu crede că nu este nimic grav. Din acest motiv, ea a explicat că experții care studiază astfel de sisteme pun accent pe dezvoltarea rapidă a unor standarde clare de siguranță și pe crearea unor mecanisme independente de control pentru a reduce riscurile care pot fi prevenite.

„Dacă suferi de insuficiență respiratorie sau cetoacidoză diabetică, ai o șansă de 50% ca acest AI să îți spună că nu este ceva grav. Cel mai mult mă îngrijorează falsa senzație de siguranță pe care o creează aceste sisteme. Dacă cineva este sfătuit să aștepte 48 de ore în timpul unui atac de astm sau al unei crize diabetice, această liniștire i-ar putea costa viața.

De aceea mulți dintre noi, cei care studiem aceste sisteme, ne concentrăm pe dezvoltarea urgentă a unor standarde clare de siguranță și a unor mecanisme independente de audit pentru a reduce riscurile prevenibile”, a punctat Ruani.

Reacția OpenAI la acuzațiile medicilor

Un purtător de cuvânt al OpenAI a spus că, deși compania apreciază cercetările independente care evaluează sistemele AI pentru sănătate, studiul nu reflectă felul în care oamenii folosesc de obicei ChatGPT Health în viața reală. El a mai spus că modelul este actualizat și îmbunătățit în mod constant. În schimb, Ruani a subliniat că, chiar dacă s-au folosit scenarii simulate, riscul realist de vătămare este suficient pentru a justifica luarea unor măsuri de protecție mai stricte și supravegherea independentă a platformei.

Cercetători semnalează că ChatGPT Health reacționează insuficient la ideile suicidale și creează riscuri legale

Ramaswamy, instructor de urologie la Icahn School of Medicine at Mount Sinai din SUA, a spus că a fost foarte îngrijorat de felul în care platforma reacționa insuficient la ideile suicidare. El a explicat că au testat ChatGPT Health cu un pacient de 27 de ani care spunea că se gândește să ia multe pastile. Când pacientul descria simptomele fără alte detalii, apărea întotdeauna un banner cu link către servicii de ajutor pentru prevenirea suicidului.

Ramaswamy a spus însă că, după ce au adăugat rezultate normale de laborator, bannerul a dispărut complet, chiar dacă pacientul folosea aceleași cuvinte și avea aceeași gravitate a situației. El a explicat că un mecanism de siguranță care depinde de menționarea analizelor nu este pregătit pentru utilizare și poate fi chiar mai periculos decât absența lui, pentru că nimeni nu poate anticipa când va eșua.

„Am testat ChatGPT Health cu un pacient de 27 de ani care a spus că se gândește să ia multe pastile. Apoi am adăugat rezultate normale de laborator. Același pacient, aceleași cuvinte, aceeași gravitate. Bannerul a dispărut. Zero din 16 încercări.

Un mecanism de siguranță care depinde de faptul că ai menționat sau nu analizele nu este pregătit pentru utilizare și este, probabil, mai periculos decât absența lui, pentru că nimeni nu poate prezice când va eșua”, a precizat Ramaswamy.

Profesorul Paul Henman, sociolog digital și expert în politici publice la University of Queensland, a spus că studiul este extrem de important. El a explicat că, dacă oamenii ar folosi ChatGPT Health acasă, acest lucru ar putea duce atât la vizite medicale inutile pentru probleme minore, cât și la situații în care pacienții nu cer ajutor de urgență când este nevoie, ceea ce ar putea provoca vătămări sau decese care ar fi putut fi evitate.

Henman a mai spus că situația ridică și problema responsabilității legale, având în vedere procesele deja existente împotriva unor companii tehnologice în cazuri legate de suicid și automutilare după utilizarea chatboturilor AI. El a menționat că nu este clar ce vrea OpenAI să obțină cu acest produs, cum a fost antrenat, ce mecanisme de protecție are și ce avertismente oferă utilizatorilor, iar pentru că nu se știe exact cum funcționează ChatGPT Health și în ce context, nu se poate ști cu adevărat ce este integrat în modelul său.

„Dacă ChatGPT Health ar fi folosit de oameni acasă, ar putea duce la mai multe prezentări medicale inutile pentru probleme minore și la situații în care pacienții nu solicită îngrijiri urgente atunci când este necesar, ceea ce ar putea duce în mod realist la vătămări sau decese evitabile.

Nu este clar ce încearcă OpenAI să obțină prin acest produs, cum a fost antrenat, ce mecanisme de protecție are și ce avertismente oferă utilizatorilor. Pentru că nu știm cum a fost antrenat ChatGPT Health și în ce context funcționează, nu știm cu adevărat ce este integrat în modelele sale”, a afirmat Henman.