Kan ChatGPT diagnosticere dig? Ny forskning tyder på lovende resultater, men afslører også videnshuller og problemer med hallucination. I takt med at mennesker frygter for deres helbred, henvender de sig i stigende grad til generativ kunstig intelligens som ChatGPT for at få en diagnose. Men hvor præcise er de svar, som AI giver? Forskning offentliggjort i tidsskriftet iScience tester ChatGPT og dens store sprogmodeller med nogle overraskende resultater. Ahmed Abdeen Hamed, forskningsstipendiat ved Thomas J. Watson College of Engineering and Applied Science ved Binghamton University, ledede undersøgelsen i samarbejde med AGH University i Krakow, Polen, Howard University og University of Vermont. Som en del af Luis M. Rochas laboratorium for komplekse adaptive systemer og computacional intelligens udviklede Hamed sidste år en maskinlæringsalgoritme, han kalder xFakeSci, der kan opdage op til 94% af falske videnskabelige artikler, næsten dobbelt så effektivt som mere almindelige datamineringsteknikker. Han ser denne nye forskning som næste skridt i at verificere de biomedicinske generative evner hos store sprogmodeller. “Folk taler med ChatGPT hele tiden nu om dage, og de siger, ‘Jeg har disse symptomer. Har jeg kræft? Har jeg hjertestop? Skal jeg have behandling?'” sagde Hamed. “Det kan være en meget farlig affære, så vi ville se, hvad der ville ske, hvis vi stillede disse spørgsmål, hvilke slags svar vi fik, og hvordan disse svar kunne verificeres fra den biomedicinske litteratur.” Forskerne testede ChatGPT for sygdomsterminer og tre typer af associationer: lægemiddelnavne, genetik og symptomer. AI’en viste høj nøjagtighed i at identificere sygdomsterminer (88-97%), lægemiddelnavne (90-91%) og genetisk information (88-98%). Hamed indrømmede, at han troede, det ville være “højst 25% nøjagtighed.” “Det spændende resultat var, at ChatGPT sagde, at kræft er en sygdom, hypertension er en sygdom, feber er et symptom, Remdesivir er et lægemiddel og BRCA er et gen relateret til brystkræft,” sagde han. “Utroligt, helt utroligt!” Identificering af symptomer scorede dog lavere (49-61%), og årsagen kan være, hvordan de store sprogmodeller trænes. Læger og forskere bruger biomedicinske ontologier til at definere og organisere termer og relationer for ensartet datapræsentation og vidensdeling, men brugerne indtaster mere uformelle beskrivelser. “ChatGPT bruger mere et venligt og socialt sprog, fordi det skal kommunikere med almindelige mennesker. I den medicinske litteratur bruger folk de korrekte navne,” sagde Hamed. “LLM forsøger åbenbart at forenkle definitionen af disse symptomer, fordi der er meget trafik, der stiller sådanne spørgsmål, så det begyndte at minimere formaliteterne i det medicinske sprog for at appelere til disse brugere.” Et forvirrende resultat stod klart. National Institutes of Health opretholder en database kaldet GenBank, som giver et adgangsnummer til hver identificeret DNA-sekvens. Det er normalt en kombination af bogstaver og tal. For eksempel er betegnelsen for brystkræftgenet (BRCA1) NM_007294.4. Da de blev bedt om disse numre som en del af testen af genetisk information, fandt ChatGPT dem bare på, en fænomen kendt som “hallucination.” Hamed ser dette som en stor fiasko blandt så mange andre positive resultater. “Måske er der en mulighed her for, at vi kan begynde at introducere disse biomedicinske ontologier til LLM’erne for at give en meget højere nøjagtighed, få bugt med alle hallucinationerne og gøre disse værktøjer til noget fantastisk,” sagde han. Hameds interesse for LLM’er begyndte i 2023, da han opdagede ChatGPT og hørte om problemerne med faktatjekning. Hans mål er at afsløre manglerne, så datalogerne kan justere modellerne efter behov og gøre dem bedre. “Hvis jeg analyserer viden, vil jeg sikre mig, at jeg fjerner alt, der kan virke mistænkeligt, før jeg bygger mine teorier og laver noget, der ikke er nøjagtigt,” sagde han.