Laut einer neuen Studie übertrafen Modelle der künstlichen Intelligenz Ärzte bei medizinischen Entscheidungen in der Notfallversorgung.

Forscher der Harvard Medical School und des Beth Israel Deaconess Medical Center in den USA verglichen künstliche Intelligenz und Ärzte bei einem breiten Spektrum klinischer Argumentationsaufgaben.

Sie fanden heraus, dass große Sprachmodelle (LLMs) Ärzten bei mehreren Aufgaben überlegen waren, einschließlich der Entscheidungsfindung in der Notaufnahme auf der Grundlage der verfügbaren Informationen, der Identifizierung wahrscheinlicher Diagnosen und der Auswahl der nächsten Schritte im Management.

„Wir haben das KI-Modell anhand nahezu aller Benchmarks getestet und es hat sowohl frühere Modelle als auch unsere Basiswerte für Ärzte in den Schatten gestellt“, sagte Arjun Manrai, Co-Senior-Autor und Professor an der Harvard Medical School.

„Das bedeutet jedoch nicht, dass KI unbedingt die Pflege verbessern wird – wie und wo sie eingesetzt werden sollte, ist noch nicht ausreichend erforscht, und wir brauchen dringend strenge prospektive Studien, um die Auswirkungen von KI auf die klinische Praxis zu bewerten.“

Wie wurde das KI-Modell getestet?

Die Forscher evaluierten zunächst o1-preview, das 2024 veröffentlichte Argumentationsmodell von OpenAI, für das sie eine Reihe klinischer Fälle verwendeten, darunter veröffentlichte Fallkonferenzen und Aufzeichnungen der Notaufnahme aus der Praxis.

In den meisten Experimenten übertraf die KI menschliche Ärzte, insbesondere in den Bereichen Management-Argumentation, klinisches Denken, Dokumentation und reale Notfallsituationen mit begrenzten Informationen.

„Modelle werden immer leistungsfähiger. Früher haben wir Modelle mit Multiple-Choice-Tests bewertet; jetzt erreichen sie durchweg Ergebnisse von nahezu 100 %, und wir können den Fortschritt nicht mehr verfolgen, weil wir bereits an der Grenze angelangt sind“, sagte Co-Erstautor Peter Brodeur, HMS Clinical Fellow für Medizin bei Beth Israel Deaconess.

In einem Test baten die Forscher das LLM –o1 und das GPT-4o–, Patienten zu verschiedenen Zeitpunkten in einer Standardsituation in der Notaufnahme zu bewerten, von der frühen Triage bis hin zu späteren Aufnahmeentscheidungen.

In jeder Phase erhielt das Modell nur die zu diesem Zeitpunkt verfügbaren Informationen und wurde gebeten, wahrscheinliche Diagnosen zu erstellen und zu empfehlen, was als nächstes passieren sollte.

Die größte Lücke zwischen KI und menschlichen Ärzten bestand in der Triage-Phase, in der die Informationen des Patienten eingeschränkter sind.

Wie bei menschlichen Ärzten verbesserten KI-Modelle ihre diagnostischen Fähigkeiten, je mehr Informationen verfügbar wurden.

„Obwohl der Einsatz von KI zur Unterstützung der klinischen Entscheidungsunterstützung manchmal als risikoreiches Unterfangen angesehen wird, könnte ein stärkerer Einsatz dieser Tools dazu beitragen, die menschlichen und finanziellen Kosten von Diagnosefehlern, Verzögerungen und mangelndem Zugang zu mindern“, schreiben die Autoren.

Weitere Forschung ist noch erforderlich

Die Forscher forderten prospektive Studien zur Evaluierung dieser Technologien in realen Umgebungen und forderten Gesundheitssysteme auf, in die Computerinfrastruktur zu investieren und Frameworks zu entwickeln, die die sichere Integration von KI-Tools in klinische Arbeitsabläufe unterstützen können.

„Ein Modell könnte die Top-Diagnose richtig stellen, aber auch unnötige Tests vorschlagen, die einen Patienten gefährden könnten“, sagte Brodeur. „Der Mensch sollte die entscheidende Grundlage sein, wenn es um die Bewertung von Leistung und Sicherheit geht.“

Die Studie weist einige Einschränkungen auf. Die Autoren stellten fest, dass die Studie nur die Modellleistung widerspiegelt und sich hauptsächlich auf die Vorschauversion des o1-Modells konzentriert, das inzwischen durch neuere Modelle wie das o3-Modell von OpenAI ersetzt wurde.

„Obwohl wir erwarten, dass die Leistung mit neueren Modellen aufrechterhalten oder verbessert wird, sollten weitere Studien durchgeführt werden, um zu klären, wie die Leistung zwischen den Modellen variiert, und um zu untersuchen, wie Menschen und LLMs zusammenarbeiten können“, schreiben die Autoren.

Share.
Leave A Reply

Exit mobile version