Schafft ChatGPT das Arzt-Examen?

Schafft ChatGPT das Arzt-Examen?Wir haben die KI mit Multiple-Choice-Fragen des IMPP gefüttert. Lest hier, wie sie abgeschnitten hat und was der Medizinische Fakultätentag davon so hält.Kürzlich ging die Nachricht um die (medizinische Fach-)Welt, dass die künstliche Intelligenz (KI) ChatGPT das US-amerikanische Medizinerexamen, den USMLE, bestanden habe. Am Anfang war die Bestehensquote noch eher auf Faulenzerniveau. Mittlerweile aber ist die neue und nachtrainierte Version des KI-Bots von Open AI zum Streber geworden und besteht das Examen ziemlich zuverlässig. Auch in einigen anderen Sprachen hat die KI schon bei Ankreuz-Examina reüssiert.Wie sieht es in Deutschland aus, wo das Institut für medizinische und pharmazeutische Prüfungsfragen (IMPP) die Hosen in Sachen Multiple-Choice-Fragen für den ersten (M1) und den zweiten Abschnitt (M2, „Hammerexamen“) anhat? Mit je 320 Fragen zum „Durchkreuzen“ sind die Studenten in den beiden Examina konfrontiert. Würde ChatGPT bestehen?Unsere Challenge: Kann ChatGPT auch IMPP?Uns ist nicht bekannt, ob schon mal jemand einen kompletten Examenssatz an IMPP-Fragen auf ChatGPT losgelassen hat – insofern ist die Frage, ob die KI das M1 oder sogar das M2, zumindest dessen Multiple Choice Teil, bestehen würde, noch offen. Zur Orientierung haben wir bei DocCheck aber eine (kleine) Challenge initiiert.

Teil eins: Die Vorhölle. Wir fütterten ChatGPT in seiner derzeit öffentlich zugänglichen Version, also noch nicht Version 4, mit fünf zufällig ausgewählten Fragen aus dem Themengebiet Medizinische Physik. Kurz, knapp, reich an Zahlen – sollte so eine KI problemlos hinkriegen, oder? Tat sie. Fünf richtige, aber alles andere hätte uns dann auch gewundert.

Teil zwei: Das Hammerexamen. Hier geben sich die Schöpfer der Ankreuzfragen seit einiger Zeit insofern Mühe, als die Komplexität der Fragen erhöht wurde. Die Fragen wurden über die Jahre auch klinischer. Ein Aufgabentyp sind Kasuistiken, zu denen jeweils mehrere Ankreuzfragen gestellt werden. Das IMPP hat auf seiner Webseite drei Beispiele für solche Fallstudien. Wir haben Kasuistik 2 genommen, den sechs Monate alten Lukas, und haben sie eins zu eins bei ChatGPT einkopiert mit der Bitte, im Nachgang dazu die Ankreuzfragen des IMPP zu beantworten.

Licht und Schatten beim Arbeiten mit KasuistikenDas ging so mittelprächtig. Von plusminus zehn Fragen wurde immerhin rund die Hälfte korrekt beantwortet. Bei der Frage, welche Differenzialdiagnose auf Basis der beschriebenen Symptome am wenigsten in Frage komme, kam die korrekte Antwort. Wissensfrage nach den Reizzeichen: ebenfalls Korrekt. Ort der Liquorpunktion: Korrekt. Und auch die Frage, welche Arzneitherapie im vorliegenden Fall am besten geeignet ist – zur Auswahl standen fünf Antibiotika mit Dosisangaben – wurde richtig beantwortet. Die KI „versteht“ also in gewissem Umfang den Fallbericht und sie verknüpft ihn mit anderen Datenquellen, sonst hätte sie die Antibiotikafrage nicht richtig beantworten können.An anderen Stellen kam sie dagegen ins Schleudern: Die Interpretation des Säure-Basen-Status bei Lukas klappte nicht. (Aber welcher Arzt kann das schon?) Überraschender war, dass ChatGPT steif und fest behauptete, dass es bei einer Kardiomyopathie keine Tachypnoe gebe – was Quatsch ist. Noch interessanter war die Antwort auf die Frage, wofür der Liquorbefund von Lukas charakteristisch sei. Diese Information sei nicht angegeben, so ChatGPT. Das stimmt nur zur Hälfte. Die Liquoranalyse war sehr wohl angegeben und wurde von der KI schlicht ignoriert. Was fehlte, war der Liquorausstrich, der dem Fall als (für ChatGPT nicht zugängliches) Bild beigelegt war.Wer ist eigentlich zuständig?Summa summarum: Auch wenn das keine erschöpfende Examens-Challenge war, die Chancen, dass ChatGPT das M1 schaffen würde, sind so schlecht nicht. Beim M2 dürfte es – wahrscheinlich primär sprachbedingt – noch etwas Schwierigkeiten geben. Aber vielleicht sieht das bei Version 4 auch schon anders aus. Für uns war die Sache jedenfalls Grund genug, mal nachzufragen bei denen, die für die Multiple Choice Examina zuständig sind: Was denkt Ihr über die KI-Tools? Haben sie irgendeine Relevanz für das, was wir in den Examina seit – man muss ja sagen Jahrzehnten – so machen? Oder nicht?Es war tatsächlich gar nicht so einfach, jemanden zu finden, der überhaupt etwas sagen wollte. Wir schrieben eine Presse-E-Mail ans IMPP, ob wir mal mit dessen neuem Chef über KI reden könnten. Prompte Antwort, so gesehen vorbildlich: „Bei Fragen zur Zukunft der medizinischen Staatsexamina müssen wir an das Bundesministerium für Gesundheit verweisen, in dessen Zuständigkeit die ärztliche Approbationsordnung fällt.“ Faktisch korrekt, aber dass wir in Berlin Aussagen zur Multiple-Choice-Zukunft in KI-Zeiten erhalten, erschien uns unwahrscheinlich. Wir klopften daher bei der Bundesärztekammer an. „Approbationsordnung“ ist ja irgendwie auch ein ärztliches Thema. Erfolglos: „Wir möchten Ihnen empfehlen, sich an das IMPP zu wenden.“ Nach diesem Zirkelschluss kam uns der rettende Gedanke: Auf zum Team Wissenschaft! ChatGPT und USMLE: „Schreckt auf, aber überrascht nicht“Die Anfrage beim Medizinischen Fakultätentag (MFT) endete dann sehr erfreulich. Dr. Frank Wissing, Generalsekretär und Vorstandsmitglied des MFT, stand für ein Gespräch zur Verfügung: „Ich bin vielleicht nicht zuständig, aber ich traue mich, mich inhaltlich zu äußern.“ Darf er auch, immerhin findet die Medizinerausbildung in Deutschland weit überwiegend an den 39 medizinischen Fakultäten statt – auch wenn die wiederum ihr regulatorisches Hinterland eher in den Kultus- und Wissenschaftsministerien haben, während die Landesprüfungsämter, die einst zusammen das IMPP gegründet haben, regulatorisch bei den Gesundheitsministerien angesiedelt sind.Ob ihn überrascht habe, dass KI-Systeme jetzt medizinische Staatsexamina bestehen, wollten wir von Wissing wissen. Der antwortete ehrlich: „Es schreckt beim ersten Lesen ein bisschen auf, aber ganz überraschend kommt es nicht.“ Traditionelle Ankreuzfragen zielen zu einem (großen) Teil auf (auswendig) gelerntes Wissen ab. Zum anderen hat das Ankreuzen von Multiple-Choice-Fragen eine Dimension, die sich am ehesten mit Mustererkennung beschreiben lässt. Das Phänomen kennt jeder Medizinstudent: Es gibt Fragen, da weiß man unmittelbar die Antwort nicht, aber man erkennt am Ende, was richtig ist. Beides – Fakten reproduzieren und Muster erkennen – sind Dinge, in denen Sprachmodelle gut sind. Wissing betonte aber, dass die Frage danach, ob der USMLE-Triumph von ChatGPT „überraschend“ kam, eigentlich die falsche Frage sei. Denn sie impliziere, dass, wer Ankreuzprüfungen bestehe, schon ein Arzt sei: „Ärztin oder Arzt wird, wer ein komplettes Studium durchläuft, wer zahlreiche mündliche und praktische Prüfungen besteht. So gesehen ist das dann am Ende gar nicht so aufregend.“ Prüfen wir das, was Arzt-Sein wirklich ausmacht?Eine der Grundfragen, die sich durch ChatGPT und Co verstärkt stellt, die aber nicht wirklich neu ist, lautet: Welchen Anteil hat reproduziertes Faktenwissen an einem „guten“ Arzt, einer „guten“ Ärztin? Dass es nicht alles ist, darin sind sich schnell alle einig. Bei der Frage, wie viel Faktenwissen nötig ist, fangen die Diskussionen an. Muss ich die Therapieempfehlungen aktueller Leitlinien auswendig können? Vielleicht nicht, denn die kann ich schnell nachschlagen oder, heutzutage, mir von einer KI in Sekunden zusammenfassen lassen. Aber das ist natürlich das einfache Beispiel, das Beispiel für die Power-Point-Präsentationen von Beratern auf IT-Kongressen. Die Realität ist komplexer: Es hilft schon, wenn ich die Säure-Basen-Regulation des menschlichen Körpers nicht nur prinzipiell verstehe, sondern sie auch so parat habe, dass mir Dinge im klinischen Alltag auffallen, die ungewöhnlich sind. Das geht nicht aus dem Bauch, es braucht Faktenwissen, nicht über aktuelle Leitlinienempfehlungen, aber über physiologische und biochemische Zusammenhänge.Denkt man das weiter, ist die entscheidende Frage am Ende nicht mehr: „Multiple Choice – ja oder nein?“ Sie lautet eher: Wie lässt sich das Examenswesen so weiterentwickeln, dass es „Wissen“ prüft, statt „Fakten“ abzufragen? Mündliche Prüfungen durch Menschen, die selbst sehr viel wissen, sind eine naheliegende Antwort. Aber alle Staatsexamina nur mündlich zu prüfen, ist bei der ohnehin angespannten Personalsituation wahrscheinlich nicht möglich. Sie sind auch nicht deutschlandweit einheitlich und zum gleichen Zeitpunkt durchführbar. Und rein mündliche Prüfungen sind subjektiver, anfälliger für unbewusste Diskriminierung. Wie sieht es mit der Weiterentwicklung der schriftlichen Prüfungen aus? Weg von Multiple-Choice, hin zu textbasierten Aufgaben? Textbasierte Antworten sind problematisch: Sie sind aufwändig auszuwerten und sie bieten viel Raum für Anfechtungen. Aber bei den Fragen gehen die Examina diesen Weg, wie das Eingangsbeispiel mit der Kasuistik zeigt. Wissing wies gegenüber DocCheck darauf hin, dass komplexeren Fragearchitekturen auf Papier Grenzen gesetzt sind. Aber bei Papier müsse es ja nicht bleiben: „Elektronische Formate eröffnen die Möglichkeit für neue Arten der Fragestellungen. Fragen können dann zum Beispiel aufeinander aufbauen und deutlich besser Kompetenzen prüfen. Die Software könnte auch korrigierend eingreifen, wenn eine falsche Antwort genannt wird und so einen Fragestrang weiterführen.“Warten auf die neue Approbationsordnung Der Teufel steckt hier im Detail: „Die Frage der Rechtssicherheit darf nicht unterschätzt werden. Es wird heute schon viel geklagt, und komplexere Fragen erhöhen das Risiko, dass die Fragen angreifbar sind.“ Das ganze Thema hat neben der inhaltlichen auch eine aktuelle, politische Dimension. Schon seit 2017 gibt es einen Masterplan Medizinstudium, der in einer Reform der Approbationsordnung münden sollte. Das wurde jahrelang verschleppt im Bund-Länder-Zuständigkeits-Dschungel. Um KI oder auch nur Multiple-Choice-Fragen ging es dabei nicht, eher um Geld.Aktuell ist das Bundesministerium am Zug, das einen neuen Entwurf einer Approbationsordnung vorlegen musss, der dann erneut in die Abstimmung mit den Bundesländern geht. „Wir rechnen damit, dass der Entwurf irgendwann in den nächsten zwei bis drei Monaten vorliegt und dann spätestens im Herbst in die Abstimmung mit den Bundesländern geht“, so Wissing. Was drinstehen wird, wurde bislang nur angedeutet. Wissing ist vorsichtig optimistisch: „Wir hoffen, dass es bei den Staatsexamina in eine Richtung geht, die es erlaubt, stärker klinische Kontexte abzuprüfen und die neue Prüfungsformen ermöglicht, auch digitale. Dass wir hier weiterkommen müssen, ist mittlerweile sehr deutlich.“
Bildquelle: Joshua Sortino, unsplash