Potenziale KI-gestützter Vorhersageverfahren auf Basis von Routinedaten
(KI-THRUST)
Projektziel
Auswertungen von Routinedaten der gesetzlichen Krankenversicherungen (GKV) bieten die Chance, Versorgungsbedarfe von Patientinnen und Patienten früher und besser zu erkennen. Prognosen aufgrund von Routinedaten werden meist mit klassischen Analysetechniken (z. B. konventionellen Regressionsmodellen) erstellt.
Im Projekt KI-THRUST werden die Potenziale von KI-gestützten Vorhersageverfahren auf Basis von Routinedaten der Krankenkassen untersucht. Das Ziel ist es, Stärken und Schwächen von KI-Verfahren und konventionellen Verfahren miteinander zu vergleichen. Am Beispiel des Entlassmanagements aus dem Krankenhaus soll analysiert werden, inwieweit neue KI-Verfahren als Entscheidungshilfe zukünftig genutzt werden können.
Begleitend zum analytischen Teil des Projekts sollen praxisorientierte Handlungsempfehlungen abgeleitet und in einem Weißbuch zusammengefasst werden.
Das aQua-Institut ist verantwortlich für die Konsortialführung, das Projektmanagement und ‑controlling. Außerdem werden vom aQua-Institut folgende Bereiche bearbeitet:
- Berichtserstellung
- Ethikantrag, Antrag gem. § 75 SGB X
- Datenschutz und Informationssicherheit
- Datenbeschaffung und ‑aufbereitung
- Datenanalyse (konventionelle Regressionsverfahren)
- Konzipierung, Erstellung und Veröffentlichung des Weißbuchs
Methodik
Orientiert an den Vorläuferprojekten EMSE (Förderkennzeichen 01VSF16041) und USER (Förderkennzeichen 01NVF18010) wurden sowohl klassische als auch KI-gestützte Modelle zur Vorhersage von poststationären Ereignissen (Wiederaufnahme, Mortalität,) entwickelt und anhand verschiedener Kriterien miteinander verglichen. Die Datengrundlage bildeten die Routinedaten der vier projektteilnehmenden Betriebskrankenkassen (BAHN-BKK, Novitas BKK, pronova BKK, Siemens-BKK) für den Beobachtungszeitraum der Jahre 2015 bis 2020. Die Daten wurden für ca. 4 Mio. Krankenhausfälle bereitgestellt und umfassen ambulante und stationäre Leistungen und Diagnosen sowie Leistungsinanspruchnahmen aus den Bereichen Arzneimittel, Heil- und Hilfsmittel und Pflege. Parallel zur Berechnung klassischer Regressionsanalysen erfolgte die Entwicklung verschiedener KI-gestützter Modelle in folgenden Schritten:
- Auswahl/Eingrenzung geeigneter KI-Verfahren
- Modelltraining (inkl. Sensitivitätsanalyse und Kreuzvalidierung)
- Vergleichende Testung und Bewertung aller Modelle (z. B. hinsichtlich Vorhersagepräzision, Performance, Ergebniserklärbarkeit, Reproduzierbarkeit)
Darüber hinaus wurde eine vertiefende Analyse von „kontrollierbaren“ und „unvermeidlichen“ Fehlklassifikationen durchgeführt. Abschließend wurden die finalen Modelle hinsichtlich ihres Anwendungspotenzials und der transparenten Darstellbarkeit der Ergebnisse für potenzielle Endanwender diskutiert.
Ergebnis
Das Projekt zielte auf einen Erkenntnisgewinn ab, inwieweit sich verschiedene (erklärbare) KI-Verfahren zur Analyse von GKV-Routinedaten für den Anwendungszweck der prädiktiven Modellierung eignen. Hierzu wurden unterschiedliche Machine Learning (ML)-Modelle (Random Forest, Neuronale Netze, Adaptive Boosting) sowie logistische Regressionsmodel-le mit Daten aus dem Jahr 2018 trainiert und ihre Performance anhand etablierter Evaluationsmetriken (AUC-ROC, AUC-PR) verglichen. In weiteren Post-hoc-Analysen wurden Erklärbarkeitsansätze, die Übertragbarkeit auf „künftige“ Jahre (2019, 2020) sowie die Neigung zu Fehlklassifikationen in Subgruppen getestet.
Die Modellevaluation ergab, dass auf Basis identischer Daten das ML-Verfahren AdaBoost (AB) und die logistische Regression (LR) die höchste Modellgüte (gem. AUC-ROC) bei der Vorhersage der Mortalität (AB=0,889 LR=0,888) und ungeplanten Wiederaufnahme (AB=0,694 LR=0,693) erzielen. Dabei ließ sich die Mortalität besser vorhersagen als die Wiederaufnahme, wobei niedrige AUC-PR-Werte auf eine eingeschränkte Nutzbarkeit für die Individualprognostik hinweisen. Die Testung der trainierten Modelle mit Daten aus 2019 und 2020 führte trotz COVID-19-Pandemie nur zu einer leicht reduzierten Vorhersagegenauigkeit. Zudem weisen Subgruppenanalysen darauf hin, dass alle Modelle in kleineren Hochrisikogruppen (z. B. 80+ Jährige) geringfügig schlechter performen. Die im Projekt getesteten ML-Erklärungsansätze (z. B. LIME, Shapley Value) eignen sich aktuell noch nicht, um hinreichend erklären zu können, warum eine Person eine bestimmte Vorhersage erhält.
Darüber wurde mit dem Weißbuch erstmalig ein Beitrag veröffentlicht, in dem die Themengebiete „Künstliche Intelligenz“ und „Routinedaten bei Krankenkassen“ zusammengeführt und praktische Umsetzungshilfen und Handlungsempfehlungen anhand der im Projekt durchgeführten Analysen abgeleitet wurden.