PRECISE‑CRC: Prävention durch Kausalinferenz und stratifizierte Einbettungen beim Kolorektalkarzinom

Hector Fellow Bernhard Schölkopf

Hector RCD Awardee Carolin Schneider

PRECISE‑CRC entwickelt ein innovatives Embedding‑Framework, das heterogene Lifestyle‑, Komorbiditäts‑ und Versorgungsdaten aus Biobanken mittels eines kontextsensitiven LLM in strukturierte Patientenzusammenfassungen überführt und anschließend mit einem Text‑Embedding‑Modell in hochdimensionale Vektoren transformiert. Durch den Einsatz skalierbarer kausaler Methoden (NOTEARS, Invariant Causal Prediction, Doubly Robust Estimator) werden wahre Ursache‑Wirkungs‑Beziehungen zum Kolorektalkarzinom identifiziert und gegen objektive Biomarker (Omega‑3‑Fettsäuren, BCAA, accelerometer‑basierte Aktivität, Metabolome) kalibriert. Die Ergebnisse fließen in ein digitales Präventions‑Dashboard mit individualisierten Risikoprofilen, counterfactual‑Szenarien und SHAP‑Erklärungen ein. Das Projekt wird von Prof. Dr. Bernhard Schölkopf und von Jun.-Prof. Dr. Carolin Schneider koordiniert.

PRECISE‑CRC entwickelt ein neuartiges, embedding‑basiertes Analyse‑Framework, das die heterogene Vielfalt von Lifestyle‑, Komorbiditäts‑ und Versorgungsdaten aus großen Biobanken in eine einheitliche, semantisch interpretierbare Form überführt. Kern des Ansatzes ist ein kontextsensitives Large‑Language‑Model (LLM), das aus tabellarischen Fragebogen‑ und klinischen Informationen patienten‑spezifische Text‑Summaries erzeugt. Diese Narrativen werden mithilfe moderner Text‑Embedding‑Modelle in hochdimensionale Vektorrepräsentationen (Embeddings) transformiert, die die komplexen Zusammenhänge zwischen Ernährungsgewohnheiten, körperlicher Aktivität, Stoffwechsel‑ und Krankheitsprofilen kompakt abbilden.

Um von reinen Assoziationen zu echten Kausalitäten zu gelangen, werden die Embeddings in einer zweiten Analyseschicht mit fortschrittlichen kausalen Machine‑Learning‑Methoden verknüpft. Unterschiedliche skalierbare Verfahren – darunter NOTEARS, DoPFN, amortisierte Inferenz für Causal Structure Learning, Invariant Causal Prediction (ICP) und der Doubly Robust Estimator (DRE) – ermöglichen die Konstruktion gerichteter azyklischer Graphen, die potenzielle Ursache‑Wirkungs‑Beziehungen zwischen Lebensstildimensionen (z. B. Alkoholkonsum, rotes Fleisch, Bewegungsmangel) und dem Auftreten von Kolorektalkarzinomen (CRC) identifizieren. Durch die Kombination von graph‑basierten Entdeckungen und bewährten Inferenztechniken lassen sich durchschnittliche Treatment‑Effekte (ATE) präzise schätzen und gleichzeitig robuste, über‑populations‑übertragbare Merkmale auswählen.

Ein zentrales Qualitätsmerkmal des Projekts ist die Kalibrierung der algorithmisch gewonnenen Embeddings an objektive Biomarker. Messgrößen wie Omega‑3‑Fettsäuren, verzweigtkettige Aminosäuren, accelerometer‑basierte Aktivitätsparameter und umfassende Metabolom‑Profile dienen dabei als unabhängige Validierung, um die biologische Plausibilität zu sichern und ein Über‑Anpassen an subjektive Selbstauskünfte zu vermeiden. Korrelationen zwischen einzelnen Embedding‑Dimensionen und den Biomarkern werden mittels linearer sowie nicht‑linearer Regressionsmodelle quantifiziert; identifizierte Diskrepanzen fließen in die iterative Optimierung von Prompt‑Designs und Gewichtungen des Embedding‑Pipelines ein.

Die gesamte Methodik wird schließlich in ein interaktives Präventions‑Dashboard integriert. Für jede Nutzer‑ID wird ein individuelles Risikoprofil angezeigt, das die zehn‑Jahres‑Inzidenz von CRC auf Basis der embedding‑basierten Vorhersage sowie der kausalen Erkenntnisse darstellt. Zusätzlich generiert das System counterfactual Szenarien, die simulieren, wie sich das Risiko bei gezielten Lebensstilinterventionen – etwa Reduktion des Alkoholkonsums, Erhöhung der körperlichen Aktivität oder Gewichtsverlust – verändern würde. Durch Shapley‑Additive‑Explanations (SHAP) werden die Beiträge einzelner Faktoren transparent visualisiert, sodass Forschende, Ärztinnen und Patient*innen nachvollziehen können, welche Variablen den größten Einfluss auf das geschätzte Risiko haben.

Das Projekt stützt sich auf die umfassenden Datenbestände der UK Biobank (≈ 500 000 Teilnehmende, davon ~ 14 000 CRC‑Fälle) und des US‑NHANES (≈ 100 000 Teilnehmende) für externe Validierung und Transfer‑Tests. Die Kombination aus synthetischen Text‑Summaries, hochdimensionalen Embeddings, kausaler Graphanalyse und Biomarker‑Kalibrierung erzeugt ein robustes, kohorten‑unabhängiges Modell, das nicht nur prädiktiv, sondern vor allem erklärend wirkt.

Leitung und Koordination – Das Vorhaben wird von Prof. Dr. Bernhard Schölkopf, einem weltweiten Pionier der kausalen Maschinellen Intelligenz, geleitet. Die klinische Umsetzung und die Verbindung zu gastroenterologischen Praxisfragen übernimmt Jun.-Prof. Dr. Carolin Schneider, deren Expertise in Krebsprävention, Biomarker‑Stratifizierung und digitaler Gesundheitsforschung die Brücke zwischen Methodik und patientennaher Anwendung schlägt.

Durch die Verknüpfung von semantischer Harmonisierung, fortgeschrittener kausaler Inferenz, objektiver Biomarker‑Kalibrierung und einer benutzerfreundlichen Visualisierungslösung setzt PRECISE‑CRC einen neuen Standard für die präventive Onkologie. Das Konzept lässt sich zudem problemlos auf andere Tumorentitys oder chronische Erkrankungen übertragen, wodurch langfristig eine nachhaltige Infrastruktur für kausale Embedding‑Modelle im Gesundheitswesen geschaffen wird.