Förderung des fächerübergreifenden Austauschs
Interdisziplinäre Projekte
© 程 加星 - Adobe Stock

PRECISE‑CRC: Präven­tion durch Kausal­in­fe­renz und strati­fi­zierte Einbet­tun­gen beim Kolorektalkarzinom

Hector Fellow Bernhard Schölkopf

Hector RCD Awardee Carolin Schneider

PRECISE‑CRC entwi­ckelt ein innova­ti­ves Embedding‑Framework, das hetero­gene Lifestyle‑, Komorbiditäts‑ und Versor­gungs­da­ten aus Bioban­ken mittels eines kontext­sen­si­ti­ven LLM in struk­tu­rierte Patien­ten­zu­sam­men­fas­sun­gen überführt und anschlie­ßend mit einem Text‑Embedding‑Modell in hochdi­men­sio­nale Vekto­ren trans­for­miert. Durch den Einsatz skalier­ba­rer kausa­ler Metho­den (NOTEARS, Invari­ant Causal Predic­tion, Doubly Robust Estima­tor) werden wahre Ursache‑Wirkungs‑Beziehungen zum Kolorek­tal­kar­zi­nom identi­fi­ziert und gegen objek­tive Biomar­ker (Omega‑3‑Fettsäuren, BCAA, accelerometer‑basierte Aktivi­tät, Metabo­lome) kalibriert. Die Ergeb­nisse fließen in ein digita­les Präventions‑Dashboard mit indivi­dua­li­sier­ten Risiko­pro­fi­len, counterfactual‑Szenarien und SHAP‑Erklärungen ein. Das Projekt wird von Prof. Dr. Bernhard Schöl­kopf und von Jun.-Prof. Dr. Carolin Schnei­der koordiniert.

​PRECISE‑CRC entwi­ckelt ein neuar­ti­ges, embedding‑basiertes Analyse‑Framework, das die hetero­gene Vielfalt von Lifestyle‑, Komorbiditäts‑ und Versor­gungs­da­ten aus großen Bioban­ken in eine einheit­li­che, seman­tisch inter­pre­tier­bare Form überführt. Kern des Ansat­zes ist ein kontext­sen­si­ti­ves Large‑Language‑Model (LLM), das aus tabel­la­ri­schen Fragebogen‑ und klini­schen Infor­ma­tio­nen patienten‑spezifische Text‑Summaries erzeugt. Diese Narra­ti­ven werden mithilfe moder­ner Text‑Embedding‑Modelle in hochdi­men­sio­nale Vektor­re­prä­sen­ta­tio­nen (Embed­dings) trans­for­miert, die die komple­xen Zusam­men­hänge zwischen Ernäh­rungs­ge­wohn­hei­ten, körper­li­cher Aktivi­tät, Stoffwechsel‑ und Krank­heits­pro­fi­len kompakt abbilden.

Um von reinen Assozia­tio­nen zu echten Kausa­li­tä­ten zu gelan­gen, werden die Embed­dings in einer zweiten Analy­se­schicht mit fortschritt­li­chen kausa­len Machine‑Learning‑Methoden verknüpft. Unter­schied­li­che skalier­bare Verfah­ren – darun­ter NOTEARS, DoPFN, amorti­sierte Inferenz für Causal Struc­ture Learning, Invari­ant Causal Predic­tion (ICP) und der Doubly Robust Estima­tor (DRE) – ermög­li­chen die Konstruk­tion gerich­te­ter azykli­scher Graphen, die poten­zi­elle Ursache‑Wirkungs‑Beziehungen zwischen Lebens­s­til­di­men­sio­nen (z. B. Alkohol­kon­sum, rotes Fleisch, Bewegungs­man­gel) und dem Auftre­ten von Kolorek­tal­kar­zi­no­men (CRC) identi­fi­zie­ren. Durch die Kombi­na­tion von graph‑basierten Entde­ckun­gen und bewähr­ten Inferenz­tech­ni­ken lassen sich durch­schnitt­li­che Treatment‑Effekte (ATE) präzise schät­zen und gleich­zei­tig robuste, über‑populations‑übertragbare Merkmale auswählen.

Ein zentra­les Quali­täts­merk­mal des Projekts ist die Kalibrie­rung der algorith­misch gewon­ne­nen Embed­dings an objek­tive Biomar­ker. Messgrö­ßen wie Omega‑3‑Fettsäuren, verzweigt­ket­tige Amino­säu­ren, accelerometer‑basierte Aktivi­täts­pa­ra­me­ter und umfas­sende Metabolom‑Profile dienen dabei als unabhän­gige Validie­rung, um die biolo­gi­sche Plausi­bi­li­tät zu sichern und ein Über‑Anpassen an subjek­tive Selbst­aus­künfte zu vermei­den. Korre­la­tio­nen zwischen einzel­nen Embedding‑Dimensionen und den Biomar­kern werden mittels linea­rer sowie nicht‑linearer Regres­si­ons­mo­delle quanti­fi­ziert; identi­fi­zierte Diskre­pan­zen fließen in die itera­tive Optimie­rung von Prompt‑Designs und Gewich­tun­gen des Embedding‑Pipelines ein.

Die gesamte Metho­dik wird schließ­lich in ein inter­ak­ti­ves Präventions‑Dashboard integriert. Für jede Nutzer‑ID wird ein indivi­du­el­les Risiko­pro­fil angezeigt, das die zehn‑Jahres‑Inzidenz von CRC auf Basis der embedding‑basierten Vorher­sage sowie der kausa­len Erkennt­nisse darstellt. Zusätz­lich generiert das System counter­fac­tual Szena­rien, die simulie­ren, wie sich das Risiko bei geziel­ten Lebens­stilin­ter­ven­tio­nen – etwa Reduk­tion des Alkohol­kon­sums, Erhöhung der körper­li­chen Aktivi­tät oder Gewichts­ver­lust – verän­dern würde. Durch Shapley‑Additive‑Explanations (SHAP) werden die Beiträge einzel­ner Fakto­ren trans­pa­rent visua­li­siert, sodass Forschende, Ärztin­nen und Patient*innen nachvoll­zie­hen können, welche Varia­blen den größten Einfluss auf das geschätzte Risiko haben.

Das Projekt stützt sich auf die umfas­sen­den Daten­be­stände der UK Biobank (≈ 500 000 Teilneh­mende, davon ~ 14 000 CRC‑Fälle) und des US‑NHANES (≈ 100 000 Teilneh­mende) für externe Validie­rung und Transfer‑Tests. Die Kombi­na­tion aus synthe­ti­schen Text‑Summaries, hochdi­men­sio­na­len Embed­dings, kausa­ler Graph­ana­lyse und Biomarker‑Kalibrierung erzeugt ein robus­tes, kohorten‑unabhängiges Modell, das nicht nur prädik­tiv, sondern vor allem erklä­rend wirkt.

Leitung und Koordi­na­tion – Das Vorha­ben wird von Prof. Dr. Bernhard Schöl­kopf, einem weltwei­ten Pionier der kausa­len Maschi­nel­len Intel­li­genz, gelei­tet. Die klini­sche Umset­zung und die Verbin­dung zu gastro­en­te­ro­lo­gi­schen Praxis­fra­gen übernimmt Jun.-Prof. Dr. Carolin Schnei­der, deren Exper­tise in Krebs­prä­ven­tion, Biomarker‑Stratifizierung und digita­ler Gesund­heits­for­schung die Brücke zwischen Metho­dik und patien­ten­na­her Anwen­dung schlägt.

Durch die Verknüp­fung von seman­ti­scher Harmo­ni­sie­rung, fortge­schrit­te­ner kausa­ler Inferenz, objek­ti­ver Biomarker‑Kalibrierung und einer benut­zer­freund­li­chen Visua­li­sie­rungs­lö­sung setzt PRECISE‑CRC einen neuen Standard für die präven­tive Onkolo­gie. Das Konzept lässt sich zudem problem­los auf andere Tumoren­ti­tys oder chroni­sche Erkran­kun­gen übertra­gen, wodurch langfris­tig eine nachhal­tige Infra­struk­tur für kausale Embedding‑Modelle im Gesund­heits­we­sen geschaf­fen wird.

PRECISE CRC: Prävention durch Kausalinferenz und stratifizierte Einbettungen beim Kolorektalkarzinom

Abbil­dung 1: Übersicht des vorge­schla­ge­nen Projekts

   

Betreut durch

Prof. Dr.

Bernhard Schöl­kopf

Infor­ma­tik, Physik & Mathematik

Hector Fellow seit 2018Disziplinen Bernhard Schölkopf

Prof. Dr. med.

Carolin Schnei­der

Medizin

Hector RCD Awardee seit 2024Disziplinen Carolin Schneider