KI-gestützte Klassifizierung seltener Krankheiten: Datenknappheit und Heterogenität überwinden
Laure Ciernik – Hector Fellow Klaus-Robert Müller
Dieses Projekt zielt darauf ab, die Klassifizierung seltener Krankheiten mithilfe neuronaler Netzwerke zu verbessern und zentrale Herausforderungen wie begrenzte Datenverfügbarkeit und hohe Heterogenität anzugehen. Wir wollen bestehende Modelle und deren Repräsentationen untersuchen, ihre Sensitivität auf technische Varianzen korrigieren und Eigenschaften identifizieren, die für die Klassifizierung von Vorteil sind. Zudem setzen wir auf Repräsemtationslernen mit großen, unbeschrifteten Datensätzen, insbesondere im Bereich der DNA-Methylierung, um den Wissenstransfer von häufigen zu seltenen Krankheiten zu verbessern. Schließlich werden wir uns auch darauf konzentrieren, die Unausgewogenheit von Bezeichnungen beim Modelltraining zu beheben, um präzisere und verlässliche Krankheitsvorhersagen zu ermöglichen.
Eine genaue Klassifizierung der Krankheit ist entscheidend für eine rechtzeitige Diagnose und maßgeschneiderte Behandlungen. Bei seltenen Erkrankungen wird dies jedoch aufgrund limitierten Daten, hoher Heterogenität und komplexer Zusammenhänge der Krankheiten zu einer Herausforderung. Ziel dieses Promotionsprojekts ist es, seltene Krankheiten mithilfe neuronaler Netzwerke zu differenzieren. Wir möchten insbesondere Modelle untersuchen und entwickeln, die Daten in Repräsentationsräume projizieren, die die semantischen Kategorien von Krankheiten abbilden, um eine einfachere Aufteilung zu ermöglichen.
Zu Beginn werden wir bestehende Modelle sowie deren erlernte Repräsentationen analysieren, um Merkmale und Ähnlichkeiten zu identifizieren und wünschenswerte Eigenschaften herauszuarbeiten. Anschließend untersuchen wir, wie technische Variationen in medizinischen Daten, etwa verschiedene Datenquellen und Patientenmerkmale – bekannt als Batch-Effekte – die Modellrepräsentationen beeinflussen und erforschen Methoden diese zu mildern.
Darüber hinaus planen wir, Modelle auf großen Datensätzen ohne vorgegebene Zielvariablen zu trainieren, um Repräsentationen zu lernen, die biologische Signale verschiedener Krankheiten abbilden. Dieser Ansatz hat sich als vorteilhaft für den Wissenstransfer von häufigen zu seltenen Krankheiten erwiesen. Hierbei werden wir DNA-Methylierungsdaten nutzen, für die im Vergleich zu histopathologischen oder Einzelzelldaten bisher noch keine oder wenige solcher Modelle existieren.
Schliesslich werden wir uns mit Methoden zum Modelltraining befassen, die es ermöglichen, in unausgewogenen Datensätzen präzise und gut kalibrierte Vorhersagen zu treffen.
Repräsentationslernen in Umgebungen mit wenigen Daten und hohem Datenaufkommen.
Laure Ciernik
Technische Universität BerlinBetreut durch
Klaus-Robert Müller
Informatik, Mathematik & PhysikHector Fellow seit 2023