Förderung für Nachwuchswissenschaftler*innen aus aller Welt
Promotionsprojekte
© Laure Ciernik

KI-gestützte Klassi­fi­zie­rung selte­ner Krank­hei­ten: Daten­knapp­heit und Hetero­ge­ni­tät überwinden

Laure Ciernik – Hector Fellow Klaus-Robert Müller

Dieses Projekt zielt darauf ab, die Klassi­fi­zie­rung selte­ner Krank­hei­ten mithilfe neuro­na­ler Netzwerke zu verbes­sern und zentrale Heraus­for­de­run­gen wie begrenzte Daten­ver­füg­bar­keit und hohe Hetero­ge­ni­tät anzuge­hen. Wir wollen bestehende Modelle und deren Reprä­sen­ta­tio­nen unter­su­chen, ihre Sensi­ti­vi­tät auf techni­sche Varian­zen korri­gie­ren und Eigen­schaf­ten identi­fi­zie­ren, die für die Klassi­fi­zie­rung von Vorteil sind. Zudem setzen wir auf Reprä­sem­ta­ti­ons­ler­nen mit großen, unbeschrif­te­ten Daten­sät­zen, insbe­son­dere im Bereich der DNA-Methy­lie­rung, um den Wissens­trans­fer von häufi­gen zu selte­nen Krank­hei­ten zu verbes­sern. Schließ­lich werden wir uns auch darauf konzen­trie­ren, die Unaus­ge­wo­gen­heit von Bezeich­nun­gen beim Modell­trai­ning zu beheben, um präzi­sere und verläss­li­che Krank­heits­vor­her­sa­gen zu ermöglichen.

Eine genaue Klassi­fi­zie­rung der Krank­heit ist entschei­dend für eine recht­zei­tige Diagnose und maßge­schnei­derte Behand­lun­gen. Bei selte­nen Erkran­kun­gen wird dies jedoch aufgrund limitier­ten Daten, hoher Hetero­ge­ni­tät und komple­xer Zusam­men­hänge der Krank­hei­ten zu einer Heraus­for­de­rung. Ziel dieses Promo­ti­ons­pro­jekts ist es, seltene Krank­hei­ten mithilfe neuro­na­ler Netzwerke zu diffe­ren­zie­ren. Wir möchten insbe­son­dere Modelle unter­su­chen und entwi­ckeln, die Daten in Reprä­sen­ta­ti­ons­räume proji­zie­ren, die die seman­ti­schen Katego­rien von Krank­hei­ten abbil­den, um eine einfa­chere Auftei­lung zu ermöglichen.

Zu Beginn werden wir bestehende Modelle sowie deren erlernte Reprä­sen­ta­tio­nen analy­sie­ren, um Merkmale und Ähnlich­kei­ten zu identi­fi­zie­ren und wünschens­werte Eigen­schaf­ten heraus­zu­ar­bei­ten. Anschlie­ßend unter­su­chen wir, wie techni­sche Varia­tio­nen in medizi­ni­schen Daten, etwa verschie­dene Daten­quel­len und Patien­ten­merk­male – bekannt als Batch-Effekte – die Modell­re­prä­sen­ta­tio­nen beein­flus­sen und erfor­schen Metho­den diese zu mildern.

Darüber hinaus planen wir, Modelle auf großen Daten­sät­zen ohne vorge­ge­bene Zielva­ria­blen zu trainie­ren, um Reprä­sen­ta­tio­nen zu lernen, die biolo­gi­sche Signale verschie­de­ner Krank­hei­ten abbil­den. Dieser Ansatz hat sich als vorteil­haft für den Wissens­trans­fer von häufi­gen zu selte­nen Krank­hei­ten erwie­sen. Hierbei werden wir DNA-Methy­lie­rungs­da­ten nutzen, für die im Vergleich zu histopa­tho­lo­gi­schen oder Einzel­zell­da­ten bisher noch keine oder wenige solcher Modelle existieren.

Schliess­lich werden wir uns mit Metho­den zum Modell­trai­ning befas­sen, die es ermög­li­chen, in unaus­ge­wo­ge­nen Daten­sät­zen präzise und gut kalibrierte Vorher­sa­gen zu treffen.

Repräsentationslernen in Umgebungen mit wenigen Daten und hohem Datenaufkommen.

Reprä­sen­ta­ti­ons­ler­nen in Umgebun­gen mit wenigen Daten und hohem Datenaufkommen.

Laure Ciernik

Laure Ciernik

Techni­sche Univer­si­tät Berlin

Betreut durch

Prof. Dr.

Klaus-Robert Müller

Infor­ma­tik, Mathe­ma­tik & Physik

Hector Fellow seit 2023Disziplinen Bernhard Schölkopf