Repräsentationslernen und Kausalität: Theorie, Praxis und Implikationen für die mechanistische Interpretierbarkeit
Florent Draye - Hector Fellow Bernhard Schölkopf
Das Ziel dieses Projektes ist es, zur Entwicklung von Methoden beizutragen, die aussagekräftige und interpretierbare Merkmale aus hochdimensionalen Datensätzen extrahieren, wobei der Schwerpunkt auf der Entdeckung übergeordneter, kausal verbundener Faktoren liegt, die eine sinnvolle Semantik der Daten beschreiben. Dies wiederum kann uns helfen, tiefere Einblicke in die Repräsentationen zu gewinnen, die in fortgeschrittenen generativen Modellen zu finden sind, insbesondere in Basismodellen und LLMs, mit dem Ziel, deren Effizienz und Sicherheit zu verbessern.