Projects
↗ PINGUIN
↗ Replikationskrise im Machine Learning
Potenzialidentifikation in der Grundschule zur individuellen Förderung
Im Projekt “Potenzialidentifikation IN der GrUndschule und zur INdividuellen Förderung”, kurz PINGUIN, entwickeln wir in einem großem Team ein Screening zur objektiven und zuverlässigen Erfassung des kognitiven Potenzials sowie der Lernausgangslage von Schülerinnen und Schülern in der Schuleingangsphase. Das computerbasierte Messinstrument des PINGUIN-Projekts besteht aus vier Modulen: (1) kognitives Potenzial, (2) sprachliche Leistungen, (3) schriftsprachliche und (4) mathematische Basiskompetenzen. Für jedes Modul werden die Aufgaben adaptiv aus einer umfangreichen Aufgabendatenbank gezogen. Die Untersuchung wird mittels Tablets in Kleingruppen in der Schule durchgeführt. PINGUIN soll dazu beitragen, die Potenziale der Kinder frühzeitig zu erkennen und eine faire, datenbasierte Förderung zu ermöglichen. Das Wissen über die individuellen Stärken und Schwächen der einzelnen Kinder kann von Lehrkräften für ihre Unterrichtsgestaltung herangezogen werden.
Das Arbeitsprogramm
Für die Module 2-4 zur Erfassung der Basiskompetenzen ist der Aufbau einer umfangreichen Aufgabendatenbank erforderlich, um so die Konstrukte in ihrer gesamten Breite abzubilden und eine differenzierte Erfassung der Leistungsstände zu gewährleisten. Ab dem Ende der 1. Jahrgangsstufe orientieren sich die Anforderungen an den Lehrplänen (kriteriale Vergleiche). Da die Ausgangslagen der Schülerinnen und Schüler in der Schuleingangsphase sehr stark variieren, empfiehlt sich eine adaptive Testung, um so die begrenzte Bearbeitungszeit von 10 Minuten optimal zu nutzen. Eine adaptive Testung erfordert wiederum umfangreiche Normierungsdaten zur Abschätzung der Aufgabenschwierigkeit.
Die breite inhaltliche Abdeckung einerseits und die adaptive Testung andererseits erfordern eine Auswertung auf Basis der Item-Response-Theorie (IRT), wie sie im Bildungsmonitoring häufig verwendet werden. IRT-Modelle ermöglichen es, die Ergebnisse auf einer gemeinsamen Metrik zu verorten, selbst wenn unterschiedliche Aufgaben bearbeitet wurden. Dadurch können die Leistungen von Kindern derselben Jahrgangsstufe direkt miteinander verglichen werden (soziale Vergleiche). Darüber hinaus erlaubt die IRT-Modellierung, zeitliche Entwicklungsverläufe abzubilden (temporale Vergleiche). Ein weiteres Augenmerk liegt auf der Berücksichtigung von Kontextfaktoren, wie dem sozioökonomischen Status oder einem Migrationshintergrund, um eine fairen Leistungsbewertung zu gewährleisten.
Kooperationspartner
Das Projekt wird von der HECTOR-Stiftung gefördert (Laufzeit: 09/2024 - 08/2027). Beteiligt sind Wissenschaftlerinnen und Wissenschaftler der Universitäten Tübingen (Prof. Dr. Ulrich Trautwein, Jun.-Prof. Jessica Golle, Dr. Benjamin Goecke), Ulm (Prof. Dr. Oliver Wilhelm), Kassel (Prof. Dr. Ulrich Schroeders, Priscilla Achaa-Amankwaa, Jonas Walter), Würzburg (Dr. Darius Endlich) und Bonn (Dr. Johanna Hartung) sowie des DIPF | Leibniz- Instituts für Bildungsforschung und Bildungsinformation (Prof. Dr. Marcus Hasselhorn, Dr. Patrick Lösche).
Replikationskrise im Machine Learning

Machine Learning (ML) Modelle erfreuen sich in vielen wissenschaftlichen Disziplinen wie Medizin, Epidemiologie und Psychologie zunehmender Beliebtheit. Allerdings ist die Übertragung komplexer, statistischer Methoden auf andere Anwendungsgebiete außerhalb ihres Kerngebiets fehleranfällig. So beruhten die anfänglich vielversprechenden Ergebnisse leider häufig auf falsch validierten Modellen, die zu überhöhten Vorhersagegüte führten (z.B. bei der Vorhersage des Suizidrisikos). Da methodische Mängel schwerwiegende negative Folgen sowohl für den Einzelnen als auch für die Gesellschaft haben können, warnen einige Forscher bereits vor einer “neuen” Replikationskrise in der ML Forschung. Die bisherige Aufarbeitung hat sich weitgehend auf die algorithmischen Aspekte dieser Krise beschränkt und die besonderen Herausforderungen in der psychologischen Forschung, wie unreliable Indikatoren, kleine Stichproben und fehlende Datenpunkte, außer Acht gelassen. Wir schlagen ein Arbeitsmodell vor, das speziell auf die ML-Forschung in der Psychologie zugeschnitten ist und typische Herausforderungen und Fallstricke aufzeigt. Es besteht aus fünf Schritten: (1) Konzeptualisierung, (2) Datenvorverarbeitung, (3) Modelltraining, (4) Modellvalidierung und -evaluation sowie (5) Interpretation und Generalisierbarkeit. Neben den eher technisch-statistischen umfasst dieses Modell auch die konzeptuellen Aspekte, die für eine erfolgreiche Implementierung von ML in der psychologischen Forschung berücksichtigt werden müssen.
Das Arbeitsprogramm
Im ersten Projekt führen wir ein systematisches Review über die Forschung der letzten 10 Jahre zur prädiktiven Modellierung in verschiedenen psychologischen Teildisziplinen durch, um so einen Überblick über gängige Praktiken in Bezug auf Konzeptualisierung, Datenvorverarbeitung, Modelltraining, -validierung und Generalisierbarkeit sowie Open-Science-Praktiken zu geben. Im zweiten Projekt werden auf Basis des Reviews typische Fallstricke identifiziert und eine Checkliste entwickelt, die Autor:innen bei der Navigation durch den ML-Workflow unterstützen soll. Zusätzlich wird ein „Risk of bias“ Instrument entwickelt, das zur Beurteilung der Qualität von ML-Studien verwendet werden kann (z.B. bei Meta-Analysen). Im dritten Projekt sollen mittels einer ML Prediction Challenge die Checkliste und die Empfehlungen zur Modellierung experimentell validiert werden. Einer Gruppe werden über die Aufgabenbeschreibung hinaus keine weiteren Informationen gegeben, während die andere Gruppe Empfehlungen erhält, wie sie methodische Fallstricke erkennen und vermeiden können. Zentral ist die Frage, ob die Umsetzung der Empfehlungen zu robusteren, transparenteren und reproduzierbaren Vorhersagen führt. Im vierten Projekt wird ein frei zugänglicher Online-Lernkurs entwickelt, der die Logik und Techniken der ML-Modellierung anschaulich vermittelt. Alle vier Projekte werden Werkzeuge und Ressourcen bereitstellen, um die Replikationskrise in der ML-Modellierung zu entschärfen.
Kooperationspartner
Dr. Kristin Jankowsky und Prof. Dr. Ulrich Schroeders wurde von der DFG eine Sachbeihilfe für das Projekt “Facing the Replication Crisis in Machine Learning Modeling” im Rahmen des DFG-Schwerpunktprogramms “META-REP” bewilligt (Laufzeit: 01/2025 - 12/2027).