Machine Learning basierte Kompetenzprofile im Physikdidaktischen Wissen
Das Professionswissen von Lehrkräften gilt im Rahmen üblicher Wirkungsmodelle von Bildungsprozessen als eine Voraussetzung für guten Unterricht (z. B. Terhart 2012). Klassische Modellierungen des Professionswissens (Shulman 1986; Baumert & Kunter 2006; adaptiert für die Physik nach Riese 2009) umfassen typischerweise die drei zentralen Domänen Fachwissen (FW), allgemeines Pädagogisches Wissen (PW) und Fachdidaktisches Wissen (FDW). Das FDW wird dabei grob als dasjenige Wissen, das zur adressatengerechten Aufbereitung des FDW notwendig ist, beschrieben.
FDW wird hierzulande üblicherweise dreidimensional modelliert (Tepner et al. 2012; Kröger 2019; Gramzow 2015). Untersuchungen im Rahmen quantitativer Scores zeigen signifikante Zuwächse des FDW im Studium und Vorbereitungsdienst (z. B. Riese & Reinhold 2012; Kirschner 2013; Kröger 2019) sowie Zusammenhänge zwischen den Domänen des Professionswissens (z. B. Sorge et al. 2019; Riese 2009) und Performanz in prototypischen Anforderungssituationen (z. B. Schröder et al. 2020; Kulgemeyer et al. 2020).
Größere empirische Forschungsarbeiten zum FDW fokussieren im deutschsprachigen Raum primär globale quantitative Aussagen auf Konstrukt-Ebene. Zur Ermöglichung von inhaltlich reichhaltigem Feedback sowie zur inhaltlichen Aufklärung von Leistungsunterschieden sind darüber hinaus jedoch auch empirisch fundierte inhaltlich-kriterienorientierte Beschreibungen von Ausprägungen des FDW notwendig. Erste Analysen im Bereich des FDW nutzen das Scale-Anchoring-Verfahren (z. B. Mullis et al. 2015) um Niveaustufen mithilfe von Item-Response-Modellen (IRT-Modellen) zu beschreiben (Schiering et al. 2023; Zeller et al. 2022).
Zielsetzung des Projekts
Um inhaltlich reichhaltiges Feedback zum FDW zu ermöglichen und für die Lehrpraxis nutzbar zu machen sind drei Schritte notwendig:
- Die Ausprägungen des FDW von Lernenden müssen valide in ein – möglichst empirisch fundiertes – Modell eingeordnet werden können.
- Die „wahrscheinliche“ Entwicklung und Veränderung des FDW (z. B. als Reaktion auf bestimmte Lehrveranstaltungen) sollte bekannt sein.
- Es müssen passende Reaktionen entwickelt und dann ausgewählt werden.
Dieses Projekt setzt primär beim ersten und zweiten Desiderat an und umfasst dafür die folgenden Arbeitspakete:
Es wurde (Stand Mai 2023) eine projektübergreifende Analyse des FDW mithilfe von IRT-Modellen auf Basis, nach dem Vorbild und in Kooperation mit der Arbeitsgruppe der Physik-Sparte der KiL / KeiLa Projekte (IPN Kiel; Schiering et al. 2019, 2023) durchgeführt. Es werden Clusteranalysen auf Basis von Machine Learning (ML) Methoden zur Aufdeckung reichhaltiger nicht hierarchischer inhaltlicher Strukturen durchgeführt. Zur Nutzbar-Machung der Ergebnisse für die Praxis soll die Auswertung eines validierten Testinstruments für das FDW (Gramzow 2015) automatisiert werden. Das zweite Arbeitspaket wird dabei durch Veränderungsanalysen z. B. durch die bereits im Datensatz enthaltenen Informationen über den Studienfortschritt ergänzt. Genutzt wird der Datensatz aus dem Projekt ProfiLe-P+ (Vogelsang et al. 2019).
Methode und erste Ergebnisse
In den Analysen zum ersten Arbeitspaket ergab die Anwendung des Scale-Anchoring-Verfahrens systematische Gemeinsamkeiten der erhaltenen Niveaubeschreibungen in Form lernpsychologisch interpretierbarer Operatoren. Projektübergreifend zeigt sich, dass FDW in niedrigen Ausprägungen primär auf reproduktive Aspekte beschränkt bleibt während in höheren Ausprägungen kreative und evaluierende Elemente hinzukommen. Diese Ergebnisse sind konform mit kognitionspsychologischen Ergebnissen zum Wissenserwerbsprozess (z. B. Gagné & White 1978) sowie entsprechenden Taxonomien (z. B. Anderson & Krathwohl 2001). Der hierbei genutzte hierarchische Ansatz des Scale-Anchoring-Verfahrens liefert jedoch keine Unterscheidung zwischen eher kreativen und eher evaluierenden Ausprägungen.
Auf diesen Ergebnissen aufbauend werden Clusteranalysen der Testdaten durchgeführt, die bisher selten in der Naturwissenschaftsdidaktik genutzt werden (Zhai et al. 2020a, 2020b) aber zur Aufklärung möglicherweise vorhandener nicht hierarchischer Strukturen geeignet sind. Dabei werden im Sinne einer Computational Grounded Theory (Nelson 2020) Computer-basierte Analysen mit menschlichem Expertenwissen (dieses zunächst in Form von Aufgabenanalysen) verknüpft, um (nicht zwingend hierarchische) „Kompetenzprofile“ des FDW zu beschreiben. Erste Ergebnisse zu möglichen Kompetenzprofilen wurden bereits auf der GDCP Jahrestagung 2022 in Form eines Posters vorgestellt (Zeller & Riese im Druck). In einem weiteren Schritt sollen diese Clusteranalysen der Score-Daten mit Analysen der authentischen Sprachproduktionen der Proband:innen unterfüttert werden. Dazu sollen Topic Models (Blei et al. 2003; Blei 2012) bzw. Structural Topic Models (Roberts et al. 2019) oder auch Deep Topic Models (Grootendorst 2022) genutzt werden. Solche Ansätze bieten die Möglichkeit, den typischen Sprachgebrauch von Proband:innen bestimmter Kompetenzprofile genauer zu beschreiben und somit die Beschreibung der Profile weiter auszuschärfen.
Die Automatisierung der Auswertung des verwendeten, validierten Testinstruments stellt eine nicht-triviale Aufgabe dar, da das Testinstrument zu einem Großteil aus Aufgaben mit offenem Antwortformat besteht. Es existieren im Bildungsforschungsbereich bereits Ansätze zum automatisierten Scoren auf Aufgaben-Ebene (z. B. Andersen & Zehner 2021), allerdings kann auch eine automatisierte Zuordnung zu den Fähigkeitsprofilen aus dem zweiten Arbeitspaket in den Blick genommen werden. Gerade dieser Ansatz kann aufgrund der für diesen Zweck größeren Textmenge, die pro Proband:in zur Verfügung steht, durch vortrainierte Neuronale Netzwerke (z. B. „BERT“ nach Devlin et al. 2019, angewendet in der Naturwissenschaftsdidaktik z. B. von Wulff et al. 2022) im Sinne eines „Transfer Learnings“ unterstützt werden. Einen typischen Benchmark für die Güte des entwickelten Systems ist die Mensch-Maschine Übereinstimmung z. B. in der Form von Cohens κ (z. B. Zhai et al. 2021).
Fazit und Ausblick
Die beschriebenen Analysen des ersten Arbeitspakets lassen die folgenden Ansätze als vielversprechende Kandidaten für die Beschreibung auch nicht-hierarchischer Strukturen des FDW erscheinen. Da Cluster Analysen allerdings bisher eher selten in der Naturwissenschaftsdidaktik angewendet werden, stellt hier auch die Entwicklung / Komposition geeigneter Methoden eine Herausforderung dar.
Literatur
Andersen, N., & Zehner, F. (2021). shinyReCoR: A Shiny Application for Automatically Coding Text Responses Using R. Psych, 3(3), 422–446. https://doi.org/10.3390/psych3030030
Anderson, L. W., & Krathwohl, D. R. (Hrsg.). (2001). A taxonomy for learning, teaching, and assessing A revision of Bloom’s taxonomy of educational objectives (4. Aufl.). New York: Longman.
Baumert, J., & Kunter, M. (2006). Stichwort: Professionelle Kompetenz von Lehrkräften. Zeitschrift für Erziehungswissenschaft, 9(4), 469–520. https://doi.org/10.1007/s11618- 006-0165-2
Blei, D. M., Ng, A. Y., & Jordan, M. I. (2003). Latent Dirichlet Allocation. Journal of Machine Learning Research, 3, 993–1022. https://www.jmlr.org/papers/volume3/blei03a/blei03a.pdf
Blei, D. M. (2012). Probabilistic Topic Models. Communications of the ACM, 55(4), 77–84. https://doi.org/10.1145/2133806.2133826
Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2019). BERT: Pre-Training of Deep Bidirectional Transformers for Language Understanding. arXiv:1810.04805
Gagné, R. M., & White, R. T. (1978). Memory Structures and Learning Outcomes. Review of Educational Research, 48(2), 187–222. https://doi.org/10.3102/00346543048002187
Gramzow, Y. (2015). Fachdidaktisches Wissen von Lehramtsstudierenden im Fach Physik: Modellierung und Testkonstruktion. In H. Niedderer, H. Fischler & E. Sumfleth (Hrsg.), Studien zum Physik- und Chemielernen (Bd. 181). Berlin: Logos Verlag.
Grootendorst, M. (2022). BERTopic: Neural topic modeling with a class-based TF-IDF procedure. arXiv:2203.05794
Kirschner, S. (2013). Modellierung und Analyse des Professionswissens von Physiklehrkräften. In H. Niedderer, H. Fischler & E. Sumfleth (Hrsg.), Studien zum Physik- und Chemielernen (Bd. 161). Berlin: Logos Verlag.
Kröger, J. (2019). Struktur und Entwicklung des Professionswissens angehender Physiklehrkräfte [Diss., Christian-Albrechts Universität Kiel].
Kulgemeyer, C., Borowski, A., Buschhüter, D., Enkrott, P., Kempin, M., Reinhold, P., Riese, J., Schecker, H., Schröder, J., & Vogelsang, C. (2020). Professional knowledge affects action-related skills: The development of preservice physics teachers’ explaining skills during a field experience. Journal of Research in Science Teaching, 52(10), 1554–1582. https://doi.org/10.1002/tea.21632
Mullis, I. V. S., Cotter, K. E., Centurino, V. A. S., Fishbein, B. G., & Liu, J. (2015). Using scale anchoring to interpret the TIMSS 2015 achievement scales. In I. V. S. Mullis & M. Hooper (Hrsg.), Methods and Procedures in TIMSS (S. 14.1–14.47).
Nelson, L. K. (2020). Computational grounded theory: A methodological framework. Sociological Methods & Research, 49(1), 3–42. https://doi.org/10.1177/0049124117729703
Riese, J. (2009). Professionelles Wissen und professionelle Handlungskompetenz von (angehenden) Physiklehrkräften. In H. Niedderer, H. Fischler & E. Sumfleth (Hrsg.), Studien zum Physik- und Chemielernen (Bd. 97). Berlin: Logos Verlag.
Riese, J., & Reinhold, P. (2012). Die professionelle Kompetenz angehender Physiklehrkräfte
in verschiedenen Ausbildungsformen. Zeitschrift für Erziehungswissenschaften, 15, 111–143. https://doi.org/10.1007/s11618-012-0259-y
Roberts, M. E., Stewart, B. M., & Tingley, D. (2019). stm: An R Package for Structural Topic Models. Journal of Statistical Software, 91(2), 1–40. https://doi.org/10.18637/jss.v091.i02
Schiering, D., Sorge, S., Petersen, S., & Neumann, K. (2019). Konstruktion eines qualitativen Niveaumodells im fachdidaktischen Wissen von angehenden Physiklehrkräften. Zeitschrift für Didaktik der Naturwissenschaften, 25, 211–229. https://doi.org/10.1007/s40573-019-00100-y
Schiering, D., Sorge, S., Keller, M. M., & Neumann, K. (2023). A proficiency model for pre-service physics teachers’ pedagogical content knowledge (PCK)—What constitutes high-level PCK? Journal of Research in Science Teaching, 60(1), 136–163. https://doi.org/doi.org/10.1002/tea.21793
Schröder, J., Riese, J., Vogelsang, C., Borowski, A., Buschhüter, D., Enkrott, P., Kempin, M., Kulgemeyer, C., Reinhold, P., & Schecker, H. (2020). Die Messung der Fähigkeit zur Unterrichtsplanung im Fach Physik mit Hilfe eines standardisierten Performanztests. Zeitschrift für Didaktik der Naturwissenschaften, 26(1), 103–122. https://doi.org/10.1007/s40573-020-00115-w
Shulman, L. S. (1986). Those Who Understand: Knowledge Growth in Teaching. Educational Researcher, 15(2), 4–14. https://doi.org/10.3102/0013189X015002004
Sorge, S., Kröger, J., Petersen, S., & Neumann, K. (2019). Structure and development of pre-service physics teachers’ professional knowledge. International Journal of Science Education, 41(7), 862–889. https://doi.org/10.1080/09500693.2017.1346326
Tepner, O., Borowski, A., Dollny, S., Fischer, H. E., Jüttner, M., Kirschner, S., Leutner, D., Neuhaus, B. J., Sandmann, A., Sumfleth, E., Thillmann, H., & Wirth, J. (2012). Modell zur Entwicklung von Testitems zur Erfassung des Professionswissens von Lehrkräften in den Naturwissenschaften. Zeitschrift für Didaktik der Naturwissenschaften, 18, 7–28.
Terhart, E. (2012). Wie wirkt Lehrerbildung? Forschungsprobleme und Gestaltungsfragen. Zeitschrift für Bildungsforschung, 2(1), 3–21.
Vogelsang, C., Borowski, A., Buschhüter, D., Enkrott, P., Kempin, M., Kulgemeyer, C., Reinhold, P., Riese, J., Schecker, H., & Schröder, J. (2019). Entwicklung von Professionswissen und Unterrichtsperformanz im Lehramtsstudium Physik–Analysen zu valider Testwertinterpretation. Zeitschrift für Pädagogik, 65(4), 473–491. https://doi.org/10.25656/01:23990
Wulff, P., Mientus, L., Nowak, A., & Borowski, A. (2022). Utilizing a Pretrained Language Model (BERT) to Classify Preservice Physics Teachers’ Written Reflections. International Journal of Artificial Intelligence in Education. https://doi.org/10.1007/s40593-022-00290-6
Zeller, J., Jordans, M., & Riese, J. (2022). Ansätze zur Ermittlung von Kompetenzniveaus im Fachdidaktischen Wissen. In S. Habig (Hrsg.), Unsicherheit als Element von naturwissenschaftsbezogenen Bildungsprozessen, Tagungsband der GDCP Jahrestagung 2021. Essen: Universität Duisburg-Essen.
Zeller, J., & Riese, J. (im Druck). Datenbasierte Fähigkeitsprofile im Physikdidaktischen Wissen. In H. van Vorst (Hrsg.), Lernen, Lehren und Forschen in einer digital geprägten Welt, Tagungsband der GDCP Jahrestagung 2022. Gesellschaft für Didaktik der Chemie und Physik.
Zhai, X., Haudek, K. C., Shi, L., Nehm, R. H., & Urban-Lurain, M. (2020a). From substitution to redefinition: A framework of machine learning-based science assessment. Journal of Research in Science Teaching, 57, 1430–1459. https://doi.org/10.1002/tea.21658
Zhai, X., Shi, L., & Nehm, R. (2021). A Meta-Analysis of Machine Learning-Based Science Assessments: Factors Impacting Machine-Human Score Agreements. Journal of Science Education and Technology, 30, 361–379. https://doi.org/10.1007/s10956-020-09875-z
Zhai, X., Yin, Y., Pellegrino, J. W., Haudek, K. C., & Shi, L. (2020b). Applying machine learning in science assessment: a systematic review. Studies in Science Education, 56(1), 111–151. https://doi.org/10.1080/03057267.2020.1735757