Forschungsprofessur Computerlinguistik

Foto: Henrik Schipper

Sprachtechnologie für eine verbesserte Hochschullehre

Mit Künstlicher Intelligenz Aufsätze automatisch auswerten und Studierende so individuell unterstützen, Klausurbewertungen (teil)automatisieren und mit automatischer Handschriftenerkennung zur Entlastung Dozierender beitragen – die Einsatzmöglichkeiten der Sprachtechnologie in der Hochschule sind vielfältig, denn sie ist überall da, wo es im digitalen Studium sprachliche Interaktion gibt.

Prof. Dr.-Ing. Torsten Zesch und sein Team untersuchen, wie sie Prozesse in der Hochschulbildung automatisieren und Studium und Lehre verbessern können. Ihr besonderes Interesse gilt der Analyse und Verarbeitung von nicht standardisierter Sprache, wie sie auch in der Sprache von Lernenden vorkommt. Mit den Einsatzmöglichkeiten der Computerlinguistik untersuchen sie, wie sich Künstliche Intelligenz im Sinne einer besseren, gerechteren Bildung in der Hochschule sinnvoll einsetzen lässt.

  • Wie kann man Lehr- und Lernprozesse durch sprachtechnologische Verfahren und künstliche Intelligenz (KI) unterstützen? Mit dieser Frage beschäftigt sich die Forschungsprofessur Computerlinguistik. Beispielsweise erhalten Lernende von Lehrenden Texte und Aufgaben, die sie schriftlich beantworten und zu denen sie wiederum eine Bewertung und Feedback bekommen. Unser Team forscht daran, wie viele dieser Prozesse automatisiert werden können. Dazu gehört

    • Automatische Analyse der (linguistischen) Eigenschaften von Texten
    • Automatische Generierung von Aufgaben, z.B. Leseverständnisfragen aus Texten ableiten
    • Automatische Bewertung von Freitextantworten. Dies können Kurzantworten sein, bei denen es vor allem auf den Inhalt ankommt, aber auch längere Essays, in denen etwa Argumentationsstruktur oder Stil eine Rolle spielen
    • Automatisches (adaptives) Feedback zu Texten

    Uns interessieren zudem die Eigenheiten der Sprache von Lernenden, wie z.B. Rechtschreibfehler oder die Sprache von Nicht-Muttersprachlern.

    Nicht immer geht es dabei nur um digitale Texte. Zu unseren Forschungsbereichen zählen auch

    • Multimodale Anwendungen, z.B. die Beschreibung von Bildern und Analyse von Memes
    • Verarbeitung gesprochener Sprache
    • Automatische Handschriftenerkennung

    Wir sehen Grundlagenforschung nicht als Gegensatz zu anwendungsorientierter Forschung, sondern als wichtige Basis dafür. Daher beschäftigen wir uns zudem mit grundlegenden Fragen zu Themen wie

    • Robustheit von Modellen, z.B. in Bezug auf Sprachwandel
    • Erklärbarkeit von KI
    • Ethische und legale Implikationen von KI-Modellen

    Wir verpflichten uns zu reproduzierbarer und replizierbarer Forschung. Wir machen generell alle Forschungssoftware öffentlich zugänglich.

  • Prof. Dr.-Ing. Torsten Zesch

    Torsten-zesch-schipper-2022Foto: Henrik Schipper

    Piush Aggarwal

    Piush-aggarwal-schipper-2022Foto: Henrik Schipper

    Jeanette-bewersdorff-schipper-2022Foto: Henrik Schippchpper

    Marie Bexte

    Marie BexteFoto: Hardy Welsch

    Christian Gold

    Christian-gold-schipper-2022Foto: Henrik Schipper

    Jasmin Grams

    Jasmin Grams 500x600Foto: Foto: Hardy Welsch

    Dr. Josef Ruppenhofer

    Josef RuppenhoferFoto: Hardy Welsch
     
  • Derzeit forscht das Team im Rahmen der CATALPA-Forschungsprofessur.
    CATALPA-Projekte entstehen künftig vielleicht in Zusammenarbeit mit anderen Wissenschaftler*innen des Forschungszentrums.

    • KISS-Pro (2023-2025)
      „Künstliche Intelligenz in Sprache und Schrift - Professionalisierungskonzepte für und Nutzungsperspektiven von KI-basierten Feedbacksystemen und Schreibagenten für sprachliches Lernen in der Schule“
      BMBF-Projekt
    • DAKODA (2022-2025)
      „Datenkompetenzen in DaF/DaZ: Exploration sprachtechnologischer Ansätze zur Analyse von L2- Erwerbsstufen in Lernerkorpora“
      BMBF-Projekt
    • WisPerMed (2021-2025)
      „Wissens- und datenbasierte Personalisierung von Medizin am Point of Care“
      Graduiertenkolleg
    • TrACE (2021-2024)
      „Training Assessment Competencies in English as a Second Language“
      Unter der Leitung von Prof. Jens Möller (Institut für Pädagogisch-Psychologische Lehr- und Lernforschung (IPL) Universität Kiel) und Prof. Stefan Keller (Fachhochschule Nordwestschweiz).
      Unsere Rolle als Projektpartner: Automatische Bewertung und Analyse englischer argumentativer Texte von deutschen und schweizer Schüler*innen der 11. Klasse
    • KISTRA - Einsatz von KI zur Früherkennung von Straftaten“ (2020 - 2023)
      BMBF „Forschung für die zivile Sicherheit“
    • Exploration digitaler Technologien in der öffentlichen Arbeitsvermittlung am Beispiel von Textmining“ (2019-2020)
      BMAS FIS (Fördernetzwerk Interdisziplinäre Sozialpolitikforschung)
    • Automatische Bewertung von Freitextantworten“ (2019-2020)
      TestDaF Institut
    • DKPro – Sprachtechnologische Middleware“ (2018-2020)
      DFG Sachbeihilfe im Programm „Nachhaltigkeit von Forschungssoftware“
    • ASSURE– Argument-based Decision Support for Recommender Systems“ (2018-2020)
      DFG Sachbeihilfe im Schwerpunktprogramm „Ratio – Robust Argumentation Machines“
    • Mobile Communications Database – MoCoDa“ (2017)
      Wortklassenerkennung für Chat-Daten
      Ministerium für Kultur und Wissenschaft NRW
    • Bildungsgerechtigkeit im Fokus II“ (2016 – 2020)
      Verstehen und Modellieren von Lernerantworten
      BMBF
    • Transferring the RTG experience in Social Media“ (2016)
      Deutsch-Arabische Transformationspartnerschaft
      DAAD
    • User-centred Social Media“ (2015 – 2020)
      Interdisziplinäres DFG Graduiertenkolleg (Informatik und Psychologie)
    • Text als Prozess“ (2010 - 2013)
      Analyse der kollaborativen Schreibprozesse in Wikipedia und der Einfluss der Diskussionsseiten auf die Qualität der Artikel
      Teilprojekt im LOEWE Schwerpunkt „Digital Humanities“
      Hessisches Exzellenzprogramm LOEWE
  • 2024

    Zeitschriftenartikel

    • Flinz, C., & Ruppenhofer, J. (2024). Coreferenza e nuclei tematici nelle interviste del corpus IS. ANNALI. SEZIONE GERMANICA. Rivista del Dipartimento di Studi Letterari, Linguistici e Comparati dell’Università degli studi di Napoli L’Orientale, 383–414. https://doi.org/10.6093/GERMANICA.V0I33.10752

    Konferenzbeiträge

    • Aggarwal, P., Mehrabanian, J., Huang, W., Alacam, Ö., & Zesch, T. (2024). Text or Image? What is More Important in Cross-Domain Generalization Capabilities of Hate Meme Detection Models? In Y. Graham & M. Purver (Hrsg.), 18th Conference of the European Chapter of Findings of the Association for Computational Linguistics (S. 104–117). Association for Computational Linguistics. https://openreview.net/forum?id=RZYrUlRGv1
    • Bexte, M., Horbach, A., & Zesch, T. (2024). Rainbow – A Benchmark for Systematic Testing of How Sensitive Visio-Linguistic Models are to Color Naming. In Y. Graham & M. Purver (Hrsg.), 18th Conference of the European Chapter of the Association for Computational Linguistics (S. 1858–1875). Association for Computational Linguistics. https://openreview.net/forum?id=0x4Bg1sNDo

    2023

    Zeitschriftenartikel

    • Wisniewski, K., Zesch, T., Schwendemann, M., Ruppenhofer, J., & Portmann, A. (2023). Automatische Analysen von Erwerbsstufen in einer großen Lernerkorpus-Datenbank für DaF/DaZ. Das Forschungsprojekt DAKODA. Korpora Deutsch als Fremdsprache, 3(2). https://doi.org/10.48694/kordaf.3845
    • Zesch, T., Horbach, A., & Zehner, F. (2023). To Score or Not to Score: Factors Influencing Performance and Feasibility of Automatic Content Scoring of Text Responses. Educational Measurement: Issues and Practice, 42(1), 44–58. https://doi.org/10.1111/emip.12544

    Konferenzbeiträge

    • Aggarwal, P., Chawla, P., Das, M., Saha, P., Mathew, B., Zesch, T., & Mukherjee, A. (2023). HateProof: Are Hateful Meme Detection Systems really Robust? Proceedings of the ACM Web Conference 2023, 3734–3743. https://doi.org/10.1145/3543507.3583356
    • Bexte, M., Horbach, A., & Zesch, T. (2023). Similarity-Based Content Scoring - A more Classroom-Suitable Alternative to Instance-Based Scoring? Findings of the Association for Computational Linguistics: ACL 2023, 1892–1903. https://aclanthology.org/2023.findings-acl.119
    • Ding, Y., Bexte, M., & Horbach, A. (2023). Score It All Together: A Multi-Task Learning Study on Automatic Scoring of Argumentative Essays. Findings of the Association for Computational Linguistics: ACL 2023, 13052–13063. https://aclanthology.org/2023.findings-acl.825
    • Gold, C., Laarmann-Quante, R., & Zesch, T. (2023a). Preserving the Authenticity of Handwritten Learner Language: Annotation Guidelines for Creating Transcripts Retaining Orthographic Features. 1st Computation and Written Language (CAWL) Workshop at ACL.
    • Gold, C., Laarmann-Quante, R., & Zesch, T. (2023b). Recognizing Learner Handwriting Retaining Orthographic Errors for Enabling Fine-Grained Error Feedback. Innovative Use of NLP for Building Educational Applications (BEA) Workshop at ACL.
    • Kupietz, M., Fankhauser, P., & Ruppenhofer, J. (2023). A distributional comparison between FOLK and DeReKo. The Twelfth International Corpus Linguistics Conference 2023. Lancaster University, Monday 3rd-Thursday 6th July, 2023. Book of abstracts, 155–155.
    • Wiegand, M., Kampfmeier, J., Eder, E., & Ruppenhofer, J. (2023). Euphemistic Abuse – A New Dataset and Classification Experiments for Implicitly Abusive Language. In H. Bouamor, J. Pino, & K. Bali (Hrsg.), Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing (S. 16280–16297). Association for Computational Linguistics. https://doi.org/10.18653/v1/2023.emnlp-main.1012

    Herausgeberschaften

    • Kochmar, E., Burstein, J., Horbach, A., Laarmann-Quante, R., Madnani, N., Tack, A., Yaneva, V., Yuan, Z., & Zesch, T. (2023). Proceedings of the 18th Workshop on Innovative Use of NLP for Building Educational Applications (BEA 2023).

    Vorträge und Posterpräsentationen

    • Zehner, F., Zesch, T., & Horbach, A. (2023a, Februar 28–März 2). Mehr als nur Technologie- und Fairnessfrage: Ethische Prinzipien beim automatischen Bewerten von Textantworten aus Tests [Paper Presentation]. 10th GEBF Annual conference, Universität Duisburg-Essen.
    • Zehner, F., Zesch, T., & Horbach, A. (2023b, Februar 28–März 2). To Score or Not to Score? Machbarkeits- und Performanzfaktoren für automatisches Scoring von Textantworten [Paper Presentation]. 10th GEBF Annual conference, Universität Duisburg-Essen.

    2022

    Zeitschriftenartikel

    • Sanguinetti, M., Bosco, C., Cassidy, L., Çetinoğlu, Ö., Cignarella, A. T., Lynn, T., Rehbein, I., Ruppenhofer, J., Seddah, D., & Zeldes, A. (2022). Treebanking user-generated content: a UD based overview of guidelines, corpora and unified recommendations. Language Resources and Evaluation, 57(2), 493–544. https://doi.org/10.1007/s10579-022-09581-9

    Konferenzbeiträge

    • Aggarwal, P., & Zesch, T. (2022a). Analyzing the Real Vulnerability of Hate Speech Detection Systems against Targeted Intentional Noise. Proceedings of the Eighth Workshop on Noisy User-generated Text (W-NUT 2022), 230–242. https://aclanthology.org/2022.wnut-1.25
    • Aggarwal, P., & Zesch, T. (2022b). Bye, Bye, Maintenance Work? Using Model Cloning to Approximate the Behavior of Legacy Tools. Proceedings of the 18th Conference on Natural Language Processing (KONVENS 2022), 175–180. https://aclanthology.org/2022.konvens-1.21
    • Bexte, M., Horbach, A., & Zesch, T. (2022). Similarity-Based Content Scoring - How to Make S-BERT Keep Up With BERT. Proceedings of the 17th Workshop on Innovative Use of NLP for Building Educational Applications (BEA 2022), 118–123. https://aclanthology.org/2022.bea-1.16
    • Bexte, M., Laarmann-Quante, R., Horbach, A., & Zesch, T. (2022). LeSpell - A Multi-Lingual Benchmark Corpus of Spelling Errors to Develop Spellchecking Methods for Learner Language. Proceedings of the Language Resources and Evaluation Conference, 697–706. https://aclanthology.org/2022.lrec-1.73
    • Ding, Y., Bexte, M., & Horbach, A. (2022). Don’t Drop the Topic - The Role of the Prompt in Argument Identification in Student Writing. Proceedings of the 17th Workshop on Innovative Use of NLP for Building Educational Applications (BEA 2022), 124–133. https://aclanthology.org/2022.bea-1.17
    • Gold, C., & Zesch, T. (2022, Dezember). CNN-based Ruled Line Removal in Handwritten Documents. Proceedings of the 18th International Conference on Frontiers of Handwriting Recognition (ICFHR 2022).
    • Horbach, A., Laarmann-Quante, R., Liebenow, L., Jansen, T., Keller, S., Meyer, J., Zesch, T., & Fleckenstein, J. (2022). Bringing Automatic Scoring into the Classroom–Measuring the Impact of Automated Analytic Feedback on Student Writing Performance. Swedish Language Technology Conference and NLP4CALL, 72–83. https://ecp.ep.liu.se/index.php/sltc/article/view/580/550
    • Laarmann-Quante, R., Prepens, L., & Zesch, T. (2022). Evaluating Automatic Spelling Correction Tools on German Primary School Children’s Misspellings. Swedish Language Technology Conference and NLP4CALL, 95–107. https://ecp.ep.liu.se/index.php/sltc/article/download/582/552
    • Laarmann-Quante, R., Schwarz, L., Horbach, A., & Zesch, T. (2022). ‘Meet me at the ribary’ – Acceptability of spelling variants in free-text answers to listening comprehension prompts. Proceedings of the 17th Workshop on Innovative Use of NLP for Building Educational Applications (BEA 2022), 173–182. https://aclanthology.org/2022.bea-1.22
    • Ludwig, F., Dolos, K., Zesch, T., & Hobley, E. (2022). Improving Generalization of Hate Speech Detection Systems to Novel Target Groups via Domain Adaptation. Proceedings of the Sixth Workshop on Online Abuse and Harms (WOAH), 29–39. https://doi.org/10.18653/v1/2022.woah-1.4
    • Zesch, T., & Bewersdorff, J. (2022). German Medical Natural Language Processing–A Data-centric Survey. In C. Reich & U. Mescheder (Hrsg.), The Upper-Rhine Artificial Intelligence Symposium UR-AI 2022 : AI Applications in Medicine and Manufacturing, 19 October 2022, Villingen-Schwenningen, Germany (S. 137–145). Furtwangen University.
    • Zufall, F., Hamacher, M., Kloppenborg, K., & Zesch, T. (2022). A Legal Approach to Hate Speech – Operationalizing the EU’s Legal Framework against the Expression of Hatred as an NLP Task. Proceedings of the Natural Legal Language Processing Workshop 2022, 53–64. https://aclanthology.org/2022.nllp-1.5

    Herausgeberschaften

    • Kochmar, E., Burstein, J., Horbach, A., Laarmann-Quante, R., Madnani, N., Tack, A., Yaneva, V., Yuan, Z., & Zesch, T. (Hrsg.). (2022). Proceedings of the 17th Workshop on Innovative Use of NLP for Building Educational Applications (BEA 2022). Association for Computational Linguistics. https://aclanthology.org/2022.bea-1.0

    Software

    Konferenzbeiträge

    • Aggarwal, P., Liman, M. E., Gold, D., & Zesch, T. (2021). VL-BERT+: Detecting Protected Groups in Hateful Multimodal Memes. Proceedings of the 5th Workshop on Online Abuse and Harms (WOAH 2021), 207–214. https://doi.org/10.18653/v1/2021.woah-1.22
    • Bexte, M., Horbach, A., & Zesch, T. (2021). Implicit Phenomena in Short-answer Scoring Data. Proceedings of the First Workshop on Understanding Implicit and Underspecified Language.
    • Gold, C., Boom, D. van den, & Zesch, T. (2021). Personalizing Handwriting Recognition Systems with Limited User-Specific Samples. Proceedings of the 16th International Conference on Document Analysis and Recognition (ICDAR 2021).
    • Haring, C., Lehmann, R., Horbach, A., & Zesch, T. (2021). C-Test Collector: A Proficiency Testing Application to Collect Training Data for C-Tests. Proceedings of the 16th Workshop on Innovative Use of NLP for Building Educational Applications, 180–184. https://www.aclweb.org/anthology/2021.bea-1.19
    • Pham, D. D., Müller, J., Aggarwal, P., Khatri, A., Sharma, M., Zesch, T., & Pauli, J. (2021, Januar). Fully vs. Weakly Supervised Caries Localization in Smartphone Images with CNNs. Artificial Intelligence for Healthcare Applications International Workshop - ICPR 2020 Workshop Proceedings.
    • Schäfer, H., Idrissi-Yaghir, A., Galetzka, W., Bexte, M., & Friedrich, C. M. (2021). WisPerMed Text at TREC Clinical Trials Track 2021. In 30th Text REtrieval Conference, 7.

    Zeitschriftenartikel

    Herausgeberschaften

    • Burstein, J., Horbach, A., Kochmar, E., Laarmann-Quante, R., Leacock, C., Madnani, N., Pilán, I., Yannakoudakis, H., & Zesch, T. (Hrsg.). (2021). Proceedings of the 16th Workshop on Innovative Use of NLP for Building Educational Applications. Association for Computational Linguistics. https://www.aclweb.org/anthology/2021.bea-1.0

    2020

    Konferenzbeiträge

    • Ding, Y., Horbach, A., Wang, H., Song, X., & Zesch, T. (2020). Chinese Content Scoring: Open-Access Datasets and Features on Different Segmentation Levels. Proceedings of the 1st conference of the Asia-Pacific Chapter of the Association for Computational Linguistics and the 10th International Joint Conference on Natural Language Processing(AACL-IJCNLP 2020). https://www.aclweb.org/anthology/2020.aacl-main.37.pdf
    • Ding, Y., Riordan, B., Horbach, A., Cahill, A., & Zesch, T. (2020). Don’t take "nswvtnvakgxpm" for an answer - The surprising vulnerability of automatic content scoring systems to adversarial input. Proceedings of the 28th International Conference on Computational Linguistics(COLING 2020). https://www.aclweb.org/anthology/2020.coling-main.76.pdf
    • Gold, C., & Zesch, T. (2020). Exploring the Impact of Handwriting Recognition on the Automated Scoring of Handwritten Student Answers. Proceedings of the 17th International Conference on Frontiers in Handwriting Recognition (ICFHR 2020). https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9257760
    • Horbach, A., Aldabe, I., Bexte, M., Lacalle, O. de, & Maritxalar, M. (2020). Appropriateness and Pedagogic Usefulness of Reading Comprehension Questions. Proceedings of the 12th International Conference on Language Resources and Evaluation (LREC-2020). https://www.aclweb.org/anthology/2020.lrec-1.217.pdf
    • Kovatchev, V., Gold, D., Marti, M. A., Salamo, M., & Zesch, T. (2020). Decomposing and Comparing Meaning Relations: Paraphrasing, Textual Entailment, Contradiction, and Specificity. Proceedings of the 12th International Conference on Language Resources and Evaluation (LREC-2020). https://www.aclweb.org/anthology/2020.lrec-1.709.pdf

    Zeitschriftenartikel

    Vollständige Publikationsliste des Forschungszentrums CATALPA

  • Auf dieser Seite finden Sie einen Überblick über frei verfügbare Datensätze zur automatischen Bewertung von Freitexten aus den Bereichen der automatischen Aufsatzbewertung und der Bewertung von Inhalten und Kurzantworten.

    Liste mit Datensätzen für Content Scoring und Essay Scoring


  • Ausgewählte Themen für offene Arbeiten

    "Retrieval-augmented Generation with Source Attribution"

    Sie beschäftigen sich mit der Quellenzuordnung bei der Retrieval-Augmented-Generierung in einem Q&A-Setting mit FernUni-Daten.

    "Sentence-based Query-by-example (QBE)"

    Sie erforschen Methoden anhand eines Satzes, um ähnliche Sätze in einer Abfrage nach Beispielen zu finden.

    "Generating images to suppport language learning"

    Sie erstellen ein Bild anhand eines Satzes, das dem Leser helfen soll, die Bedeutung dieses Satzes zu verstehen.

    "Evaluating the performance of full page handwriting recognition systems"

    Sie arbeiten mit einer Sammlung digitalisierter Handschriften und untersuchen und bewerten ganzseitige Handschrifterkennungssysteme.

    "Augmented-reality feedback on printed documents"

    Sie arbeiten mit Meta Quest oder Apple Vision Pro, um Augmented-Reality-Feedback auf gedruckten Dokumenten zu ermöglichen.

    Sie haben Interesse daran, Ihre Abschlussarbeit an der Forschungsprofessur Computerlinguistik unter unserer Betreuung zu schreiben? Dann freuen wir uns von Ihnen zu hören! Bitte schreiben Sie an torsten.zesch gern auch mit eigenen Themenvorschlägen.


Sandra Kirschbaum | 08.05.2024