16.08.2024

Du erkennst Handschriften besser als die KI

In meinen KI-Workshops für Lehrer bekomme ich sehr oft die Frage, ob KI handschriftliche Lernertexte bewerten könne. Ich verstehe diesen Wunsch durchaus, denn das Korrigieren ganzer Klassensätze ist enorm zeitraubend und wenig spaßig. Einige Lehrer berichten begeistert, dass sie Fotos der handschriftlichen Arbeiten machen und die KI diese in Sekunden bewerte. Ich stehe dem skeptisch gegenüber, gleich aus mehreren Gründen.

Transkription mit OCR (optical character recognition)

Aber hier geht es mir nur um die technische Seite. Die KI macht beim Transkribieren einfach zu viele Fehler und bewertet dadurch nicht die tatsächlichen Fehler der Lerners, sondern nur das, was nach der Transkription davon übrig bleibt. Die Transkription basiert auf OCR (optical character recognition), die Buchstaben identifizieren kann, weil sie mit Texten darauf trainiert wurde. Sie nutzt ihr Wissen um das wahrscheinlichste Wort, transkribiert deshalb oft etwas, das dort sinnvollerweise stehen sollte, nicht jedoch das, was tatsächlich dort steht. 100% fehlerfrei arbeitet sie nie.

Die Frage ist also: Wie exakt transkribiert die KI? Dieser Frage gehe ich immer mal wieder nach, da der Wunsch nach Auslagerung der Bewertung wirklich sehr viele Lehrer und auch Prüfungsinstitutionen umtreibt und sich die Technologie ja verbessern könnte. In meinem Experiment gab ich denselben handschriftlichen Text mehreren KIs und immer denselben Prompt: “Transkribiere den Text vom Foto buchstabengetreu. Korrigiere nichts!” Die Ergebnisse sind in unten stehender Präsentation abgebildet.

Wie-zuverlaessig-transkribiert-KI Herunterladen

Testdurchläufe mit ChatGPT4o, Gemini, Claude-3.5-Sonnet und Copilot

Getestet habe ich zunächst ChatGPT4o, Gemini und Copilot. Dann schlug mir Stefan Kirschnick vor, mehrere Transkriptions-Durchläufe zu versuchen und ChatGPT-4o diese dann mit dem Foto der Handschrift vergleichen zu lassen. Tatsächlich führte dies zum bis dahin besten Ergebnis: 6 Fehler. Schließlich habe ich Claude-3.5-Sonnet getestet und war beeindruckt: nur 5 Fehler – im 1. Anlauf! Meine Resultate habe ich vor 3 Wochen auf LinkedIn veröffentlicht. Interessant waren die Reaktionen, v.a. von Lehrern und KI-Beratern: Die KI könne hervorragend transkribieren, schrieb man mir. Es brauche nur „Trainingszeit, bis der GPT geeicht ist und sehr klare prompts“, dann funktioniere das.

Es kam auch der Hinweis, ich solle den GPT „Handwriting to Text“ nehmen, das funktioniere „super“ und empfehle man in den eigenen KI-Kursen. Ich habe den GPT natürlich getestet. Das Resultat war fast identisch mit ChatGPT4o.

Stefan Kirschnick und Daniel Reimann erklären in ihren Kommentaren auch, warum:

Nur wenn die Autor*innen der Custom GPTs bspw. Fremdsysteme per API anbinden oder zumindest zusätzliche Dateien als Quellen hochladen, kann das GPT tatsächlich “geniales” leisten. In diesem tollen Beispiel hier müsste also mind. ein Fremdsystem speziell zur Texterkennung angebunden sein, um durch Vorarbeiten GPT-4o zu höheren Leistungen bewegen zu können. Da das eher nicht kostenlos angeboten werden kann, wird sich für diesen Fall auch mit einem GPT kein besseres Ergebnis erzielen lassen. (Reimann)

Wenige Tage später veröffentlichte der Cornelsen-Verlag (einer der führenden Lehrbuch-Verlage im Bereich Sprachen) als Open Beta seinen KI-Korrektur-Assistenten und stellte ihn auf LinkedIn so vor:

„Korrigieren leicht gemacht ?️ So einfach funktioniert unser KI Korrektur-Assistent:
✅ Handschriftlichen Text fotografieren
✅ KI analysiert in Sekundenschnelle
✅ Fehleranalyse und Korrekturvorschläge
✅ Spürbare Entlastung durch hohe Qualität
✅ DSGVO-konform, sicher und anonymisiert“

Es klingt ein wenig zu gut, finde ich. Natürlich habe ich den Cornelsen-Assistenten auch mit meinem handschriftlichen Text getestet und das Ergebnis war eher mittelmäßig: 9 Fehler. Ich war nicht allzu überrascht. Nachdenklich macht mich aber die einseitige Begeisterung, mit der solche „Erleichterungen“ aufgenommen werden. Über 170 Likes und 15 Kommentare, aber nicht der Hauch von Bedenken.

Um nicht falsch verstanden zu werden: Ich mag KI, sehr sogar. Aber ich finde es wichtig, dass diejenigen, die sie nutzen, verstehen, was sie kann und was nicht. Weil es andernfalls zu Fehlurteilen kommt, falsche Entscheidungen getroffen werden. Wie viele Lehrer, die sich auf KI-Transkripte und die darauf beruhenden Bewertungen stützen, werden sich die Zeit nehmen, Transkript und Original Buchstabe für Buchstabe und Komma für Komma zu vergleichen? Wohl niemand. Man nutzt die Technik ja gerade, um Zeit zu sparen, nicht um 10x so viel Zeit damit zu verbringen. Hierauf aufmerksam zu machen, darum ging es mir.

Daniel Reimann bringt es auf den Punkt: „Stefan Kirschnick hat es schon geschrieben und ich halte genau das bei der Education zu KI auch für sehr wichtig: Die Technik hinter vermeintlichen Lösungen verstehen – egal in welcher Tiefe – hilft, die Ergebnisse besser beurteilen zu können.“

Wenn wir also verstehen, was die KI eigentlich tut beim Transkribieren, dann können wir die Technologie sinnvoll einsetzen. Auf unterschiedliche Arten.

Viele meiner Lerner, die in Ausbildung oder Beruf starten, sind dankbar, im Sprachkurs gelernt zu haben, wie sie mit der App ihre Alltags- und Berufstexte selbst korrigieren lassen können. Es nimmt ihnen im Bürojob Ängste und stärkt ihnen den Rücken.
Manche empfinden es auch als Erleichterung, Texte einfach rasch sprechen zu können und von ChatGPT den (meist) korrekten Text in Schriftform zu bekommen. So geht es in hektischen Situationen einfach viel schneller. Das Überleben im Job in einer Fremdsprache ist schwer genug.
Ich nutze den Bild-Upload gern im Unterricht, denn so habe ich 22 Lehrassistenten im Raum. Für jeden Lerner einen. Wenn meine Lerner z.B. einen Brief geschrieben haben und alle gleichzeitig eine Kontrolle brauchen, nutzen sie jetzt die ChatGPTApp. Sie fotografieren den Text und bekommen in 2 Sekunden eine korrigierte Version ihres Textes und auch eine Erklärung zu ihren Fehlern. Ich bin das Backup, denn natürlich macht ChatGPT auch Fehler.

Übrigens: Ich korrigiere die Texte meiner Lerner weiter traditionell. Das geht am schnellsten und so sehe ich, was noch nicht funktioniert, wer was braucht und welche Fortschritte jeder einzelne macht ?

Im Mini-Video unten siehst du eine Lernerin, wie sie sich in 2 Sekunden von ChatGPT die Korrektur holt.