Die richtige Dosis Terminologie

Text: Jasmin Nesbigall

Generative KI erzeugt schnell Texte und Übersetzungen, bleibt dabei jedoch meist generisch. Erst Terminologie bringt die fachliche Präzision, die im professionellen Einsatz erforderlich ist, zum Beispiel bei der Übersetzung Technischer Kommunikation.

Inhaltsübersicht

Lesedauer: 10:48 Minuten

Künstliche Intelligenz gilt vielen als Allheilmittel. Egal, ob als Ideengeber für eine Präsentation, zur Datenanalyse oder zur Erstellung eines Meetingprotokolls: Generative KI kann in vielen Szenarien wirkungsvoll eingesetzt werden und so manchen Schmerz lindern. Andere beäugen den Einsatz deutlich kritischer, machen einen großen Bogen um dieses Mittel und greifen höchstens im Notfall zur künstlichen Unterstützung. Mit seinen breiten Einsatzmöglichkeiten, seiner Omnipräsenz, aber auch der kritischen Haltung ihm gegenüber lässt sich das „Allheilmittel“ KI mit rezeptfreien Schmerzmitteln vergleichen: Beide wirken in erster Linie generisch, sind für vieles nützlich und leisten meist schnelle Hilfe. Für manche sind sie ein permanenter Begleiter, für andere nur in absoluten Notfällen denkbar. Was beiden – zumindest in ihren frei verfügbaren Versionen – fehlt, ist Spezifik und damit oftmals eine tiefergehende Wirksamkeit.

Wo Spezifik fehlt, kommt Terminologie ins Spiel. Denn festgelegte Terminologie ermöglicht eine eindeutige und einheitliche Fachsprache und reduziert sowohl Missverständnisse als auch Fehlerpotenzial. Bei der Texterstellung wirkt Terminologie also im besten Fall gezielt dort, wo sie benötigt wird, und ist damit vergleichbar mit Medikamenten mit gezieltem Anwendungsgebiet – wie ein Hustensaft. Im Vergleich zu allgemeinen Schmerzmitteln sind diese Mittel meist verschreibungspflichtig und brauchen etwas länger, bis sie ihre Wirkung voll entfalten.

Genauso, wie die Einnahme von Schmerzmitteln ohne Abklärung der Ursache keine dauerhafte Lösung sein sollte, können auch maschinengenerierte Übersetzungen ohne Terminologie nicht ihre volle Wirkung erzielen. Denn Terminologie bringt die benötigte Spezifik in den generischen Output der KI und kann damit für unternehmensrelevante Ergebnisse und deutlich weniger Nacharbeit sorgen. Entscheidend sind dabei zwei Faktoren: die Einnahmeform, das heißt wie Terminologie in KI-Systeme eingebunden wird, außerdem die Dosis, in der Terminologie verabreicht wird.

Wie Terminologie beeinflusst

Genau wie ein Schmerzmittel allgemein auf die Schmerzrezeptoren wirkt, ist auch das Ergebnis künstlicher Intelligenz grundsätzlich generisch. Large Language Models (LLM) haben anhand unvorstellbar großer Datenmengen gelernt, Wörter basierend auf Wahrscheinlichkeiten vorauszusagen. Beginnt man einen Satz mit „Die Katze schläft auf dem …“, dann gleicht das System die darin vorkommenden Wörter mit gelernten Wortverbindungen ab und berechnet die wahrscheinlichsten Folgewörter. Mit hoher Wahrscheinlichkeit könnten „Bett“ und „Sofa“ folgen. „Tisch“ wäre als Folgewort schon deutlich weniger wahrscheinlich und „Hund“ eher unwahrscheinlich.

Diese Berechnung gilt nicht nur innerhalb einer Sprache, sondern auch für Übersetzungen: Neuronale maschinelle Übersetzungssysteme (MT) und LLMs berechnen unter Berücksichtigung aller Wörter im Satz – also des Satzkontexts – die wahrscheinlichste zielsprachliche Entsprechung für ein ausgangssprachliches Wort.

Diese Wahrscheinlichkeitsberechnung basiert auf Milliarden von Wörtern aus dem Trainingsmaterial. Um sie gezielt zu beeinflussen, kommen Terminologievorgaben und Glossare ins Spiel: Sie ermöglichen es, gewünschte Terminologie an die Systeme zu übermitteln und so deren Umsetzung zu beeinflussen. Denn Terminologiefehler machen durchschnittlich etwa 30 % des Nachbearbeitungsaufwands bei maschinengenerierten Texten aus [1]. Wie hoch der Fehleranteil ausfällt, hängt unter anderem von folgenden Faktoren ab:

  • Sachgebiet
  • Sprachkombination
  • Standardisierung

Wenn im Trainingsmaterial der KI beispielsweise viele juristische Texte vorkamen, ist damit zu rechnen, dass rechtssprachliche Termini gut erkannt und umgesetzt werden. Termini aus dem Sondermaschinenbau oder für Zahnimplantate können hingegen eine höhere Fehlerquote aufweisen, weil sie im Material eventuell unterrepräsentiert waren.

Den meisten MT-Systemen und LLMs liegt englisches Trainingsmaterial zugrunde, so dass Termini in der Sprachkombination Deutsch-Englisch besser erkannt und umgesetzt werden als in Kombinationen wie Französisch-Tschechisch. Zusätzlich kann die Standardisierung der Terminologie eine Rolle spielen: Wenn ein Werkzeug standardmäßig im Englischen „screwdriver“ genannt wird, ist dieser Terminus wahrscheinlich auch entsprechend einheitlich im Trainingsmaterial enthalten. Anders sieht dies für die deutschen Synonyme „Schraubendreher“ und „Schraubenzieher“ aus.

Diesen Faktoren kann also mit gezielten Terminologievorgaben begegnet werden. Damit werden die gewünschten Termini an das System übermittelt und direkt in den maschinengenerierten Output integriert.

So wirkt Terminologie im System

Um Terminologie in den Output von MT und LLMs zu bringen, gibt es unterschiedliche Ansätze: Beim TermRAG-Verfahren [2] wird die Terminologie über eine eigene RAG-Pipeline in ein LLM eingespeist, während sie bei der Glossarintegration als CSV-Datei oder direkt aus einer Terminologiedatenbank an das System übergeben wird. Da die Glossarintegration mittlerweile in vielen maschinellen Übersetzungssystemen möglich ist, soll diese hier weiter betrachtet werden. Eins ist allerdings allen Verfahren gemeinsam: Sie benötigen möglichst saubere Daten und eindeutige Zuordnungen. Dabei muss jeder ausgangssprachliche Terminus einem zielsprachlichen Terminus zugeordnet sein – eine Eindeutigkeit, die man in der Terminologierealität allerdings selten findet.

Denn neben unternehmensindividuellen Unsauberkeiten – vor allem im Bereich der Verwendungsinformationen – kommen Ungenauigkeiten hinzu, die bereits der Sprache inhärent sind. Dazu zählen Mehrdeutigkeiten, beispielsweise gleiche Benennungen für unterschiedliche Begriffe (wie „Leiter“ für ein leitendes Material oder eine leitende Person). Die Systeme benötigen allerdings eindeutige Daten und können nur eine Vorgabe pro ausgangssprachlichem Terminus verarbeiten.

Ob dies die erste Vorgabe, die letzte oder bei Unklarheit sogar keine von beiden ist, hängt dabei vom eingesetzten System ab. Entscheidend für die korrekte Umsetzung der Vorgaben ist außerdem die Funktionsweise der Terminologie-Integration: Die meisten Systeme forcieren den vorgegebenen Terminus und passen ihn durch eine morphosyntaktische Anpassung, etwa in Numerus, Tempus und Kasus, an den Satz an. Immer mehr Tools arbeiten allerdings kontextsensitiv und prüfen jede Vorgabe vor der Umsetzung auf ihre Wahrscheinlichkeit im Satzkontext. Im besten Fall führt dies zu geringeren Fehlern, zum Beispiel durch die Erkennung des passenden Kontexts bei den oben genannten Mehrdeutigkeiten. Durch diese Prüfung kann allerdings vorgegebene Terminologie auch als unwahrscheinlich eingestuft und entsprechend nicht umgesetzt werden. Immer wieder ist durch diese Funktionsweise auch eine ungewollte Anpassung an das Trainingsmaterial zu beobachten, zum Beispiel an die alte portugiesische Rechtschreibung, weil diese häufiger im Trainingsmaterial vorkommt und daher als wahrscheinlicher gilt.

Ohne Zuordnung keine Bedeutung

Die größte Bedeutung beim Einsatz von Terminologie in der KI kommt also der korrekten Zuordnung der Termini zwischen Ausgangs- und Zielsprache zu. Wie bereits geschrieben, ist eine 1:1-Zuordnung in der Terminologierealität selten gegeben – und eigentlich auch gar nicht vorgesehen. Denn Terminologiedaten sollen die tatsächliche und die gewünschte Verwendung der Fachsprache abbilden, indem sie einem Begriff alle Benennungen in allen Sprachen zuordnen und diese Benennungen zum Beispiel durch Verwendungsinformationen klassifizieren.

Ein Glossar benötigt diese ganzen Daten allerdings nicht. Da die Zuordnung von der Ausgangssprache in die Zielsprache erfolgt, ist es zwar sinnvoll, alle ausgangssprachlichen Termini aufzunehmen – also auch erlaubte und verbotene Benennungen, da sie im Ausgangstext vorkommen könnten. Diesen Benennungen sollte dann aber nur die jeweilige Vorzugsbenennung in der Zielsprache zugeordnet werden, weil nur diese im Ergebnis vorkommen soll. Die Zuordnung der Terminologievorgaben erfolgt also idealerweise „n:1“, weshalb Glossare sprachrichtungsspezifisch sind und nicht einfach „umgedreht“ werden können.

Wie diese Zuordnung erfolgt, ist abhängig von den technischen Möglichkeiten der Systeme: Bei einer direkten Datenbankeinbindung ordnet das System selbst die Termini einander zu, meist ohne dass Nutzerinnen und Nutzer darauf Einfluss nehmen können. Wichtig ist dann aber, welche Informationen – zum Beispiel welche Verwendungsinformationen – das System verarbeitet und wie dies geschieht. Werden die Vorgaben hingegen in Form einer Glossarliste ans System übermittelt, muss die Zuordnung vorab erfolgen. Die Liste sollte dann alle Termini der Ausgangssprache und jeweils nur die Vorzugsbenennungen der Zielsprache enthalten. In beiden Fällen kommt der Sauberkeit des Bestands und der Metadaten eine entscheidende Bedeutung zu. Außerdem hängt die optimale Wirksamkeit bei Terminologievorgaben von der passenden Dosierung ab – wie bei Medikamenten.

Viel hilft nicht viel

Jede Terminologievorgabe verändert die Wortwahrscheinlichkeiten. Dadurch kann sich nicht nur ein Terminus selbst, sondern auch der restliche Satz ändern. Terminologie wirkt also nicht nur dort, wo sie soll, sondern kann Nebenwirkungen haben. Im positiven Fall führt dies zu besseren Kollokationen oder einer höheren Genauigkeit, im negativen Fall zu fehlenden Differenzierungen, Verallgemeinerungen oder unpassenden Kollokationen. [3]

Konkrete Nebenwirkungen verdeutlicht das folgende Beispiel [4]: In einem Übersetzungsprojekt mit 285 Segmenten wird der Text einmal rein maschinell und einmal maschinell unter Einbindung von 800 Glossarvorgaben übersetzt. Ein Vergleich der beiden maschinengenerierten Outputs zeigt, dass 155 der 285 Segmente (= 54 %) von der Glossarintegration nicht betroffen sind, sich also keinerlei Änderungen an der Übersetzung ergeben. Die restlichen 130 Segmente (= 46 %) verändern sich durch die Einbindung des Glossars.

Beim Blick in die Details (Abb. 01) zeigt sich, dass in 29 % dieser Segmente nur der vorgegebene Terminus geändert wurde. Hier funktioniert das Glossar also wie erhofft, indem es fehlerhafte Übersetzungen durch gewünschte Terminologie ersetzt. In 17 % der betroffenen Segmente wird der Terminus korrekt ersetzt, aber es ändern sich weitere Teile des Satzes. In weiteren 19 % führte die Glossarintegration zu Änderungen des restlichen Satzes, obwohl der betroffene Terminus im ursprünglichen MT-Output bereits korrekt war. Hier war also keine Anpassung durch das Glossar nötig, dennoch veränderten die Vorgaben das Übersetzungsergebnis. In 20 % der MT-Segmente gab es Änderungen innerhalb des Satzes, obwohl dort keiner der Glossareinträge vorkam. Bei solchen Änderungen kann nicht ausgeschlossen werden, dass das MT-System grundsätzlich von Anfrage zu Anfrage leichte Änderungen am Output produziert. Insgesamt sind diese Fälle jedoch auffällig oft im Zusammenhang mit Glossarintegrationen zu beobachten. In 15 % der Segmente führte die Glossarintegration schließlich zu Fehlern, beispielsweise zur fehlerhaften Umsetzung von Termini.

Diese Projektanalyse zeigt beispielhaft den Einfluss, den Glossare auf maschinengenerierte Texte haben können – und dass dieser Einfluss über die reine Terminologieersetzung hinausgeht. Selbst wenn der gewünschte Terminus im nativen Maschinenoutput bereits enthalten war, beeinflusste die Vorgabe die Übersetzung des restlichen Satzes. Lediglich 29 % der Ersetzungen funktionierten wie gewünscht bzw. erwartet.

Schaubild zum Änderungsanteil an maschinengenerierter Übersetzung.
Abb. 01 Änderungsanteil an maschinengenerierter Übersetzung nach Glossareintrag. Quelle oneword

Risiken im Glossar

Nicht nur die Wirkung von Glossaren birgt Risiken. Auch ihr Inhalt selbst kann zur Fehlerquelle werden. Von ihm kann sogar ein deutlich höheres Risiko ausgehen. Denn wenn die Vorgaben bereits Fehler enthalten, beispielsweise inhaltliche oder sprachliche Fehler, fließen diese direkt in die Übersetzung ein.

Auch Mehrdeutigkeiten bergen ein Risiko: Steht eine identische Benennung im Unternehmen für verschiedene Bedeutungen (wie „Leiter“ im genannten Beispiel), so kann über das Glossar höchstens eine der beiden Entsprechungen vorgegeben werden. Dabei zeigen Praxistests, dass MT-Systeme und LLMs unterschiedliche Bedeutungen je nach Kontext nativ oft korrekt wiedergeben. Das Ergebnis kann aber durch falsche Vorgaben ausgehebelt werden und damit zu Fehlern führen (Tab. 01).

Tabelle vergleicht fehlerhafte Umsetzung einer Glossarvorgabe.
Tab. 01 Quelle oneword

Weiteres Fehlerpotenzial liegt im Vorkommen von Komposita: Beziehen sich zwei Komposita auf das gleiche Grundwort und stehen aufgesplittet hintereinander, erkennen die Maschinen die Zugehörigkeit des abgetrennten Wortteils zum Grundwort nicht. Ist dieses Wort Teil des Glossars, wird es nicht erkannt, sondern der erste Wortbestandteil alleine übersetzt (Tab. 02). Wird wiederum im Glossar ein Einzelwort vorgegeben, das im Text aber Teil eines Kompositums ist, wird auch diese Vorgabe meist nicht erkannt und entsprechend nicht umgesetzt. Eine Vorgabe für „Batterie“ hat also meist keinen Einfluss auf ein im Text vorkommendes Kompositum „Batteriemanagement“.

Tabelle vergleicht fehlerhafte Umsetzung einer Glossarvorgabe bei ausgesplittetem Kompositum.
Tab. 02 Quelle oneword

Weitere Fehlerquellen können kontextfremde Termini im Glossar sein, die das Ergebnis beeinflussen, ohne wirklich benötigt zu werden. Enthält das Glossar beispielsweise Oberflächentexte, kann jedes „Weiter“ im Text fehlerhaft übersetzt werden, obwohl damit nicht die Schaltfläche gemeint wäre. Zusätzlich kann es zu fehlenden Differenzierungen kommen, wenn im Glossar Entsprechungen vorgegeben werden, die gleichzeitig die wahrscheinlichste Übersetzung für andere Wörter im Text darstellen. Hier erfolgt dann keine Anpassung des restlichen Satzes, da einmal die Wortwahrscheinlichkeit und einmal die Vorgabe überwiegt (Tab. 03).

Tabelle vergleicht fehlende Differenzierung durch Glossarvorgabe.
Tab. 03 Quelle oneword

Terminologie wirkt vorbeugend

Vorbeugung ist die beste Medizin – das gilt tatsächlich auch für Terminologie. Genauso wie die heiße Zitrone meist nicht mehr hilft, wenn man schon mit Gliederschmerzen auf dem Sofa liegt, ist es auch bei Terminologiearbeit besser, vorzubeugen und proaktive Vorarbeit zu leisten, um bestehende Daten optimal für den KI-Einsatz nutzen zu können.

Da Mehrdeutigkeiten eine zentrale Fehlerquelle sind, sollten sie im Datenbestand gezielt geprüft werden. Überwiegt zum Beispiel bei den beiden erwähnten Bedeutungen von „Leiter“ klar die elektrotechnische Bedeutung in den zu übersetzenden Texten, sollte diese als Glossarvorgabe übernommen werden. Falls keine eindeutige Festlegung möglich ist, müssen beide Vorgaben aus dem Glossar ausgeschlossen werden. Die Termini werden dann kontextbezogen vom System übersetzt und müssen beim Posteditieren auf ihre korrekte Umsetzung geprüft werden.

Da die Dosis das Gift macht, gilt es auch für Terminologievorgaben die richtige Dosierung zu finden. Auf die Frage, welche Termini für ein Glossar relevant sind, kann eine Bestandsanalyse die Antwort liefern. Diese Analyse deckt auf, welcher Anteil der Terminologiedatenbank überhaupt aktiv in Unternehmenstexten genutzt wird und welche Termini wie oft verwendet werden. Mit diesen Kennzahlen lässt sich einerseits der Datenbestand kennzeichnen oder sogar reduzieren, andererseits aber auch priorisieren: Häufig vorkommende Termini sollten nicht nur einen Platz im Glossar sicher haben, sondern auch gezielt geprüft und ergänzt werden.

Um den Datenbestand, egal ob komplett oder bereits durch eine Bestandsanalyse priorisiert, möglichst sauber zu bekommen, kann eine Sprachdatenbereinigung erfolgen. Dabei wird gezielt nach Fehlern in der Datenbank, aber auch nach fehlenden oder uneindeutigen Informationen gesucht. Eine entsprechend vervollständigte und bereinigte Datenbank dient dann als ideale Grundlage für eine automatisierte Glossarerstellung, bei der die erwähnte „n:1“-Zuordnung skriptbasiert erfolgen kann.

All das funktioniert allerdings nur, wenn die Datenbank überhaupt in den benötigten Sprachen gefüllt ist. Auch hier kann das Ergebnis der Bestandsanalyse genutzt werden, um die aktiv verwendete Kernterminologie zu ermitteln und diese gezielt in den zu übersetzenden Fremdsprachen zu ergänzen. Bei einem Nachbearbeitungsaufwand von durchschnittlich 30 % für Terminologie­korrekturen zahlt sich dieser initiale Aufwand für eine sinnvolle Glossarerstellung schnell wieder aus.

Und schließlich leben Glossare vom Feedback aus genau diesem Nachbearbeitungsprozess. Denn dort fällt auf, welche Vorgaben fehlen oder zu Problemen führen. Glossare sind daher als „work in progress“ zu betrachten, die genauso lebendig sein können wie die Sprachen selbst.

Wohldosierte Terminologie

Terminologie ist eine zentrale Voraussetzung für den sinnvollen Einsatz generativer KI. Glossare sind dabei ein alltagstauglicher Weg, um gewünschte Termini – und damit Fachspezifik – in den maschinengenerierten Output zu integrieren. Sie können den Nachbearbeitungsaufwand beim Posteditieren deutlich reduzieren – und können damit als ideale Unterstützung, aber niemals als Ersatz für eine menschliche Nachkontrolle dienen. Dabei sind die Qualität und Sauberkeit der Terminologiedaten entscheidend. Da jede Vorgabe den gesamten Output beeinflussen kann, kommt auch der Dosierung eine wichtige Rolle zu. Es gilt, die wichtigen Daten zu finden und diese optimal aufzubereiten, um die Systeme positiv zu beeinflussen. Wer die Risiken und Nebenwirkungen kennt und aufgrund der meist großen Datenmengen auf größtmögliche Automatisierung setzt, kommt dabei schnell und hoffentlich schmerzfrei ans Ziel.

Links und Literatur zum artikel

[1] oneword GmbH (2023): Analyseprojekt zur Fehlerklassifizierung in MTPE-Projekten.
[2] Suchowolec, K./Jochum, V.: Verlässlichkeit und Rechtssicherheit KI-generierter Inhalte durch retrieval augmented genereration (RAG) – technische und didaktische Rahmenbedingungen für die Lehre in den Geistes- und Sozialwissenschaften (TermRAG 4 SafeAI). https://ki-edu-nrw.ruhr-uni-bochum.de/ueber-das-projekt/phase-2/praxis-transferprojekte/aktuelle-praxisprojekte/termrag-4-safeai/  [Zugriff am: 31. Januar 2026].
[3] Scansani, R./Dugast, L. (2021): Glossary functionality in commercial machine translation: does it help? A first step to identify best practices for a language service provider. In: Proceedings of the 18th Biennial Machine Translation Summit, Virtual USA, S. 78–88.
[4] oneword GmbH (2025): Analyseprojekt zur Glossarintegration.

Eine Hand hält eine Pipette aus der Flüssigkeit läuft.