Vom Datenchaos zum Sprachschatz

Text: Jasmin Nesbigall

Translation Memorys können schnell und konfus wachsen. Kluges Aufräumen spart Kosten, steigert die Qualität und macht Sprachdaten zukunftsfähig.

Inhaltsübersicht

Lesedauer: 09:47 Minuten

Wer sich zu Schul- oder Studienzeiten mal bei einer Supermarktinventur Geld dazuverdient hat, konnte dabei einiges lernen: Erstens braucht man eine Menge Menschen, um den Bestand eines Supermarkts zu zählen. Zweitens kommen ziemlich viele Dinge bei einer solchen Auszählung zusammen. Drittens ist das Zählen von Schokoladentafeln im Süßigkeitenbereich deutlich angenehmer als das Zählen von Heringssalaten im Kühlregal. Doch trotz hohen Personalaufwands und riesigen Bestands kann eine Inventur im Supermarkt in einigen Dingen punkten: Alles liegt sichtbar, nach Kategorien geordnet und in Regalen einsortiert in einem einzigen Raum.

Bei einer Inventur des eigenen Haushalts sähe das ganz anders aus. Denn der eigene Besitz verteilt sich üblicherweise auf mehrere Räume und ist großteils nicht sichtbar, sondern in Schränken und Schubladen verstaut. Man hat also – außer kurz vor oder nach Umzügen – höchstens eine vage Vorstellung davon, wie viele Dinge man besitzt. Die Fotografin Barbara Iweins wollte es genau wissen und kam auf insgesamt 12.795 Gegenstände in ihrem Haushalt. [1] Da eine Haushaltsinventur keine standardisierte Tätigkeit ist, besteht bei der Auszählung entsprechend viel Spielraum: Zählt man Socken beispielsweise einzeln oder paarweise? Und schlägt ein Korb mit 50 Wäscheklammern mit 1 oder mit 51 zu Buche?

Genau wie sicherlich niemand außer Barbara Iweins die exakte Menge seiner Besitztümer beziffern kann, können auch nur wenige Unternehmen die Größe ihrer Translation Memorys (TM) benennen. Übersetzungsspeicher werden dabei nicht in Socken-, sondern in Segmentpaaren gemessen, in denen ein ausgangssprachliches Segment einer zielsprachlichen Entsprechung zugeordnet ist. Die Anzahl an Segmentpaaren – auch Translation Units genannt – können einige vielleicht „Pi mal Daumen“ angeben, für die meisten dürfte sie aber eine komplette Blackbox sein. Dabei handelt es sich bei TMs um wertvolle Sprachdaten, die aktuell etwa für das Training oder die Anreicherung von KI-Systemen in den Fokus rücken. Für eine sinnvolle Nutzung ist allerdings die Qualität der TMs entscheidend, über die häufig genauso wenig bekannt ist wie über ihre Größe. Es ist also Zeit, Licht ins Dunkel zu bringen und den Datenbestand einer gründlichen Prüfung zu unterziehen.

Gründe für unsaubere TMs

Während der Bestand im Supermarkt – vor allem kurz vor Ladenschluss oder Feiertagen – auch mal deutlich reduziert sein kann, zeigt die Wachstumskurve von Translation Memorys meist nur nach oben. Denn mit jedem Übersetzungsprojekt wächst der Speicher um teilweise Tausende Segmente an. Trotz des kontinuierlichen Wachstums haben die wenigsten Unternehmen allerdings eine Prüf- oder Bereinigungsroutine etabliert, zum Beispiel weil sie oftmals keinen Zugriff auf von Übersetzern und Übersetzerinnen oder Dienstleistern verwaltete TMs haben. Neben der Datenmenge und der fehlenden Routine gibt es weitere Gründe für unsaubere TMs, die in Abbildung 01 dargestellt sind.

Kreis mit Segmenten und Gründen für unsauberes Translation Memory.
Abb. 01 Sechs Hauptgründe für unsaubere Translation-Memory-Daten. Quelle oneword

Gerade wenn Übersetzungen aus unterschiedlichen Quellen – zum Beispiel von unterschiedlichen Dienstleistern – stammen, kann es zu einer Uneinheitlichkeit hinsichtlich Metadaten, Stil oder Qualität kommen. Sind außerdem keine Standards für die Systemeinstellungen etabliert, beispielsweise zum Umgang mit Tags und Placeables, oder stammen die Übersetzungen aus unterschiedlichen CAT-Tools, kann es schnell zu einem Datenwildwuchs kommen.

Da Translation Memorys in Segmente unterteilt sind, spielt die korrekte Segmentierung eine wichtige Rolle. Hierbei sind sowohl die Qualität der Ausgangstexte als auch die Segmentierungsregeln im CAT-Tool entscheidend. Wird ein Satz zum Beispiel layoutbedingt umgebrochen, entstehen daraus zwei Übersetzungssegmente. Tabelle 01 zeigt einen manuellen Umbruch, durch den sich die deutschen und englischen Segmentinhalte nicht mehr entsprechen. Solche Fragmente können ein Übersetzungsrisiko darstellen oder für die Wiederverwendung wertlos sein.

Apropos Wert: Gespeicherte Übersetzungen sind nur dann wertvoll, wenn sie nicht nur formal, sondern auch inhaltlich „sauber“ sind. Dabei kommt es auch auf die korrekte Verwendung von Fachtermini an. Jegliche Terminologiefestlegungen oder Änderungen an bestehender Terminologie ziehen dementsprechend Korrekturbedarf in TMs nach sich, der aber selten mitgedacht und umgesetzt wird.

Es ist immer hilfreich, die Gründe für ein entstandenes Chaos zu kennen, vor allem, wenn man es zukünftig vermeiden möchte. Für eine erfolgreiche Beseitigung dieses Chaos sind allerdings konkrete Ansatzpunkte entscheidend, was alles in TMs geprüft und bereinigt werden kann.

Übersetzungsfragment

Fehlerhafter Umbruch innerhalb eines Satzes und falsche Zuordnung der Segmentteile zwischen Ausgangs- und Zielsprache
DeutschEnglisch
Um sich für unseren Newsletter anzumelden¶Please enter a valid e-mail address
geben Sie bitte eine gültige E-Mail-Adresse an.to subscribe to the newsletter.


Tab. 01 Quelle oneword

Bereinigungspotenzial in TMs

Wenn zwei Menschen mit bisher eigenständigen Haushalten zusammenziehen, haben sie plötzlich viele Dinge doppelt. Während zwei Schneebesen beim Kochen durchaus eine Berechtigung haben, kommen zwei Raclette-Grills höchstens bei größeren Silvesterpartys zum Einsatz. Zwei Tannenbaumständer innerhalb eines Haushalts sind aber definitiv überflüssig. In den meisten Haushalten finden sich außerdem angeschlagene Teller oder Tassen ohne Griff, die zwar grundsätzlich noch funktional, aber eben nicht mehr optimal sind. Auch in Translation Memorys kommen solche doppelten, überflüssigen oder fragmentierten Daten vor und bieten damit viel Potenzial zur Bereinigung.

Die Qual der Wahl

In einem Translation Memory können leicht Dubletten entstehen, etwa durch das Zusammenführen von Beständen, durch dezentrales Arbeiten an der gleichen Datenbank oder durch Tool-Einstellungen, die ein bestehendes Segment nicht überschreiben, sondern neu anlegen. Dubletten sind meist nicht nur überflüssig, sondern können einen enormen Kostenfaktor darstellen. Denn doppelte Einträge erhalten je nach CAT-System einen prozentualen Abzug in der Trefferquote, da keine eindeutige Zuordnung zwischen Ausgangs- und Zielsegment möglich ist. Sie gelten bei einem Wiedervorkommen also nicht als volle TM-Treffer, sondern als unscharfe Treffer, so genannte Fuzzy Matches. Dazu ein Rechenbeispiel:

Ein Satz mit zehn Wörtern kostet bei der Neuübersetzung ins Englische exemplarisch 2 €. In einem Folgeprojekt könnte dieser Satz als Full Match komplett gesperrt und damit nicht berechnet werden. Soll er aber erneut überprüft werden, würde er vergünstigt mit 67 Cent berechnet. Kommt der Satz allerdings als Dublette im TM vor, wird er systemseitig um 1 % abgestuft und als Fuzzy Match behandelt. Die Berechnung erfolgt dann mit 1,34 € und damit doppelt so teuer wie beim Full Match. Hochgerechnet auf Tausende Segmente in einem Übersetzungsprojekt können Dubletten also zu deutlichen und komplett überflüssigen Kosten führen.

Translation Memorys können Dubletten mit komplett identischem Ausgangs- und Zielsegment enthalten oder solche, die nur in einer der beiden Sprachen identisch sind und in der jeweils anderen geringe bis starke Abweichungen haben. Letztere stellen in der Übersetzung einen zusätzlichen Zeitfaktor dar, da beide Optionen geprüft werden müssen, um eine von beiden auszuwählen. Die Bereinigung von Dubletten stellt damit sowohl hinsichtlich ihres Einflusses auf Zeit und Kosten als auch hinsichtlich des Bereinigungsaufwands einen idealen ersten Schritt dar, da Dubletten schnell gefunden und teil­automatisiert bereinigt werden können.

Bruchstücke in der Datenbank

Übersetzungseinheiten können jedoch nicht nur mehrfach, sondern auch unvollständig im TM enthalten sein. Was als Segment gespeichert wird, hängt maßgeblich von der (vor)eingestellten Segmentierung ab. Üblicherweise markieren Satzendzeichen wie ein Punkt oder Fragezeichen ein Segment­ende. Für diese und alle weiteren Satzzeichen wie Doppelpunkte lassen sich aber auch individuelle Segmentierungsregeln definieren.

Grundsätzlich sollte ein Segment immer eine vollständige Einheit darstellen, um optimal wiederverwendet werden zu können. Doch ähnlich dem erwähnten angeschlagenen Geschirr gibt es in vielen TMs bruchstückhafte Segmente, die zum Beispiel aufgrund manueller Umbrüche fragmentiert wurden. Ein zusammengehörender Satz wird dann in mehrere Segmente geteilt, wodurch im schlimmsten Fall (Tab. 01) eine fehlerhafte Zuordnung zwischen den Sprachen erfolgt.

Eine TM-Bereinigung muss also auch bei fragmentierten Segmenten ansetzen, um sie entweder zusammenzufügen oder zu löschen. Ein Anhaltspunkt für das Auffinden solcher Fragmente können das Fehlen eines Satzendzeichens oder das Vorkommen eines Kommas am Segmentende sein.

Wertlos für die Wiederverwendung

Translation Memorys sind Sammelbecken bisheriger Übersetzungen. Da jedes Segment für sich genommen sehr klein ist und wenig Speicher verbraucht, macht die Sammelleidenschaft auch vor überflüssigen Daten nicht Halt. Doch in jeder Datenbank gibt es Segmente, die zwar singulär sowie formal und sprachlich korrekt sind, aber aufgrund ihres Inhalts nicht wieder verwendet werden. Dazu zählen einmalige Pressemitteilungen, Sondernewsletter oder Texte über abgekündigte Produkte. Einmalige Textübersetzungen sollten daher schon bei der Entstehung nicht in den Übersetzungsspeicher übernommen werden. Bei bereits vorhandenen TM-Daten kann es hilfreich sein, nach alten Produktnamen zu suchen und darüber das Erstellungsdatum eines Texts herauszufinden. Weitere Segmente dieses Datums – möglichst exakt mit der Uhrzeit, da an einem Tag oft mehrere Projekte im Speicher landen – lassen sich dann gezielt herausfiltern und löschen.

Das Erstellungsdatum birgt als vermeintlicher Bereinigungshelfer allerdings auch ein Risiko. Denn nur weil ein Eintrag mehrere Jahre alt ist und seitdem nicht verändert wurde (also kein neueres Bearbeitungsdatum in den Metadaten enthält), ist er nicht automatisch irrelevant oder veraltet. Im besten Fall wurde das Segment vor vielen Jahren angelegt und hat seitdem nicht an Aktualität und Korrektheit eingebüßt. Einige CAT-Tools liefern pro Segment noch einen Verwendungszähler, der anzeigt, wie oft ein Segment bisher verwendet wurde. Für eine Bereinigung wäre dieser Zähler grundsätzlich ideal, um beispielsweise alle Segmente älteren Datums, die seit ihrer Erstellung nicht wiederverwendet wurden, zu finden und zu löschen. Die Funktion hat allerdings deutliche Beschränkungen und zählt beispielsweise nicht hoch, wenn ein Match nicht automatisch, sondern manuell aus dem TM entnommen wird. Auch bei der Nutzung der TM-Daten in anderen Applikationen und Tools setzt der Zähler aus und bietet damit keinen verlässlichen Wert für die tatsächliche Nutzung.

Der letzte Datenschliff

Wie in einem Haushalt kommt nach dem Ausmisten und Aufräumen als letzter Aspekt die Sauberkeit ins Spiel. Denn ein sauberer Bestand erhöht die Nutzbarkeit und verhindert das Entstehen von erneutem Chaos. Auch TM-Matches sind besonders wertvoll und gut nutzbar, wenn sie sowohl formal als auch inhaltlich sauber sind. Beispiele für formal-unsaubere Daten sind Tagfehler oder Segmentpaare mit unterschiedlichen Satzendzeichen pro Sprache. Auch eine falsche Ausgangs- oder Zielsprache, die aus mehrsprachigen Anleitungen versehentlich im TM gelandet ist, zählt zu dieser Kategorie. In vielen TMs finden sich außerdem unübersetzte oder als leer geltende Segmente, in denen statt eines Texts nur ein Punkt oder Sonderzeichen stehen.

Zu den inhaltlich unsauberen Daten zählen alle Segmente mit sprachlichen, inhaltlichen oder terminologischen Fehlern. Dazu gehören Rechtschreib- und Grammatikfehler genauso wie falsch oder nicht verwendete Fachtermini oder inhaltliche Mängel in der Ausgangs- oder Zielsprache. Die Prüfung und Bereinigung dieser Fehler erfordert sicherlich am meisten Aufwand und bedarf entsprechender Sprachkenntnis, wohingegen formal unsaubere Segmente auch teilautomatisiert bereinigt werden können. Insgesamt bieten sich je nach fokussiertem Aspekt unterschiedliche Methoden für die TM-Bereinigung an.

Methoden zur Bereinigung

Während es auf die innere Einstellung ankommt, ob man seine Sprachdaten überhaupt bereinigen möchte, kommt es beim Befüllen der TMs auf die äußere Einstellung an, genauer gesagt die Einstellungen innerhalb eines CAT-Tools. Denn genau dort entstehen die zweisprachigen Segmente und werden pro Sprachpaar in ein Translation Memory gespeichert. Dabei kann festgelegt werden, welche Metadaten (zum Beispiel Projektname, Abteilung, Ersteller bzw. Erstellerin) zum Segment gespeichert werden und ob bestehende Matches nach einer Bearbeitung überschrieben oder als Dublette angelegt werden. Features zur TM-Pflege – wie die Suche nach Dubletten – und umfangreiche Filtermöglichkeiten innerhalb der Tools ermöglichen einen simplen Einstieg in die TM-Bereinigung. Beispielsweise kann das standardmäßig gespeicherte Erstellungsdatum eines Segments genutzt werden, um alle Segmente eines bestimmten Projekts herauszufiltern.

Jedes CAT-Tool bietet außerdem die Option, das Translation Memory in unterschiedliche Formate wie .tmx oder .csv zu exportieren. Die Exportformate können anschließend in Texteditoren oder Tabellenprogrammen durchsucht, gefiltert und bearbeitet werden. Dabei kann beispielsweise die Suche nach doppelten Werten beim Auffinden von Dubletten helfen. Reguläre Ausdrücke können hingegen genutzt werden, um fragmentierte Segmente ohne Satzendzeichen aufzuspüren. Nach einer Bereinigung innerhalb eines Exportformats ist es ratsam, das TM komplett neu anzulegen, da durch den reinen Import der aktualisierten Datei bestehende Altdaten nicht gelöscht und zusammengeführte Fragmente als zusätzliches Segment angelegt würden.

Für eine sprachliche oder terminologische Prüfung, aber auch für einige Aspekte der formal unsauberen Daten eines TMs kann die klassische Editorfunktion eines CAT-Tools genutzt werden. Die zweisprachige Exportdatei (zum Beispiel .tmx) wird dort wie ein Übersetzungsprojekt angelegt und anschließend mithilfe der QS-Funktionen auf sprachliche Korrektheit und die korrekt verwendete Terminologie überprüft. Je nach TM-Umfang sollte der Datenbestand dafür eventuell aufgeteilt werden, um eine effiziente Bearbeitung zu ermöglichen. Anschließend kann aus der Datei – wie bei der Exportmethode – ein neues TM angelegt werden.

Da es sich aufgrund des kontinuierlichen Wachstums bei TMs meist um sehr große Datenmengen handelt, ist der Einsatz von Skripten für die Prüfung und Bereinigung als weitere Methode sinnvoll. Per Skript lassen sich sowohl Bereinigungskriterien prüfen als auch konkrete Bereinigungsschritte umsetzen – zum Beispiel das Löschen unvollständiger Segmente. Die Programmierung eines Skripts erfordert allerdings Kenntnisse im Skripting sowie über die Struktur von Sprachdaten. Sind diese gegeben, lassen sich auch individuelle Kriterien umsetzen oder zusätzliche Bereinigungsschritte abdecken.

Den Nutzen weiterdenken

Grundsätzlich kann man also über viele Wege zum Ziel eines sauberen Translation Memorys kommen. Wichtig ist, dass man sich überhaupt auf den Weg macht. Denn durch unsaubere TMs steigen Fehlerpotenzial und Kosten, und das nicht nur für die Übersetzung, sondern auch bei der Nutzung der TM-Daten als mehrsprachiges Trainings- oder Referenzmaterial für Large Language Models und unternehmenseigene KI-Lösungen. Translation Memorys verwandeln sich vor diesem Hintergrund in wahre Linguistic Assets eines Unternehmens, deren Kuratieren – auch in Form einer regelmäßigen Bereinigung – eine immer größere Rolle spielt. Denn ähnlich einer überquellenden Schublade, in der man Gesuchtes nicht auf Anhieb findet, kann auch künstliche Intelligenz aus unsauberen Daten nur schwer das Passende liefern.

Aufgrund des meist großen Datenumfangs und des ständigen Wachstums kommt der passenden Bereinigungsmethode eine große Bedeutung zu. Vor allem Dubletten sind ein guter Ansatzpunkt, um schnell – zum Beispiel teilautomatisiert per Skript – sichtbare Ergebnisse zu erzielen. Denn doppelte Daten können zu deutlich höheren Kosten und Aufwänden im Übersetzungsprozess führen. Doppelt hält also nicht immer besser – weder bei TM-Segmenten noch beim Tannenbaumständer.

Link und Literatur zum Artikel

[1] https://www.geo.de/wissen/gesundheit/12-795-dinge--warum-wir-besitz-anhaeufen--33924120.html 
[2] DIN 8579:2022-07, Übersetzungsgerechtes Schreiben – Texterstellung und Textbewertung

Eine Person steht vor zwei Papierbergen.