Finde den Unterschied

Text: Angelika Zerfaß

Wer kennt das nicht: Man nutzt ein Translation Memory, analysiert neue Dokumente gegen das TM und erwartet eine hohe Wiederverwendungsrate. Aber die Ergebnisse stimmen nicht mit den Erwartungen überein. Woran liegt das?

Inhaltsübersicht

Lesedauer: 11:54 Minuten

Leider fehlt bislang ein Standard, nach dem ein Programm Wörter zählt. So kommt es, dass ein Dokument in Microsoft Word eine andere Wortzahl hat als in einem Übersetzungsprogramm (TM-System) oder einem separaten Wortzählprogramm.

Was ist ein Wort?

Jedes Programm hat also eine eigene Definition, was ein Wort darstellt. Meist ist ein Wort ein Element, das von Leerzeichen oder Interpunktion umgeben ist. Aber schon da scheiden sich die Geister. Besteht das Element „Ein/Aus“ aus zwei Wörtern oder aus einem? Ist der Schrägstrich ein Worttrenner oder nicht? Gleiches gilt bei Elementen wie diesem: „l’Université“ – ist das nun ein Wort oder sind es zwei? Alle Zeichen, die zwischen Wörtern stehen können, können je nach Programm unterschiedlich als Trennzeichen definiert sein. Die Liste der möglichen Trennzeichen umfasst zum Beispiel Bindestrich, Unterstrich, Apostroph, Schrägstrich, mathematische Symbole wie Gleichheits- oder auch Pluszeichen.

Wie viele Wörter vermuten Sie in:

  • fabric-pouch-detail-4_3-1240.jpg

Wird in Microsoft Word gezählt, handelt es sich um eines. Die Textverarbeitung wendet die Regel an, dass Wörter von Leerzeichen umgeben sind. Wird in TM-System A gezählt, ist es auch ein Wort. Wird hingegen in TM-System B gezählt, sind es plötzlich fünf Wörter. Nun könnte man auf die Idee kommen, dass System B eben die Bindestriche als Trenner ansieht. Leider ist es nicht ganz so einfach. System B teilt das Beispiel, wie Tabelle 01 zeigt.

Aufteilung nach Wörtern

Tab. 01 Quelle Angelika Zerfaß

Es zeigt sich also, dass der Bindestrich nur dann ein Trennzeichen darstellt, wenn mindestens auf einer Seite des Bindestrichs eine Zahl steht. Weitere Tests ergeben, dass ein Punkt nicht immer ein Trennzeichen ist, sondern nur dann, wenn davor eine Zahlenkombination mit Bindestrich steht. Die Logik des Programms lässt sich nur mit weiteren, detaillierten Tests einigermaßen erschließen. Durchgeführte Tests:

  • 123.jpg = ein Wort
  • 123_123 = zwei Wörter (Unterstrich ist Trenner)
  • 123_123.jpg = zwei Wörter (nur Unterstrich ist Trenner)
  • 123-123.jpg = drei Wörter (Bindestrich und Punkt sind Trenner)

Diese Ergebnisse zeigen auch, dass es nahezu unmöglich sein wird, in zwei verschiedenen Programmen die gleichen Wortzahlen zu erhalten. Vor allem, da sich die Definition, was wann als Wort gesehen wird, oft nicht so detailliert einstellen lässt.

Eine naheliegende Überlegung ist nun, dass sich die Beteiligten eines Übersetzungsprojekts darauf einigen sollten, mit welchem Programm die Anzahl der zu bearbeitenden Wörter gezählt wird. So lassen sich später Unstimmigkeiten vermeiden.

Auch besondere Elemente, wie zum Beispiel automatische Felder in einem Word-Dokument, werden in Microsoft Word als Wörter gezählt. Das ist aber nicht in allen TM-Systemen der Fall (Abb. 01 + 02).

Abb. 01 Automatisches Feld aus Word in System A, Inhalte erscheinen als Wörter. Quelle Angelika Zerfaß

Abb. 02 Automatisches Feld aus Word in System B, Inhalte erscheinen als Tag. Quelle Angelika Zerfaß

Zudem entscheidet die Art und Weise, wie Texte geschrieben sind, darüber, wie viel Text tatsächlich gezählt wird. Enthält ein Dokument zum Beispiel eine Referenz auf eine bestimmte Seitenzahl („siehe Seite 115“) oder einen Verweis durch einen Link („Hinweise dazu finden Sie hier.“), kommt es darauf an, ob dieser Text mit einer Verweisfunktion erstellt wird und somit eventuell als unübersetzbares Element im Übersetzungssystem auftaucht oder ob der Text nur als reiner Text geschrieben wurde. Bei Hyperlinks zum Beispiel sieht Word den blau unterstrichenen Ausdruck als ein Wort, während Übersetzungsprogramme auch noch den eigentlichen Link im Hintergrund als übersetzbaren Text auslesen können. Es wäre ja möglich, dass der Link für die Zielsprache angepasst werden muss.

So entscheiden also die Hersteller der Translation-Memory-Systeme, was als Wort gilt. Damit erklären sich die Unterschiede, wenn dasselbe Dokument in verschiedenen TM-Systemen ausgezählt wird. Diese Definitionen können sich allerdings ändern. Es kam schon vor, dass in einer Version eines Programms eine Kombination aus Zahl und Maßeinheit (25 km) als zwei Wörter gezählt wurde und in der nächsten Version desselben Produkts dann als ein Wort. Bei Dokumenten, die sehr viele dieser Elemente enthalten, kann das schnell zu enormen Unterschieden führen, was sich dann (kostentechnisch) mit der Anzahl der Zielsprachen multipliziert. Auch hier lautet der Rat, sich nicht nur auf das Programm zu einigen, mit dem Wörter gezählt werden. Falls nötig, sollte auch die Programmversion festgelegt werden.

Manche TM-System erlauben es zudem, Elemente als Wörter zu zählen, die eigentlich keine sind. Dies geschieht zum Beispiel, um Übersetzer, die ja häufig nach der Anzahl der Wörter bezahlt werden, zusätzlich für die Arbeit mit Tags zu vergüten. Das richtige Einfügen von Tags für Formatierung und Referenzen in die Übersetzung dauert manchmal länger als die eigentliche Übersetzung. Um diesen Aufwand zu entschädigen, kann ein Tag zum Beispiel als ein halbes Wort gezählt werden. Die Gesamtwortzahl erhöht sich um ein Wort für zwei Tags.

Um diesen Aufwand von vorne herein zu verringern, kann der Auftraggeber darauf achten, keine für die Übersetzung unnötigen Formatierungen im Dokument zu belassen. Dies bezieht sich vor allem auf Formatierungen von Abständen zwischen Zeichen. Dazu zählen Tracking (Laufweite) oder Kerning (Unterschneidung) in DTP-Programmen. Die Formatierungen werden häufig benutzt, um den Text angenehm lesbar und optisch ansprechend zu gestalten. Da sich aber in der Übersetzung die Länge des Textes häufig ändert, würde man diese Maßnahmen eher im übersetzten Text durchführen. Die Formatierungsinformationen der Ausgangssprache, die alle als Tags dargestellt werden, sind bei der Übersetzung eher hinderlich.

Welcher Text wird ausgezählt?

Eine weitere Ursache für unterschiedliche Wortzahlen bzw. eine unterschiedliche Anzahl von Segmenten kann in der Art und Weise liegen, wie Dokumente in ein Übersetzungssystem importiert werden. Für jedes Dateiformat gibt es zusätzliche Optionen. Mit ihnen kann man festlegen, ob nur die sichtbaren Texte eingelesen werden oder auch verborgene Texte und sonstige Zusatztexte. Auch sind je nach gewähltem Übersetzungssystem die Standardeinstellungen dafür teilweise unterschiedlich. Hier ein paar Beispiele für Importoptionen:

  • Word – Texte in Kommentaren; verborgener Text; Texte der automatisch erstellten Inhaltsverzeichnisse oder nur die dazu benutzten Überschriften; Inhalte von Hyperlinks; Alternativtexte für Grafiken; Objekte aus benutzer- definierten Listen für Steuerelemente, wie Drop-Down-Listen in Formularen
  • PowerPoint – Texte auf Master-Folien; Texte auf Notizseiten; Kommentare; eingebettete Tabellen
  • Excel – Kommentare; Namen der Tabellenblätter; Inhalte aus Formeln; Inhalte von Hyperlinks; Kopf- und Fußzeilen; geschützte Tabellenblätter
  • InDesign – ausgeblendete Ebenen; Inhalte der Vorlageseiten; Inhalte von Querverweisen und Variablen; Dateiinformationen (Metadaten zur Datei); bei Adobe InDesign ist besonders zu beachten, dass einige Übersetzungsprogramme nicht nur den Text extrahieren, der auf der sichtbaren Seite zu sehen ist. Auch Text auf der Montagefläche wird übersetzt. Im Übersetzungsprogramm lässt sich meist leider nicht unter­scheiden, welcher Text woher kommt. Daher passiert es, dass Texte häufig doppelt übersetzt werden. Als Autor kann man hier die Menge an übersetzbarem Text reduzieren, indem überflüssige Texte auf der Montage­fläche gelöscht werden. Erst dann geht das Dokument zur Übersetzung.
  • XML – um XML-Dateien korrekt einlesen zu können, muss über einen passenden Filter festgelegt werden, wo die übersetzbaren Texte stecken bzw. was nicht übersetzt werden soll. Der Auftraggeber kann es seinem Übersetzer erleichtern, einen solchen Filter zu erstellen, indem er genaue Hinweise gibt, zwischen welchen Elementen übersetzbarer Text steht und welche Texte nicht zu übersetzen sind. Auch die Information, dass sich übersetzbare Texte in einem Attribut eines XML-Elements befinden, ist hilfreich, da diese Inhalte mit einem Standard-XML-Filter nicht extrahiert werden. Ein Beispiel zeigt Abbildung 03.

Grün umrahmt: Wenn das Element „emphasis“ nicht als Inline-Element, sondern als Strukturelement gekennzeichnet ist, zerteilt ein Übersetzungssystem den Satz in drei Zeilen (Segmente). Daraus ergibt sich zwar keine unterschiedliche Wortzahl, aber die Trefferquoten aus einem TM-System werden eventuell verringert.

Rot umrahmt: Text des „instruction“-Elements sollte nicht importiert werden, um die Wortzahl auf die tatsächlich übersetzbaren Wörter zu beschränken.

Blau umrahmt: Inhalte von Attributen (hier Element „button“ mit Attribut „value“) müssen als übersetzbar definiert werden, ansonsten werden diese Texte nicht importiert und dementsprechend auch nicht übersetzt.

Grün, Rot und Blau - was soll übersetzt werden und was nicht.

Abb. 03 1. Grün, 2. Rot und 3. Blau markieren, was übersetzt werden soll und was nicht. Quelle Angelika Zerfaß

Welches Dateiformat verwenden Sie?

Auch wenn wir glauben, dass der gleiche Text vorhanden ist, kann es sein, dass TM-Systeme diesen Text anders bewerten. Das liegt zum Beispiel daran, in welchem Dateiformat der Text vorliegt. So ergibt das Auszählen einer PDF-Datei und der dazugehörigen Originaldatei unterschiedliche Wortzahlen, wenn in der Kopf- und Fußzeile Text steht.

Bei Word oder InDesign sind die TM-Systeme intelligent genug, um zu erkennen, dass diese Texte nur einmal übersetzt werden müssen, damit sie überall gleich erscheinen. Bei einem PDF-Dokument weiß man hingegen nicht, wo ein Text ursprünglich herstammt. Das TM-System zählt alles genauso oft, wie es im PDF-Dokument bzw. im daraus konvertierten Word oder Textdokument vorkommt. Enthält das PDF dann auch noch Grafiken mit Text oder wurde die PDF-Datei mit einem OCR-Programm konvertiert, dann erscheinen eventuell noch viel mehr Wörter, als in der Originaldatei gezählt würden. Texte in Bildern können von Übersetzungssystemen grundsätzlich nicht erkannt werden.

PDF eignet sich überhaupt nicht für die Übersetzung, sondern ist „nur zum Lesen“ bestimmt. Die Kosten für den manuellen Aufwand vor bzw. nach dem eigentlichen Übersetzungsprozess können leicht die Kosten der Übersetzung übersteigen.

Ähnlich wie die Unterschiede bei der Wortzahl von PDF und Originalformat kann es auch Segmentzahlunterschiede geben. Ein aus einem PDF konvertiertes Dokument enthält oft Zeilenumbrüche mitten in Sätzen. Daraus können in einem TM-System separate Segmente werden. Die Wiederverwendungsrate des Translation Memorys leidet darunter, da für die zerstückelten Sätze keine oder nur teilweise ähnliche Segmente vorliegen.

Welche Importoptionen verwenden Sie?

Wie bei der Wortzahl haben die Optionen beim Import der Dokumente einen Einfluss auf die Zahl der Segmente. Werden Kommentare, Notizseiten, Vorlageseiten oder Ähnliches mit importiert, ändert sich die Zahl der Segmente für die Übersetzung.

Segmentierung – die Regeln, nach denen ein TM-System einen Text in Segmente zerlegt, entscheiden anhand von Satzzeichen oder Strukturelementen, wie Umbrüchen oder Tabulatoren, wo ein Segment zu Ende ist. Manche dieser Regeln haben Ausnahmen. So besagt die Regel für den Punkt, dass er dann ein Segmentende darstellt, wenn ein Leerzeichen und dann ein Großbuchstabe oder eine Zahl folgen. Allerdings wird der Punkt auch für Abkürzungen verwendet. Selbst dann, wenn darauf ein Leerzeichen und ein Großbuchstabe folgen, sollte keine Segmentierung vorgenommen werden. Die Systeme bieten daher die Möglichkeit, Abkürzungslisten mitzuführen. Besitzt nun Programm A diese Abkürzungsliste, Programm B aber nicht, dann unterscheidet sich voraussichtlich die Anzahl der Segmente eines Dokuments in beiden Programmen.

Weiterhin haben die Dokumentfilter einen Einfluss: Wird ein weicher Zeilenumbruch oder ein Tabulatorzeichen als wirklicher Zeilenumbruch definiert, trennt das System den Satz an diese Stelle in zwei Segmente (Abb. 04).

Ebenso beeinflusst bei getaggten Dateiformaten die Definition der Tags, wo ein Segment zu Ende ist. Ist ein Tag als Struktur-Tag definiert, wird es immer als Segment­ende interpretiert.

Segmentierung bei Strukturzeichen

Abb. 04 Dateifilter mit Einstellung zur Segmentierung bei Strukturzeichen. Quelle Angelika Zerfaß

Welchen Einfluss haben Änderungen?

Die Segmentierung hat einen großen Einfluss darauf, wie hoch die Trefferquoten sind. Das heißt, wie hoch die Ähnlichkeit zwischen einem Segment im Dokument und einem ähnlichen Segment im TM-System ist. Schon kleine Unterschiede, die kaum der Rede wert sind, können aus einem hohen Treffer einen sehr niedrigen oder gar keinen Treffer machen. Im folgenden Beispiel wurde nur das Satzzeichen geändert und ein Kleinbuchstabe in einen Großbuchstaben verwandelt:

  • Drücken Sie die grüne Taste; die Lampe leuchtet.
  • Drücken Sie die grüne Taste. Die Lampe leuchtet.

Für ein Übersetzungssystem ist der erste Satz ein Segment (eine übersetzbare Einheit). Wenn es das Segment so schon im TM-System gibt, ergibt sich ein 100-prozentiger Treffer. Zeile zwei hingegen würde als zwei separate Segmente gesehen. Für keines der beiden würde ein Treffer aus dem TM-System erscheinen, weil die Ähnlichkeit zwischen dem längeren Segment im TM und den beiden einzelnen Segmenten der zweiten Zeile nur um etwa 50 Prozent liegt. Ein Übersetzungssystem zeigt beim interaktiven Übersetzen aber meist erst Treffer ab einer Quote von etwa 70 Prozent an. Meist werden daher auch alle Trefferquoten unterhalb von etwa 70 bis 75 Prozent als Neuübersetzungen berechnet. In diesem Falle würden also zwei neu zu übersetzende Sätze gezählt und abgerechnet.

Welchen Einfluss hat ein Wechsel?

Das wohl größte Problem stellt sich dann, wenn das Translation Memory oder ein Alignment von Dokumentpaaren in Programm A erstellt wurde und das Ergebnis dann per TMX (Translation Memory Exchange Format) in Programm B übertragen wird. Obwohl TMX ein Standardaustauschformat ist, sind die Wiederverwendungsraten zum Teil enttäuschend. Die Suche nach den Unterschieden zwischen Programm A und B beginnt.

Leider berechnen keine zwei Programme die Trefferquoten gleich. Was ein 85-prozentiger Treffer im einen System ist, kann in einem anderen einen höheren bzw. niedrigeren Treffer ergeben.

Andere Faktoren, die die Trefferquoten beeinflussen:

  • Unterschiedliche Handhabung von Tag-Sequenzen – während ein Programm aufeinanderfolgende Tag-Elemente zusammenfasst, versteht ein anderes Programm jedes Tag als einzelnes Element und zählt daher mehr Unterschiede.
  • Einstellungen zum Herabsetzen von Trefferquoten (Abzüge) – sie können auf den Inhalt eines TMs gesetzt werden, auf Metadaten wie Fachgebiet oder auch auf den Urheber einer Übersetzung – sei es eine Person oder die Tatsache, dass die Übersetzung durch ein Alignment im TM gespeichert wurde.

Der Austausch von TMX erlaubt zwar den Transport der Segmentinhalte. Aber teilweise reicht das nicht. Auch Metainformationen, wie zum Beispiel in welchem Kontext ein Segment vorkommt, haben Einfluss auf die Trefferquote. Während ein System explizit das Ausgangssegment vor und nach einem Segmentpaar mitspeichert, speichert ein anderes vielleicht nur einen Code. Kontexttreffer aus dem einen System werden daher maximal als 100-prozentige Treffer in einem anderen System erscheinen können.

Beispiele für die unterschiedliche Art und Weise, wie Kontext in einem TM abgelegt werden kann, zeigt Tabelle 02.

Übersetzung eines Segments

Tab. 02 Quelle Angelika Zerfaß

Beim Umstieg von einem TM-System auf ein anderes oder bereits beim Wechsel des Dateiformats können sich die Trefferquoten zwischen zehn und 20 Prozent verschlechtern. Teilweise lässt sich das durch Veränderungen im Translation Memory angleichen. Steigt man von einem Dateiformat mit vielen Formatierungen wie Word oder InDesign auf eines mit weniger Textformatierungen um, wie XML, dann lässt sich das TM folgendermaßen anpassen: Man exportiert die vorhandenen Segmente, entfernt die Formatierungstags und importiert die Segmente wieder zurück ins TM. Das erhöht zwar die Anzahl der Segmente im TM, führt aber dazu, dass für die XML-Dateien nun höhere Treffer (ohne Formatierungs-Tags) zur Verfügung stehen.

Oft kommen mehrere Dinge zusammen: Die Wortzahlen unterscheiden sich, weil verschiedene Importoptionen verwendet wurden, die Segmentzahlen unterscheiden sich, weil unterschiedliche Abkürzungslisten in den beiden Systemen vorliegen, und die Trefferquoten sind nicht wie erwartet, weil unterschiedliche Dateiformate für das TM und für die jetzige Übersetzung vorliegen.

Bei einem Systemwechsel empfiehlt sich also ein ausführlicher Test, wie die Altdaten am besten übernommen werden können. Außerdem, welche Einstellungen im neuen System sinnvoll sind, um die besten Trefferquoten zu erzielen.

Wie sieht es mit einem Standard aus?

Es stellt sich die Frage, ob es nicht einen Standard für die Berechnung von Wortzahlen gibt? Und tatsächlich, es ist ein Ansatz vorhanden, die Aufwandsberechnung zu standardisieren. Dies wurde mit dem Standard GMX-V versucht (zu finden bei GALA) [1]. Allerdings ging es hier nicht um die Definition, was ein Wort darstellt. Vielmehr möchte man den Aufwand einer Übersetzungsdienstleistung möglichst umfassend beurteilen. Oft geht es ja nicht nur um die reine Übertragung von Texten, sondern zusätzlich um die Anpassung von Grafiken, das Erstellen von Screenshots oder auch das Anpassen eines Layouts.

Den Herstellern von Übersetzungssystemen ist allerdings nicht so sehr daran gelegen, eine einheitliche Art und Weise der Wortzählung oder der Berechnung von Trefferquoten einzuführen. Dies würde die Unterschiede zwischen den Systemen weiter verringern. So angenehm es für die Nutzer auch wäre, ohne Verluste von einem System zum anderen wechseln zu können, kann man es den Herstellern nicht verdenken, dass sie eine solche Möglichkeit nicht unbedingt anbieten wollen. 

Link zum Beitrag

[1] www.gala-global.org/gmx-v-10

Quelle CSH, istock