Auf dem Weg zu sauberer Terminologie

Text: Jasmin Nesbigall

Zu einem gut nutzbaren Terminologiebestand gehören auch dessen regelmäßige Prüfung und Bereinigung. Menge, Struktur, Metadaten, Formales und Inhalt lauten die Aspekte, die beim Aufräumen eine wichtige Rolle spielen.

Inhaltsübersicht

Lesedauer: 10:59 Minuten

Daten sammeln sich gefühlt so schnell an wie Staub. Besonders bewusst kann uns das mit Blick in unseren Fotoordner auf dem Smartphone werden: Ein Bild vom weit entfernten Silvesterfeuerwerk liegt neben einem Foto vom aktuellen Stand des Stromzählers. Die leicht verwackelte Aufnahme einer Speisekarte vom Lokal an der Ecke fristet dort genauso ihr Dasein wie fünf fast identische Bilder vom Abendessen mit Freunden, auf denen immer mindestens eine Person die Augen geschlossen hat. Erinnerungspotenzial? Null. Zukünftige Nutzung? Eher unwahrscheinlich.

Ganz ähnlich sieht es in vielen Unternehmen beim Thema Terminologie aus. Sobald mit dem Terminologiemanagement begonnen wird, entwickelt sich manchmal eine wahre Sammelleidenschaft für Fachtermini. Unterschiedlichste Bestände wie abteilungsweite oder individuelle Terminologielisten werden gesichtet und zusammengeführt. Weitere Termini werden aus Unternehmensdokumenten extrahiert oder bei Neuentwicklungen festgelegt. Schnell kann es dabei zu Wildwuchs kommen, vor allem, wenn (noch) keine Standards festgelegt wurden oder diese erst spät im Prozess etabliert werden.

Da eine saubere Terminologiedatenbank allerdings deutlich auf deren Nutzbarkeit und Qualität einzahlt, sollte auch die Bereinigung der Daten von Zeit zu Zeit in den Blick genommen werden. Denn Terminologie nimmt eine Schlüsselposition im Unternehmen ein, deren Qualität sich direkt in Zeitersparnissen bei Folgeprozessen wie der Texterstellung, Übersetzung und Kommunikation auswirken kann. Doch wo schlummert überall Bereinigungspotenzial und wie kann man es erschließen?

Die Wurzeln der Unordnung

Es lassen sich vier Hauptgründe für unsaubere Terminologiedaten finden, die aus Abbildung 01 hervorgehen. Viele Unternehmen besitzen eine umfangreiche Datenbank, die über Jahr(zehnt)e gewachsen ist oder aus unterschiedlichen Beständen zusammengeführt wurde. Dieses Wachstum findet selten komplett homogen und regelkonform statt, da es nicht von Anfang an Standards für die Befüllung und Bearbeitung gibt oder da mehrere Personen, Abteilungen oder Dienstleister die Datenbank bearbeiten können. Auch beim Wechsel zwischen Verwaltungssystemen kann es aufgrund uneinheitlicher Vorgaben zu Fehlern und Datenverlusten kommen.

Der ausgeprägten Sammelleidenschaft steht meist keinerlei Routine gegenüber, um den Bestand regelmäßig zu prüfen und zu bereinigen. Und die Überzeugung, dass jeder Terminus für die Texterstellung oder Übersetzung wertvoll sein könnte, geht mit einer großen Skepsis einher, vorhandene Daten zu löschen. Genau wie beim Blick in den vollen Fotoordner ist es allerdings auch bei Terminologie schwer, aus einer überquellenden Datenbank das Gesuchte zu finden.

Grafik stellt die Gründe für unsaubere Terminologie dar.
Abb. 01 Vier Hauptgründe für unsaubere Terminologiedaten. Quelle oneword

Fünf Etappen bis zum Ziel

Wer seinen Fotobestand aufräumen möchte, wird wahrscheinlich bei offensichtlich überflüssigen Bildern wie unscharfen, zu hellen oder zu dunklen Aufnahmen anfangen. Im nächsten Schritt kommen vielleicht doppelte Fotos vom gleichen Motiv an die Reihe. Außerdem Bilder, bei denen nicht ersichtlich ist, warum man sie überhaupt gemacht hat. Erst zum Schluss wird man sich den Fotos im Detail widmen und zum Beispiel diejenigen löschen oder zuschneiden, auf denen mindestens eine Person die Augen geschlossen hat.

Für Terminologie lassen sich vergleichbare Ansatzpunkte finden, um Bereinigungspotenzial aufzudecken und umzusetzen. Abbildung 02 zeigt die fünf Aspekte Menge, Struktur, Metadaten, Formales und Inhalt, die dafür betrachtet werden können. Dabei bezieht sich die trichterförmige Darstellung nicht unbedingt auf den Umfang und den Aufwand pro Aspekt, sondern vor allem auf die sinnvolle Abfolge. Denn eine formale oder inhaltliche Bereinigung sollte nur für Einträge erfolgen, die überhaupt in der Datenbank bleiben sollen. Man würde schließlich auch keine roten Augen auf Fotos korrigieren, wenn die Fotos anschließend gelöscht werden.

Säule stellt die fünf Ansatzpunkte zur Terminologiebereinigung dar.
Abb. 02 Fünf Ansatzpunkte zur Terminologiebereinigung. Quelle oneword

Der Ansatzpunkt Menge – also die Anzahl an Einträgen und darin enthaltenen Termini – muss also als Erster betrachtet werden. Es folgt die Struktur und damit der Aufbau einer Datenbank und ihrer beschreibenden Felder. Damit Hand in Hand gehen die Metadaten, also die Inhalte und Werte dieser Felder. An vierter Stelle werden formale Aspekte in Einträgen und Termini betrachtet, bevor als Letztes die Inhalte und Bezüge der Einträge und Termini geprüft werden. Dabei können je nach Ansatzpunkt unterschiedliche Methoden sinnvoll sein, um das Bereinigungspotenzial zu ermitteln.

Methoden zur Bereinigung

Smartphones und Foto-Apps bieten einen Bereinigungsassistenten, der ähnliche Bilder gruppiert, das beste Bild aus einer Serie vorschlägt und auch unscharfe, über- oder unterbelichtete Aufnahmen zum Löschen herausfiltert. Ganz so simpel funktioniert die Analyse in Terminologieverwaltungssystemen meist nicht. Aber einige Datenbankfeatures, etwa die Dublettensuche, können die Bereinigung deutlich erleichtern. Ein Vorteil bei der Arbeit innerhalb der Datenbank ist, dass weder ein Zusatzprogramm noch Zusatzkenntnisse benötigt werden. Gerade für umfangreiche Bereinigungen sind allerdings meist viele Klicks nötig, da Batch-Bearbeitungen nur sehr eingeschränkt unterstützt werden. Außerdem bleiben die Möglichkeiten – zum Beispiel hinsichtlich bestimmter Filter und Funktionen – auf die Features des jeweiligen Tools beschränkt.

Wird ein Überblick über alle Inhalte benötigt und sind größere Überarbeitungen vorgesehen, zum Beispiel das globale Ersetzen von Werten oder die Umstrukturierung vorhandener Felder, bietet sich als zweite Option die Arbeit in Exportformaten an. Wird dabei zum Beispiel auf einen Export im Excel-Format gesetzt, sind gezieltere und kombinierte Filter sowie die Bearbeitung im Batch möglich. Nach erfolgter Umsetzung der Bereinigung ist entweder ein Import in die bestehende Datenbank oder eine Neuanlage der sauberen Daten nötig. Je nach Kenntnis im Umgang mit dem Exportformat und je nach Bearbeitungsumfang kann allerdings auch bei Exporten ein hoher manueller Aufwand entstehen.

Überall dort, wo manuelle Arbeit automatisiert werden soll, wo bestimmte Regeln angewandt werden können und große Datenmengen zu bearbeiten sind, bieten sich Skripte als sinnvolle Unterstützung an. Sie sind sowohl bei der Analyse des Bereinigungspotenzials als auch bei der Bereinigung selbst einsetzbar, beispielsweise um Werte umzubenennen, umzusortieren oder komplett zu löschen. Für die Skripterstellung müssen Regeln für die Bereinigungsanalyse oder -durchführung definiert werden, deren Ausführung dann per Skript erfolgt. Neben dem Wissen über Terminologiearbeit und Terminologiedatenstrukturen sind dafür aber natürlich auch Skripting-Kenntnisse nötig. Jede der drei Methoden kommt für mindestens einen der fünf Bereinigungsaspekte infrage, oft sind auch alle drei möglich.

Startschuss zur Bestandsreduzierung

Allein mit Blick auf die Effizienz aller Folgemaßnahmen ist es sinnvoll, sich als Erstes mit der Eintragsmenge einer Datenbank zu beschäftigen. Denn jeder aussortierte Eintrag muss in den folgenden Schritten nicht mehr berücksichtigt werden. Auch wenn viele Unternehmen nicht mit Sicherheit sagen können, woher alle ihre Terminologiedaten stammen, besteht eine große Skepsis, Daten zu löschen. Schließlich stecken in jedem Eintrag Zeit und Geld für dessen Erstellung, Vervollständigung und Pflege.

Für ein Aussortieren ist es daher wichtig, die tatsächlich verwendete und damit benötigte Terminologie zu ermitteln. Hierbei bietet sich eine skriptbasierte Bestandsanalyse an, die den Terminologiebestand mit zusammengestellten Unternehmenstexten abgleicht. Dafür können Dokumentsammlungen aus unterschiedlichen Bereichen und Abteilungen genauso herangezogen werden wie Translation Memorys. Durch die Analyse wird der aktive Datenbankanteil ermittelt, indem jeder Terminus auf sein Vorkommen und seine Häufigkeit in den Texten untersucht wird. Letztere ermöglicht eine Priorisierung der aktiven Terminologie, was für geplante Folgeschritte wie Definitions- oder Glossarerstellungen hilfreich sein kann.

Wie sehr eine Bestandsanalyse auf den Ansatzpunkt der Menge einwirken kann, zeigen Ergebnisse aus Projekten der oneword GmbH. Teilweise enthielten Datenbanken nur 20 bis 30 Prozent aktive Terminologie. [1] Vor allem bei umfangreichen Datenbanken mit über 5.000 Einträgen ist der Anteil inaktiver Terminologie meist hoch. Der anfangs genannten Skepsis beim Aussortieren lässt sich begegnen, indem der inaktive Teil der Datenbank nicht gelöscht, sondern als inaktiv gekennzeichnet wird. Damit können sowohl der aktive als auch der inaktive Teilbestand angezeigt, gefiltert und bearbeitet werden. Die Kennzeichnung sollte mit einer Regel einhergehen, dass bei einer Bearbeitung oder Nutzung eines inaktiven Eintrags die Kennzeichnung entfernt und der Eintrag entsprechend zur aktiven Terminologie hinzugefügt wird. Nach einem festgelegten Zeitraum können inaktive Einträge dann guten Gewissens gelöscht werden. Alternativ kann der Kenner bzw. die Kennzeichnung auch nur für die aktive Terminologie gesetzt und damit der wirklich genutzte Anteil bzw. die Kernterminologie eines Unternehmens markiert werden.

Zwei Hürden auf einmal

Beim Setzen eines Kenners befindet man sich bereits in der Datenbankstruktur. Die Struktur einer Datenbank ist vergleichbar mit Fotoalben und Kisten, in die Fotos sorgfältig einsortiert oder lose hineingelegt werden können. Im Idealfall gibt es auch in Terminologiedatenbanken für jede Information einen Ort, an dem sie perfekt aufgehoben ist. Der Ort ist dabei die Struktur, die Informationen sind die Metadaten. Dabei wird nach Eintrags-, Sprach- und Terminusebene unterschieden, auf denen Felder und Informationen angelegt werden können.

Um Struktur und Metadaten zu bereinigen, gilt der erste Blick den vorhandenen Feldern und folgenden Fragen:

  • Welche Felder gibt es bereits?
  • Auf welcher Ebene ist ein Feld angelegt?
  • In welcher Datenkategorie ist ein Feld angelegt?
  • Wie ist das Feld benannt?
  • Welche Informationen sind dort enthalten?
  • Gibt es für alle benötigten Informationen ein passendes Feld?

Neben der sinnvollen Struktur und der Vollständigkeit ist auch die Eindeutigkeit entscheidend. Es muss sowohl klar sein, für welche Information ein Feld vorgesehen ist als auch, welche Information man in einem bestimmten Feld finden kann.

Ein Negativbeispiel ist eine Datenbank mit dem Feld „Verwendung“, in dem sowohl „bevorzugt“ als auch „freigegeben“ als Werte auswählbar sind. Dieses Feld ist nicht eindeutig, da neben der Verwendungsinformation auch der Freigabestatus enthalten ist (Abb. 03). Als Lösung wird das zusätzliche Feld „Freigabestatus“ angelegt und der bisherige Feldinhalt sortiert und getrennt. Bei der Prüfung auf Bereinigungspotenzial auf Struktur- und Metadatenebene kann auch auffallen, dass Felder zusammengefasst werden sollten, wenn sie Informationen gleicher Art enthalten.

Beispiel für einen guten und einen schlechten Eintrag in einer Terminologiedatenbank.
Abb. 03 Vermischung von Feldwerten im Feld "Verwendung" und korrekte Auflösung auf die beiden Felder "Verwendung" und "Freigabestatus". Quelle oneword

Neben der Eindeutigkeit der Felder, zu der auch ein eindeutiger Feldname zählt, ist die Auswahl der Datenkategorie für eine sinnvolle Nutzung der Datenbank entscheidend. [2] Terminologieverwaltungssysteme bieten hierfür unterschiedliche Optionen, zum Beispiel Freitextfelder, Auswahllisten, Multimedia-Felder für Abbildungen und Videos sowie ja/nein-Felder. Ein Freitext kommt üblicherweise bei Definitionen, Kommentaren und Kontextsätzen zum Einsatz, während Auswahllisten die ideale Kategorie bei einer begrenzten Anzahl möglicher Werte sind.

Die praktische Umsetzung der Struktur- und Metadatenbereinigung kann je nach Zielsetzung über alle drei oben genannten Methoden erfolgen: Fehlende Metadaten können beispielsweise über Filterfunktionen innerhalb der Datenbank gefunden werden. Das Löschen, Zusammenfassen oder Aufteilen von Feldern erfolgt am besten in einem Exportformat. Umfangreiche Umstrukturierungen und globale Änderungen lassen sich wiederum gut per Skript durchführen.

Wurde für jede Information ein passender Platz gefunden, macht sich dies durch eine bessere Nutzbarkeit und Auffindbarkeit bemerkbar: Informationen sind eindeutig(er) und können gezielter gefunden werden. Auch andere Prozesse, beispielsweise eine Glossarerstellung für maschinelle Übersetzung, profitieren von sauberen Metadaten, besonders von eindeutigen Verwendungsinformationen.

Vermeintlich kleine Stolpersteine

Ob ein Terminus groß- oder kleingeschrieben ist, erscheint auf den ersten Blick wie eine sprachliche Feinheit. Doch spätestens bei der Nutzung der Terminologie in Drittsystemen wie Autorenunterstützungen oder Übersetzungstools kann sich der Aufwand für eine immer wiederkehrende Anpassung eines Terminus schnell aufsummieren. Nötige Korrekturen sollten daher nachhaltig in der Datenbank vorgenommen werden, um von dort alle anderen Systeme zu bedienen.

Typische Beispiele für formalen Bereinigungsbedarf sind neben der Groß- und Kleinschreibung auch die Verwendung von Pluralformen, Sonderschreibweisen wie Kapitälchen und Klammereinschübe innerhalb von Benennungen (Abb. 04).

Negativbeispiel für einen Terminologieeintrag und dessen Korrektur in einem neuen Eintrag.
Abb. 04 Klammereinschub innerhalb eines englischen Terminus und Auflösung in zwei Termini. Quelle oneword

Da es sich bei formalen Bereinigungsaspekten um eine begrenzte Anzahl von Fehlerquellen handelt, kann die Prüfung optimal durch Filter innerhalb der Datenbank oder durch ein Skript unterstützt werden. Dieses hat den Vorteil, dass sich unternehmensspezifische Besonderheiten jederzeit durch eine Erweiterung des Skripts abbilden lassen und dass die Ergebnisse auch bei umfangreichen Beständen schnell vorliegen. Auch die Umsetzung der formalen Bereinigung kann meist sehr schnell erfolgen, da einige Bereinigungsschritte im Batch über alle Termini und Sprachen hinweg erfolgen können. Eine Anpassung der Groß- und Kleinschreibung kann aber auch mithilfe einer entsprechenden Formel in Excel optimal unterstützt werden, um manuelle Korrekturen zu vermeiden. Wieder einmal führen also mehrere Methoden zum Ziel, das nach Bereinigungsaspekt Nummer vier nicht mehr weit ist.

Das Ziel in Sicht

Vor allem zwischen der formalen und der inhaltlichen Bereinigung gibt es einige Grauzonen. Je nach Ausprägung sind sie eher dem einen oder dem anderen Aspekt zuzuordnen. Wenn ein Unternehmen beispielsweise Regeln für Bindestrichschreibweisen festlegt, kann dies sowohl zu formalem als auch zu inhaltlichem Korrekturbedarf an den Terminologiedaten führen. Wurde eine Regel für einen Bindestrich nach Produktnamen eingeführt, handelt es sich eher um eine formale Bereinigung. Geht es aber um die Abtrennung von Lehnwörtern, die im Deutschen nicht etabliert sind, kommen inhaltliche Aspekte ins Spiel. In diesem Fall müsste zum Beispiel entschieden werden, welche Schreibweise für die Termini „Bedienpanel“, „Bedienkonsole“ und „Bedientableau“ gelten soll. Zur inhaltlichen Bereinigung gehört auch die Prüfung, ob alle Vorkommnisse mit gleichen Wortbestandteilen konsistent geschrieben und verwendet werden. Auch die Gruppierung von Synonymen und das Auflösen von Mehrdeutigkeiten fallen unter diesen Bereinigungsaspekt.

Für Synonyme und Mehrdeutigkeiten kann der Terminologiebestand auf Dubletten – also doppelte Vorkommnisse innerhalb einer Sprache – untersucht werden. Diese werden anschließend darauf geprüft, ob es sich um unterschiedliche Begriffe handelt oder ob die Dubletten das Gleiche meinen und zusammengeführt werden können. Wird die Dublettenprüfung auch für eventuell vorhandene Fremdsprachen durchgeführt, können darüber Synonyme in der Ausgangssprache oder womöglich eine fehlende Differenzierung in der Fremdsprache aufgedeckt werden.

Viele Terminologieverwaltungslösungen bieten eine Dublettenprüfung als Datenbank-Feature an. Doch auch Excel eignet sich hierfür gut dank der Funktion „Doppelte Werte hervorheben“. Eine Prüfung per Skript ist ebenfalls möglich, wodurch Ergebnisse gesammelt vorliegen und vor allem bei großen Datenbeständen effizient bearbeitet werden können.

Gut strukturiert und relevant

Die Bereinigung von Terminologiedaten ist sicherlich kein Sprint, muss aber auch kein Marathon sein. Wie bei jedem Aufräumen hilft es zu wissen, wo man ansetzen kann. Wichtig ist dabei, als Erstes die Menge in den Blick zu nehmen, da der inaktive Datenanteil in vielen Beständen sehr hoch ist. Durch eine saubere Struktur findet jede Information einen passenden Platz, was die Nutzbarkeit der Datenbank deutlich erhöht. Aus den gezeigten fünf Bereinigungsaspekten können auch nur die ausgewählt werden, die aktuell innerhalb eines vorgegebenen Budgets oder Zeitrahmens umsetzbar sind. Neben Regeln und Routinen für die Bereinigung können die technischen Kenntnisse der Bereinigungsmethoden entscheidend für den Erfolg sein. Eine wachsende Bedeutung kommt hierbei Skripten zu, da sie in allen genannten Aspekten unterstützen und sowohl bei der Analyse als auch bei der Bereinigung selbst eingesetzt werden können.

Gerade wenn Terminologiedaten unternehmensweit genutzt werden sollen, ist eine saubere Datenbank das A und O. Von einer Australienrundreise macht man auch am besten ein Fotobuch mit den Highlights und erwartet nicht, dass sich die Familie alle unsortierten 1.000 Aufnahmen ansieht, auf denen teilweise nur ein Kaktus zu sehen ist. Genauso ist eine Terminologiedatenbank auch eher vorzeig- und nutzbar, wenn sie gut strukturiert ist und nur relevante Inhalte enthält. Wenn man das geschafft hat, kann man auch ruhig mal ein Foto davon machen.

Literatur zum Artikel

[1] oneword GmbH (2024): Vorkommens- und Frequenzanalyse.
[2] DIN ISO 26162-1:2020-05, Management von Terminologieressourcen – Terminologiedatenbanken – Teil 1: Design.
[3] Deutscher Terminologie-Tag e. V. (Hrsg.) (2014): Terminologiearbeit – Best Practices 2.0. Köln.

Ein Mann mit Bart und Gummihandschuhen hält einen Besen in den Händen.