Prompt zur Extraktion

Text: Jasmin Nesbigall

Die Extraktion ist ein wesentlicher Schritt der Terminologiearbeit. Es bedarf dabei Genauigkeit und Expertise, um Fachtermini aus einem Textbestand herauszuziehen. Kann diese Aufgabe auch von künstlicher Intelligenz unterstützt werden?

Inhaltsübersicht

Lesedauer: 11:35 Minuten

Das Wort „Extraktion“ ruft je nach eigener Erfahrung oder dem Tätigkeitsbereich sehr unterschiedliche Assoziationen hervor. Während die einen Pipetten und Reagenzgläser vor Augen haben, denken andere an Pflanzenwurzeln oder Pinzetten. Wer gerne Kaffee trinkt, dem steigt vielleicht direkt der Duft von frisch aufgebrühtem Espresso in die Nase. Zahnarztpatientinnen oder -patienten fühlen hingegen einen Phantomschmerz im längst gezogenen Backenzahn.

Extraktion ist also ein Wort mit vielen Bedeutungen und Anwendungsbereichen. Laut Duden geht es dabei schlicht um das „Herausziehen“. Die Google-Bildersuche liefert wiederum die ganze genannte Bandbreite: von Versuchsaufbauten aus der Chemie, um feste Stoffe mithilfe eines Lösungsmittels auszulaugen, über Bilder von Kaffeemaschinen bis zu vereinzelten, eher abschreckenden Treffern aus der Zahnmedizin. Von der Termextraktion findet sich allerdings kein Bild, obwohl sie in Technischer Redaktion und Übersetzung sicherlich die häufigste Extraktionsform ist und als Identifizieren von Zeichenfolgen aus einem Textkorpus definiert wird. [1] Sie ist häufig der erste Schritt, um Fachterminologie zu gewinnen. Was Chemie, Zahnmedizin und Terminologiearbeit jedoch gemeinsam haben: Die Extraktion erfordert Akribie und Fachwissen.

Auch wenn wir uns nur innerhalb des Kontextes der Termextraktion bewegen, werden abhängig vom Tätigkeitsbereich unterschiedliche Ziele verfolgt: Während Terminologinnen und Terminologen einen Terminologiebestand erstellen oder bestehende Terminologie erweitern, benötigt die Technische Redaktion die extrahierten Termini zur Erstellung und Kontrolle der Ausgangstexte. Fachleute für Übersetzungen wiederum nutzen Terminologie zur Erstellung sachlich korrekter und konsistenter Zieltexte sowie zur Qualitätskontrolle. [2] Erfolgt eine Extraktion zum ersten Mal und mit dem Ziel, einen Terminologiebestand komplett neu aufzubauen, ist mit einem hohen initialen Aufwand zu rechnen. Dieser entfällt auf die Zusammenstellung der Dokumente, die Durchsicht der Texte und die Entscheidung über enthaltene Fachtermini.

Grenze des menschlich Machbaren

Die grundlegendste Option dabei und gleichzeitig der Goldstandard ist die manuelle Extraktion. Denn Menschen bringen im besten Fall genau die für diese Aufgabe erforderliche Akribie und Expertise in den Prozess ein. Das Herausziehen von Termini erfolgt dabei entweder bereits bei der Texterstellung oder -prüfung oder korpusbasiert aus bereits vorhandenen Texten. Extraktion und Validierung – also die Auflistung von Termkandidaten und deren Einstufung als Fachterminus – sind hierbei grundsätzlich deckungsgleich, da nur als sachgebietsrelevant eingestufte Termini überhaupt extrahiert werden. Jeder Terminus wird außerdem im Kontext gesichtet und bewertet, so dass bei entsprechender Eignung direkt auch ein Kontextsatz erfasst werden kann, um den Terminus anzureichern. Bei der menschlichen Validierung spielen zudem weder die Häufigkeit der Termini im Textbestand noch deren Außergewöhnlichkeit oder Komplexität eine Rolle.

Eine manuelle Extraktion erfordert im Normalfall eine Nachbearbeitung, um Plural- oder Flektionsformen in ihre Grundform zu bringen. Und auch wenn Expertise und Akribie gegeben sind, fallen diese von Mensch zu Mensch unterschiedlich aus. Subjektivität spielt also eine große Rolle, da zwei Personen wahrscheinlich nie zum exakt gleichen Ergebnis kommen werden. Einerseits fehlen dafür objektive Bewertungskriterien, wann ein Wort als Fachterminus gilt. Andererseits hängt das Ergebnis immer auch von Vorwissen und Vorgaben, zum Beispiel zur Eingrenzung eines Sachgebiets ab.

Doch vor allem bei Zeit und personellen Ressourcen stößt manuelle Termextraktion ab einem gewissen Umfang an Dokumentmengen und -größen an ihre Grenzen. Pa­rallel steigt die Fehleranfälligkeit, da Termini aufgrund schwindender Konzentration entweder mehrfach erfasst oder übersehen werden können.

Softwaregestützte Termextraktion

Wo die Grenze des menschlich Machbaren erreicht ist oder der Prozess beschleunigt und teilautomatisiert werden soll, kommt die softwaregestützte Termextraktion ins Spiel. Sie kann mit spezialisierter Software als Stand-alone-Version erfolgen oder als Feature anderer Software genutzt werden, beispielsweise in Terminologieverwaltungslösungen oder Autorenunterstützungen. Im Vergleich zum Menschen können Extraktionstools auch mit großen Datenmengen gleichbleibend zuverlässig umgehen. Zusätzlich stehen viele weitere Informationen direkt zur Verfügung, um die Ergebnisse anzureichern. Dazu zählen Häufigkeit eines Terminus, Quellenangaben oder Kontextsätze.

Je nach eingesetztem Tool und dessen Funktionsweise sind die Ergebnisse und Aufwände für die softwaregestützte Extraktion allerdings sehr unterschiedlich. Innerhalb einer Autorenunterstützung ist die Extraktion meist Teil eines Workflows, um während des Prüfvorgangs neue Termini zu erfassen. Diese können dann als Vorschläge und zusammen mit einem passenden Kontextsatz in die Datenbank aufgenommen und dort geprüft werden.

Linguistische Extraktionstools – wie sie teils in Autorenunterstützungen, aber auch als eigenständige Software angeboten werden – liefern dabei generell terminologisch saubere Ergebnisse. Sie verarbeiten morphologische, syntaktische und semantische Informationen, erkennen dadurch beispielsweise Ableitungsvarianten und können Vorschläge zu möglichen Synonymen machen. [3] Linguistische Systeme arbeiten dafür sprachabhängig, so dass ihr Einsatzgebiet meist auf wenige Sprachen beschränkt ist.

Statistische Extraktionssoftware analysiert dagegen sprachunabhängig die Wort­häufigkeit aus Zeichenketten. Extraktion und Validierung können dabei allerdings weit auseinander gehen, da die Software lediglich ein Rohergebnis an Termkandidaten liefert. Je nach Einstellungen, beispielsweise zum Datenrauschen (Silence-Noise-Ratio), werden in der Praxis teilweise nur zehn bis 20 Prozent der vorgeschlagenen Termkandidaten validiert.

Der Arbeitsaufwand kann also auch beim Einsatz von Software noch hoch sein. Und überall dort, wo manuelle und bisher aufwendige Aufgaben unterstützt oder automatisiert werden sollen, erfolgt aktuell der Blick auf die Einsatzmöglichkeiten von künstlicher Intelligenz.

Mit künstlicher Intelligenz

Auf den ersten Blick scheint die Termextraktion gut geeignet für Large Language Models (LLMs), da deren Stärke etwa darin liegt, gezielt Informationen aus großen Textkorpora zu ziehen. Ein LLM kann außerdem semantische Ähnlichkeiten erkennen und weiß aufgrund gelernter Wortwahrscheinlichkeiten, welche Wörter zusammenstehen oder in ähnlichen Kontexten vorkommen. Damit können extrahierte Termini direkt gruppiert und Synonyme erkannt werden. Auch Kontextsätze können aus dem Textkorpus ex­trahiert oder vom LLM neu erstellt werden.

Für die bereits genannte erforderliche Akribie und Fachexpertise sind die Modelle allerdings nicht gerade berühmt. Und anders als Software für die Extraktion greift ein KI-System nicht nur auf die eingegebenen Daten, sondern auch auf Milliarden von Wörtern an Trainingsmaterial zurück. Wie verlässlich kann KI also den Prozess der Termextraktion unterstützen?

Bei der Nutzung generativer KI kommt dem Prompting eine besondere Bedeutung zu. Prompting ist die Formulierung einer Arbeitsanweisung an das Large Language Model, damit dieses eine Aufgabe erfüllen und Output generieren kann. [4, 5] Wenn ein Large Language Model also für die Termextraktion eingesetzt werden soll, müssen für diese Aufgabe sinnvolle und zielführende Prompts formuliert werden.

Dabei können unterschiedliche Strategien für das Prompting verfolgt werden. In eigenen Tests der oneword GmbH zur Termextraktion wurde beispielsweise als Basis ein naiver Prompt (P1) ohne Spezifizierung der Aufgabe oder des Sachgebiets verwendet (Beispiele für Prompts zeigt Tabelle 01). Anschließend wurde ein Sachgebiet angegeben (= Domain-Specific Prompting, P2) und in einem weiteren Prompt zusätzlich die zu erledigende Aufgabe spezifiziert (=Task-Specific + Domain-Specific Prompting, P3). Dem LLM wurde in diesem Fall explizit die Rolle eines Extraktionstools zugewiesen und das Einsatzszenario angegeben. Beim Reverse-Prompting (P4) wurde vorab der gewünschte Output angegeben und das System nach dem besten Prompt befragt, um zu diesem Ergebnis zu gelangen. Schließlich wurde ein weiterer naiver Prompt (P5) verwendet mit der Anweisung, möglichst viele Fachtermini aus dem Text zu extrahieren.

Tabelle mit fünf Prompts und Promptstrategien für die Termextraktion.
Tab. 01 Quelle oneword

Zwischen Theorie und Praxis

Gerade im Hinblick auf die sonst hohen Aufwände der Termextraktion klingt die Unterstützung durch KI vielversprechend. Denn die genannten Beispiel-Prompts sind schnell formuliert und die Ergebnisse in Sekundenschnelle verfügbar. Um die Eignung von KI für das Auffinden von Fachtermini zu testen, wurden die drei Methoden (manuelle Extraktion, Softwareeinsatz, KI-Nutzung) bei internen Tests miteinander verglichen. Die manuelle Extraktion wurde als erste durchgeführt, um dadurch ein Referenzergebnis validierter Termini zu ermitteln. Für die beiden anderen Methoden wurde dann untersucht, wie nah die Ergebnisse an den Referenzwert herankamen.

Der Testtext umfasste knapp 1.700 Wörter auf sechs Seiten – also ein auch für die manuelle Extraktion noch handhabbares Volumen. Um die angesprochene Subjektivität etwas einzudämmen, wurde die Extraktion von zwei Terminologinnen durchgeführt und die Ergebnisse zusammengetragen und abgestimmt. Das Referenz­- ergebnis lag bei 113 extrahierten Termini. Es diente als quantitative und qualitative Referenz: Aus den validierten Ergebnissen der anderen Methoden wurden nur die Termini als Endergebnis gezählt, die auch im manuellen Ergebnis enthalten waren.

Die softwaregestützte Extraktion wurde mit einem statistischen Extraktionstool durchgeführt. Das Programm extrahierte 612 Termkandidaten, von denen 98 Fachtermini – also etwa 87 Prozent des Referenzwertes – validiert wurden. Das Ergebnis brachte allerdings auch den Goldstandard ins Wanken, da zusätzliche Termini extrahiert wurden, die im manuellen Ergebnis nicht vorkamen. Eine Erklärung dafür kann sein, dass Termkandidaten in den Tools konzentriert und isoliert in Listenform dargestellt werden. Dadurch fallen auch Termini auf, die im Dokument vielleicht überlesen werden, weil sie in Fußnoten oder Bildunterschriften stehen. Gleichzeitig birgt die Listenform das Risiko, dass Termkandidaten enthalten sind und validiert werden, die eigentlich nur in einem Firmennamen oder einer Quellenangabe stehen.

Die Tests für LLMs wurden mit Chat-GPT durchgeführt. Sie lieferten sehr unterschiedliche Ergebnisse, da alle in Tabelle 01 genannten Prompts mehrfach getestet wurden. Dabei extrahierte das LLM zwischen 20 und 69 Termini als Rohergebnis, von denen zwischen 14 und 52 Fachtermini validiert wurden. Die Abdeckung war also sehr unterschiedlich und lag zwischen 12 Prozent und 46 Prozent des Referenzwertes. Doch auch identische Prompts lieferten zu unterschiedlichen Zeiten unterschiedliche Ergebnisse, wie Abbildung 01 für Prompt P5 zeigt.

An dieser Stelle zeigt sich einerseits die fehlende Reproduzierbarkeit, die beim Einsatz generativer KI viel diskutiert wird. Andererseits relativieren die Ergebnisse den Einfluss der Prompt-Formulierung, da auch gleiche Anweisungen zu sehr unterschiedlichen Ergebnissen führten. Naive Prompts ohne Spezifizierung der Aufgabe oder des Sachgebiets funktionierten bei der Termextraktion genauso gut oder sogar besser als spezifischere Prompts.

Ergebnis einer Termextraktion in vier Durchläufen.
Abb. 01 Rohergebnis (oben) und validierte Termini (unten) bei vier Durchläufen mit identischem Prompt P5. Quelle oneword

Wo KI punkten kann – und wo nicht

Wenn ein LLM nur maximal 46 Prozent und damit nicht einmal die Hälfte der tatsächlich vorhandenen Termini aus einem Textkorpus extrahiert, spricht dies auf den ersten Blick eher gegen dessen Eignung für die Termextraktion. Allerdings sollte die Quantität nur ein Aspekt von vielen sein, die über den sinnvollen Einsatz entscheiden.

Wie bei vielen anderen Aufgaben ist der Einsatz künstlicher Intelligenz auch bei der Termextraktion in puncto Schnelligkeit ungeschlagen. Da naive Prompts die besten Ergebnisse erzielten, waren die Anweisungen schnell formuliert. Im Vergleich zur manuellen Extraktion benötigte der KI-gestützte Test nur ein Sechstel der Zeit. Mit steigendem Textvolumen würde dieser Unterschied vermutlich noch größer werden, da KI auch große Textmengen schnell verarbeiten kann. Da bei der Nutzung eines LLMs keine Projektanlage oder Zusatzeinstellungen nötig sind und das zu validierende Rohergebnis meist deutlich geringer und terminologisch sauberer ausfällt als bei Extraktionssoftware, benötigt der Einsatz von KI auch bei der Validierung weniger Zeit.

Ein weiterer Vorteil ist die Möglichkeit eines iterativen Vorgehens. Jeder Output kann als Grundlage für weitere Anfragen genutzt werden, um sich ohne manuelle Nacharbeit an das gewünschte Ergebnis anzunähern. Liefert das Large Language Model beispielsweise eine Liste von Termkandidaten, von denen einige in Pluralform stehen oder in der auch Mehrwortbenennungen enthalten sind, kann dieses Ergebnis durch Anweisungen für die Bereinigung nochmals angepasst werden. Dabei stellt die Schnelligkeit der Systeme erneut einen Vorteil dar: Da der Output schnell zur Verfügung steht, wird auch der Überarbeitungsbedarf direkt deutlich. Jede Anpassung liefert dann wiederum innerhalb von Sekunden ein Ergebnis. Eine softwaregestützte Extraktion kann dagegen je nach Datenmenge mehrere Minuten bis Stunden dauern, die bei jeder Anpassung der Einstellungen nochmals einzuplanen sind.

Der Gesprächscharakter, etwa beim Einsatz von ChatGPT, ermöglicht es auch, Zusatzinformationen auf Basis der bisherigen Ergebnisse zu erhalten. Abbildung 02 zeigt beispielhaft einen Dialog, um zu einem vom System extrahierten Terminus eine Definition, ein englisches Äquivalent und einen Kontextsatz zu erhalten. Der Kontextsatz stammt dabei (wie angefordert) aus dem eingegebenen Text, die Definition und das englische Äquivalent wurden von ChatGPT aus anderen Quellen geliefert.

Iteratives Vorgehen bei der Termextraktion mit Hilfe von KI.
Abb. 02 Iteratives Vorgehen zum Erhalt von Zusatzinformationen zu einem extrahierten Terminus. Quelle oneword

Ein weiteres Plus beim KI-Einsatz ist die Möglichkeit, die Ergebnisse in unterschiedlicher Darstellungsweise oder verschiedenen Dateiformaten zu bekommen. Der Output kann etwa als Liste der Termkandidaten oder als Tabelle mit Zusatzinformationen angezeigt werden. Abhängig vom eingesetzten LLM und dessen Version lassen sich alle Informationen auch als Excel-Datei exportieren, was Prozessautomatisierungen ermöglicht, zum Beispiel den Import in eine bestehende Datenbank.

Auch wenn sie nicht Teil der Tests war, kann die Mehrsprachigkeit der LLMs ein weiterer Pluspunkt für die Termextraktion sein. Denn Termini können aus mehrsprachigen Dokumenten extrahiert und einander zugeordnet werden. Wird das System hingegen nach Äquivalenten gefragt, ohne dass diese Teile der eingegebenen Daten waren, stammen die Ergebnisse aus allen dem System verfügbaren Quellen und sind daher mit Vorsicht zu genießen.

Trotz vieler positiver Aspekte stößt der Einsatz von LLMs bei der Termextraktion auch an Grenzen: Neben der gezeigten fehlenden Reproduzierbarkeit und den unsteten Ergebnissen bei identischen Prompts trat bei den Tests eine weitere KI-Schwäche ans Licht: Halluzinationen. ChatGPT lieferte in mehreren Durchläufen Termini, die fachlich korrekt wirkten, aber nicht im Text vorkamen. Termini kamen außerdem häufig doppelt im Ergebnis vor. Ohne explizite Anweisung wurden zahlreiche Pluralformen und Mehrwortbenennungen extrahiert, deren Bestandteile teilweise auch noch mal als einzelne Termini vorgeschlagen wurden.

Bei den Zusatzinformationen zu einem Terminus zeigte sich eine weitere Schwachstelle: Die Häufigkeit eines Terminus ist bei der Termextraktion eine wichtige Kenngröße, um extrahierte Termini zum Beispiel zu priorisieren. Wurde das LLM angewiesen, diese Größe zu jedem Terminus anzugeben, gab ChatGPT in mehreren Versuchen für identische Termini unterschiedliche Zahlen aus, die sich bei manueller Nachprüfung nur als Bruchteil der tatsächlichen Häufigkeit herausstellten. Auch wenn bekannt ist, dass LLMs keine Rechenmaschinen sind, zeigt sich hier Fehlerpotenzial bei der Abfrage zusätzlicher Informationen.

Wenn KI alleinstehend für die Extraktion genutzt wird und es schon einen Terminologiebestand gibt, erfolgt zudem kein Abgleich mit bestehenden Daten. Die Extraktion erfolgt zwar sehr schnell, liefert aber vielleicht Termini, die bereits in einer Terminologieliste oder -datenbank vorhanden sind. Um dem entgegenzuwirken, haben einige Anbieter von Terminologiesoftware LLMs bereits in ihre Prozesse integriert. Dabei wird häufig auf bereits vorformulierte Prompts zurückgegriffen, um eine Aufgabe umzusetzen, zum Beispiel die Termextraktion. Bestandsdaten können in der Terminologiesoftware in den Prozess eingebunden und neue Termini oder weitere Synonyme zu bestehenden Einträgen extrahiert werden.

Ist der Einsatz von KI sinnvoll?

Wie anfangs geschrieben, kommt es bei der Bedeutung des Wortes Extraktion auf den Kontext an. Auch innerhalb der Termextraktion und bei der Frage, welche Methode den Prozess am besten unterstützen kann, ist der Kontext entscheidend. Nur das Endergebnis allein, zum Beispiel die Menge an Termini, kann hierbei keine Entscheidungsgrundlage sein. Denn im Arbeitsalltag müssen neben der Anzahl der extrahierten Termini immer auch Zeit und Kosten sowie mögliches Fehlerpotenzial und Prozessrisiken betrachtet werden.

Die drei vorgestellten Methoden zeigen zwar teils deutliche Ergebnisunterschiede und haben ihre Vor- und Nachteile. Sie können aber jeweils in verschiedenen Anwendungsfällen sinnvoll eingesetzt werden. Je nach Beteiligten, Ausgangslage, Datensicherheitsaspekten, Tool-Landschaft innerhalb des Unternehmens und Arbeitsalltag der ausführenden Personen kann die optimale Wahl grundsätzlich oder von Fall zu Fall eine andere sein. Bei kurzen, selbsterstellten Texten ist die manuelle Extraktion sicherlich schneller als die Projektanlage oder Validierung in Tools. Wer sich gut in Extraktionssoftware auskennt, Zusatzinformationen wie Häufigkeit des Vorkommens und Quellenangaben benötigt und mit großen Datenmengen zu tun hat, erzielt mit softwaregestützter Extraktion wahrscheinlich die besten Ergebnisse.

Sind aber weder personelle noch zeitliche Ressourcen für eine umfangreiche Extraktion vorhanden, kann die Nutzung von LLMs bei einem Terminologieaufbau „nebenbei“ helfen. Denn KI punktet vor allem mit schnellen und terminologisch sauberen Ergebnissen, die ohne viel Nacharbeit übernommen werden können. Es ist daher gut, alle Möglichkeiten zu kennen und sich an neue Methoden heranzutrauen. Der wichtigste Faktor bleibt bei allen Methoden jedoch der Mensch. Er sichtet Texte entweder manuell, validiert Rohergebnisse aus der Software oder hinterfragt die Ergebnisse eines LLMs kritisch. Und im besten Fall bekommt er beim Wort Extraktion keine Zahnschmerzen, sondern holt sich im Wissen um seine Möglichkeiten entspannt eine Tasse Kaffee.

Links und Literatur zum Artikel

[1] DIN 2342:2022, Terminologiewissenschaft und Terminologiearbeit – Begriffe.

[2] Janke, Regina (2013): Anforderungen an die Termextraktion. Eine vergleichende Untersuchung der Bedürfnisse von Terminologen, Technischen Fachübersetzern und Technischen Redakteuren. Stuttgart: tcworld GmbH.

[3] Deutscher Terminologie-Tag e.V. (Hrsg.) (2014): Terminologiearbeit - Best Practices 2.0. Köln.

[4] Fagbohun, Oluwole/Harrison, Rachel M./ Dereventsov, Anton (2024): An Empirical Categorization of Prompting Techniques for Large Language Models: A Practitioner's Guide. Preprint. https://arxiv.org/pdf/2402.14837

[5] Zhou, Yongchao et al. (2023): Large Language Models are Human-Level Prompt Engineers. Version 2. https://arxiv.org/pdf/2211.01910

Drei Finger halten ein Fläschchen mit einem flüssigen Extrakt.