Seit dem Start von ChatGPT sind fast drei Jahre vergangen. Eine Fülle von Erwartungen verbindet sich mit dem neuen Multitool, das auch in der breiten Öffentlichkeit die Sicht darauf revolutioniert hat, was Computer leisten können. Auch in den Technischen Redaktionen waren die Erwartungen groß. Und heute? Sind die Erwartungen rund um künstliche Intelligenz eingetroffen und wenn nicht, wo liegen die Gründe? Am Beispiel von Chatbots lässt sich erkennen, wo die Fallstricke liegen und in welche Richtung die Entwicklung gehen muss, um KI in den Redaktionen zum Fliegen zu bringen.
Drei Jahre nach dem Start
Die Veröffentlichung von ChatGPT war eine echte Zeitenwende. Bis dahin war KI für die meisten Menschen eher eine abstrakte Sache, die in den Entwicklungslaboren der großen IT-Unternehmen stattfand und die irgendwann einmal große Auswirkungen auf unsere Gesellschaft haben könnte. Plötzlich war die abstrakte Hoffnung (oder je nach Perspektive Bedrohung) Wirklichkeit geworden.
Der Großteil der Personen, die die neue Technologie einsetzten, war überrascht, welche überzeugenden Ergebnisse das KI-System lieferte. Schnell zogen andere Anbieter nach, und generative KI war in der Mitte der Gesellschaft angekommen. Auch bei Technischen Redakteurinnen und Redakteuren weckten die Sprachmodelle (LLMs oder SLMs) große Hoffnungen.
Bislang waren es gerade die Technischen Redaktionen, die in den Unternehmen zu Innovationstreibern wurden, KI-Projekte anstießen und entscheidende Beiträge zu den Taskforces leisteten. Sicherlich ein Aha-Effekt in vielen Unternehmen: Die Technische Redaktion kann tatsächlich mehr, als nur die Infos aus der Entwicklung aufzuschreiben. Und wenn KI-Anwendungen vernünftig arbeiten sollen, dann sind die Informationen wichtig, die in der Technischen Dokumentation stehen.
Viele Technische Redaktionen hatten tatsächlich kaum Berührungsängste mit der neuen Technologie. Das lag zum einen daran, dass Technische Redakteurinnen und Redakteure es gewohnt sind, mit komplexen Sprachanwendungen umzugehen. Zum anderen hat es damit zu tun, dass Technische Redaktionen bzw. Übersetzungsanbieter schon seit Jahren KI-Anwendungen nutzen, auch wenn es sich nicht um generative KI handelt. Neuronale maschinelle Übersetzung beispielsweise ist eine KI-Anwendung, die schon vor der Veröffentlichung von LLMs und SLMs weit verbreitet war.
Glossar | |
| Sprachmodell | Ein Sprachmodell ist ein statistisches System, das aus großen Textmengen sprachliche Muster lernt, und so die Wahrscheinlichkeit von Wörtern vorhersagen und neuen Text erzeugen kann. |
| Large Language Model (LLM) | Ein Large Language Model ist ein besonders großes Sprachmodell mit mindestens 15 Milliarden Parametern, das auf Basis von riesigen Textmengen trainiert wurde und vielfältige Aufgaben wie Textgenerierung, Übersetzungen oder das Beantworten von Fragen bewältigen kann |
| Small Language Model (SLM) | Ein Small Language Model ist ein kleineres Sprachmodell mit deutlich weniger Parametern (bis zu 15 Milliarden Parametern). Ein SLM benötigt weniger Rechenressourcen, sodass es auch auf üblicher Hardware läuft. Das SLM eignet sich gut für spezielle Anwendungen, da es über ein begrenzteres Wissen als LLMs verfügt. |
Tab. 01 Quelle Daniel Baldassare
Chatbots als große Hoffnung
Aus Sicht der Technischen Redaktionen wird vor allem mit dem Chatbot ein lang gehegter Traum wahr:
- Komplexe Informationsbestände lassen sich einfach erschließen.
- Die Nutzenden erhalten Informationen, die zu ihrer jeweiligen Situation passen.
- Die Informationsgewinnung kann in einem Gespräch stattfinden.
- Nachfragen und Präzisierungen sind im Gesprächsverlauf möglich.
- Die Support-Hotline kann entlastet werden; gleichzeitig lassen sich Anfragen rund um die Uhr bearbeiten.
- Die Technische Redaktion kann die Kommunikation mit dem System auswerten und dadurch die Datenbasis verbessern.
Konkret sollten Chatbots dabei flexibel auf unterschiedliche Fragestellungen von Personen sowohl aus dem eigenen Unternehmen als auch der Öffentlichkeit reagieren und folgende Fragen beantworten können:
Fragen zu Produktmerkmalen und zur Produktkonfiguration
- Quellen: Datenblätter, Kataloge, PIM
- Ziel: Informationen zum Produkt und Verwendungszweck
- Zum Beispiel: Welche Ventilatoren sind für den Außenbereich geeignet?
Fragen zu einzelnen Handlungsschritten
- Quelle: Gebrauchsanleitung, Quick-Guides
- Ziel: Fragen zu einzelnen Handlungsabläufen beantworten
- Zum Beispiel: Welche Taste soll ich drücken, um den Timer zu stoppen?
Fragen zu komplexen Prozessen
- Quelle: Gebrauchsanleitung
- Ziel: Überblick über gesamten Prozessablauf und Handlungsfolgen geben und Schritt für Schritt anleiten
- Zum Beispiel: Wie baue ich den Ventilator ab?
Noch nicht am Ziel
Was ist aus den hoffnungsvollen KI-Anfängen geworden? Welche Projekte stechen aus der Landschaft der Anwendungsfälle und Prototypen heraus? Bislang ist der Erfolg überschaubar geblieben. Mittlerweile sind in einigen Redaktionssystemen KI-Elemente integriert worden, zum Beispiel zur Erfassung von Metadaten, für die Terminologieextraktion oder auch das Vorformulieren und Umformulieren von Textteilen.
Allerdings hätte man erwartet, dass drei Jahre nach ChatGPT 3.5 und der Begeisterung, mit der KI-Anwendungen anfangs aufgenommen wurden, die Zahl der Anwendungen heute deutlich größer wäre. Doch viele Anwendungen sind im Stadium der Ideen, Case Studies und Prototypen stecken geblieben. Ernüchterung hat sich breitgemacht. Denn die Überlegung, Serviceinformationen und Supportunterstützung als KI-Chatbot bereitzustellen, erweist sich als komplexer als ursprünglich gedacht.
Darum scheitern Chatbots
Der Chatbot-Dialog in Abbildung 01 zeigt, warum KI-basierte Chatbots mit Large Language Models für Serviceinformationen in der jetzigen Form kaum einsetzbar sind. Dazu haben wir ChatGPT (GPT4) nach einer der Kernmethoden der Technischen Dokumentation befragt.
Zunächst scheint die Antwort in Ordnung zu sein. Der erste Hinweis auf ein Problem ist, dass die Auflösung des Akronyms SAFE etwas ungewöhnlich ist. „E – Empfehlung zur Vermeidung“ ist ein wenig schwach formuliert, typischerweise steht hier „Entkommen“; „S – Situation beschreiben“ sollte eigentlich „Signalwort“ sein. Sieht man sich dann die einzelnen Punkte genauer an, fällt auf, dass das Ergebnis der Anfrage nur auf den ersten Blick sinnvoll klingt, tatsächlich aber keine Hilfe zum Verfassen von Warnhinweisen bietet.
Aus Sicht einer Technischen Redaktion ist diese Art von Ergebnis etwas vom Schlimmsten, was passieren kann. Denn schlimmer als ein falsches Ergebnis ist ein falsches Ergebnis, das plausibel wirkt. So könnte ein Chatbot zum Beispiel unzulässig verallgemeinern und als Antwort liefern: „Alle Ventilatoren sind für den Außenbereich geeignet.“ Produktschäden oder auch Personenschäden könnten die Folge sein, wenn diese Aussage unzulässig pauschal ist und manche Ventilatoren im Außenbereich nur eingeschränkt verwendet werden dürfen.

Abb. 01 Chat-GPT (GPT 4) liefert eine durchaus schlüssige Antwort, auf den zweiten Blick ist sie unzureichend. Quelle Daniel Baldassare
Ursachen der Probleme
Die geringe Qualität der Ergebnisse war für die meisten Technischen Redaktionen zunächst einmal überraschend. Denn für andere Aufgabenstellungen liefern Chat-bots oft wirklich ausgezeichnete Ergebnisse. Zunächst einmal liegt es nicht an veralteten LLMs. Auch unter GPT5 bleibt das Ergebnis unbefriedigend und auf einem vergleichbaren Niveau wie mit dem älteren Modell.
Doch lässt man bei ChatGPT zu, dass die KI auch auf das Internet zugreifen kann, so ergibt sich ein sehr befriedigendes Ergebnis. Mithilfe der Internetsuche kann ein Chatbot jederzeit auf eine breitere Datenbasis zugreifen. Tabelle 02 zeigt im Vergleich, wie die ChatGPT-Anfrage zu SAFE (Abb. 01) durch Anbindung der Internetsuche bessere Ergebnisse erzielt.
Ergebnisse ChatGPT im Vergleich | |
| Ohne Internetsuche | mit Internetsuche |
| Das SAFE-Prinzip ist eine Methode, die im Kontext von Gefahrenhinweisen verwendet wird […] | Das SAFE-Prinzip dient – besonders in der technischen Dokumentation – als strukturierter Leitfaden für die Gestaltung von Sicherheits- und Warnhinweisen. […] |
| S – Situation beschreiben: Beschreibt die spezifische Gefahrensituation oder das potenzielle Risiko. Hier wird erläutert, was die Gefahr ist und in welchem Kontext sie auftreten kann. | S – Signalwort / Schwere der Gefahr: Wähle ein prägnantes Signalwort wie „Gefahr“, „Warnung“, „Vorsicht“ oder „Hinweis“, um die Dringlichkeit bzw. Art der Gefahr deutlich zu machen. Die Norm EN 82079-1 sowie ANSI Z535 klassifizieren diese Wörter entsprechend dem Gefährdungsgrad |
| A – Aufklärung über das Risiko [Erklärung] | A – Art und Quelle der Gefahr [Erklärung] z.B. „Verbrennungsgefahr durch heiße Oberflächen“ |
| F – Folgen beschreiben [Erklärung] | F – Folgen bei Missachtung [Erklärung] z.B. „Schwere Körperverletzung“ |
| E – Empfehlung zur Vermeidung [Erklärung] | E – Entkommen / Vermeidung der Gefahr [Erklärung] z.B. „Tragen Sie hitzebeständige Handschuhe“ |
Tab. 02 (Vergleich gefettet) Quelle Daniel Baldassare
Das Ergebnis zeigt, dass falsche (und gleichzeitig plausible) Terminologie durch die Internetsuche von ChatGPT verbessert wird: So wird aus dem „Gefahrenhinweis“, der im Aufbau nichts mit SAFE zu tun hat, die richtige Entsprechung „Sicherheits- und Warnhinweis“. Zugegeben, in der ersten ChatGPT-Anfrage wurde auch „Gefahrenhinweis“ verwendet. Diese Verwechslung kommt in der Kommunikation zwischen Technischer Redaktion, Konstruktion und Entwicklung allerdings auch vor. Umso bemerkenswerter ist die Korrektur im zweiten Durchlauf mit Internetsuche. Das Akronym „SAFE“ wird ebenso korrekt aufgelöst und darüber hinaus mit den relevanten Signalwörtern, Normen und Beispielen belegt, so dass die Redaktion mit diesen Informationen sofort weiterarbeiten kann, ohne eine weitere Recherche betreiben zu müssen.
Allerdings sind die Informationen, auf die es bei Unternehmens-Chatbots ankommt, oft nicht frei im Internet verfügbar. Deswegen braucht ein Unternehmens-Chatbot entweder eine Verbesserung des zugrunde liegenden Sprachmodells oder die Suche in den eigenen Datenbanken.
Erstaunlicherweise liegt die schlechte Qualität der Ergebnisse auch daran, dass LLMs und SLMs „zu menschlich“ sind. Chatbots sind auf eine breite Anzahl von Gesprächssituationen trainiert. Sie versuchen Ergebnisse zu liefern, die möglichst natürlich und ungezwungen sind.
Für die Professionalisierung der Technischen Redaktion haben wir allerdings viel getan, um die Nachteile der Alltagssprache zu erkennen. Wenn man so will, ist die Sprache in der Technischen Dokumentation möglichst maschinennah:
- Sie soll präzise sein und Dinge konkret benennen.
- Sie soll möglichst wenig Spielraum für Interpretationen lassen.
- Sie soll auf Variation verzichten und Dinge oder auch Vorgänge möglichst immer gleich benennen.
- Sie soll so kurz wie möglich sein und gesprächshafte Elemente (Abtönungspartikel) vermeiden.
- Sie soll möglichst automatisiert verarbeitet werden können.
All diese Anforderungen sind für Technischen Redaktion funktional und wichtig. Sie sind Teil unserer professionellen Standards. Allerdings sind sie das Gegenteil der möglichst menschenähnlichen Sprache, auf die Sprachmodelle (LLMs oder SLMs) trainiert wurden.
So entstehen die Schwächen
Fehlerbilder bzw. Halluzinationen passieren im Wesentlichen auf zwei Ebenen:
Sprachwissen
- falsche oder inkonsistente Terminologie
- unpassender Stil, unangemessenes Tone and Voice
- mangelhafte Lokalisierung
Weltwissen
- fehlendes Wissen über Naturgesetze oder auch natürliche Prozesse
- fehlendes Wissen zu Produktlebenszyklen und deren typischen Anforderungen
- fehlendes Wissen über Produktmerkmale und -funktionen
Diese Schwächen resultieren aus dem Material, mit dem die Sprachmodelle trainiert werden. Basis für diese Trainings sind allgemeinsprachliche Texte, also Belletristik, Blogs oder ganz generell Webseiten. In dem Trainingsmaterial sind aber weder Gebrauchsanleitungen enthalten noch andere firmenspezifische Veröffentlichungen. Aus diesem Grund ist die Erweiterung des Wissens eines Chatbots erforderlich, um gute Ergebnisse zu erzielen.
Zwei Lösungswege
Prinzipiell führen zwei Wege aus dem Dilemma:
- Die LLMs oder SLMs werden mit passendem Material trainiert. Dieses Fine-Tuning führt dazu, dass das Sprachmodell insgesamt näher an der sprachlichen und faktenorientierten Wirklichkeit der Technischen Redaktion ist.
- Prompts werden mit Informationen aus eigenen Wissensdatenbanken wie Vektordatenbanken und Knowledge Graphen erweitert. Diese Methode wird als Retrieval Augmented Generation (RAG) auf Basis von Vektorendatenbanken oder Knowledge Graphs bezeichnet. Tabelle 03 stellt die beiden Wege gegenüber.
Wissen-Erweiterung | ||
| Aspekt | RAG | Fine-Tuning |
| Definition | Erweitert das Wissen eines KI-Chatbots mit externen Wissensdatenbanken zur Inferenz, das heißt zum Generieren von Antworten | Durch Training auf spezifische Daten: - Erweitert das Wissen des vortrainierten Modells - personalisiert das Verhalten des vortrainierten Modells - optimiert ein vortrainiertes Modell auf eine spezifische Aufgabe |
| Wissensintegration | Extern zur Inferenz über Retrieval-System und Prompt-Engineering | Direkt im Modellparameter eingebettet |
| Abhängigkeiten | Benötigt externe Datenbank und Retrieval | Eigenständig, keine Abhängigkeiten zur Inferenz, das heißt zum Generieren von Antworten |
Tab. 03 Quelle Daniel Baldassare
Beide Wege haben Vorteile und Nachteile. RAG bietet die Chance auf Echtzeitinformationen, sobald die Informationen in der Wissensdatenbank aufgenommen worden sind. Das Fine-Tuning des Sprachmodells hingegen ist aufwendiger und kann nur zeitverzögert angewendet werden. RAGs bieten zudem eine hohe Flexibilität, verschiedenste Datenquellen können für die Abfragen hinzugefügt und – fast noch wichtiger – auch wieder weggenommen werden. Insgesamt kann so die Datenmenge fast beliebig erweitert werden, ohne dass das Modell permanent vergrößert werden muss.
Das Fine-Tuning des Sprachmodells dagegen hat zwar einen erhöhten Aufwand für das Training. In der Antwortgenerierung bietet es aber eine höhere Geschwindigkeit, weil kein zusätzlicher Abfrageschritt eingebaut werden muss. Es vereinfacht die Handhabung, da zur Integration des notwendigen Wissens keine zusätzlichen Abhängigkeiten geschaffen werden. Insgesamt entsteht ein Chatbot, der dauerhaft auf die Bedürfnisse des eigenen Unternehmens zugeschnitten ist und bei dem nicht nur das Wissen erweitert wurde, sondern das Verhalten dauerhaft geändert ist.
Eine neue Generation
Vor der ChatGPT-Ära waren Chatbots meist einfache Systeme, die auf Basis eines festen Korpus mit vordefinierten Frage-Antwort-Paaren trainiert wurden. Die Antworten des Chatbots beschränkten sich strikt auf die Informationen der Trainingsdaten.
Moderne Chatbots hingegen können externe Werkzeuge einbinden – etwa Online-Suchen, Wissensgraphen oder Vektordatenbanken – und dadurch Informationen dynamisch abrufen. Damit entwickeln sich klassische Antwortsysteme zunehmend zu intelligenten Agenten, die eigenständig Informationen recherchieren und als „Agentic Chatbots“ bezeichnet werden können. Der Aufbau eines solchen Agenten (Abb. 02) umfasst im Regelfall drei Komponenten:
- System-Prompt: Ein Prompt, der das Verhalten, die Werkzeugnutzung und den Kommunikationsstil des Chatbots definiert und der über alle Konversationen hinweg konstant bleibt.
- Tools: Liste der externen Funktionen wie Suche, Datenbanken oder APIs
- Thread: Platz für die Kommunikation von Nutzerin und Nutzer mit dem Chatbot
Für Technische Redaktionen kommt dabei insbesondere eine Unterkategorie dieser Systeme in Frage: so genannte RAG-Chatbots. Sie sind speziell auf Frage-Antwort-Szenarien ausgerichtet und verbinden die Textgenerierung großer Sprachmodelle mit der Fähigkeit, Wissen aus einer oder mehreren verknüpften Datenquellen eines Unternehmens abzurufen.

Abb. 02 Wie funktioniert ein Agentic Chatbot? Quelle Daniel Baldassare
In der Praxis hat sich gezeigt, dass Knowledge Graphs die beste Lösung für RAG-Chatbots sind. Während klassische, vektorbasierte RAG-Ansätze stark vom verwendeten Embedding-Modell abhängen und nur Inhalte wiederfinden können, die explizit in Dokumenten enthalten sind, ermöglichen Knowledge Graphs einen entscheidenden Schritt darüber hinaus: Sie stellen Zusammenhänge zwischen Informationen her und erlauben so echte Schlussfolgerungen und Ableitungen.
Dieser Ansatz verbindet die Stärken der KI-Welt und des tatsächlichen Wissens: die flexible Generierung von Antworten mit der strukturierten Wissensrepräsentation von Knowledge Graphs. Dadurch lassen sich auch komplexe technische Fragen konsistent, überprüfbar und kontextsensitiv beantworten – ein entscheidender Vorteil für Redaktionen, die höchste Ansprüche an Genauigkeit und Nachvollziehbarkeit stellen.
So kann es funktionieren
Chatbots versprechen eine neue und verbesserte Nutzungserfahrung im Umgang mit den Inhalten der Technischen Dokumentation. Die auf dem Markt verfügbaren Large Language Models wie GPT 5.0 oder Claude lassen für die redaktionellen Bedürfnisse jedoch noch einiges zu wünschen übrig. Die Schwachstellen der aktuellen Sprachmodelle werden durch neuere, verbesserte Modelle wahrscheinlich nur langsam behoben. Denn sie sind nicht durch die Leistungsfähigkeit der Modelle bedingt, sondern durch die Unterschiede zwischen den Kommunikationsbedürfnissen in der Technischen Redaktion und den Eigenschaften der Alltagssprache.
Für Technische Redaktionen bieten sich hier zwei Alternativen an: Sie können durch Trainings die Fähigkeiten und das Wissen der Modelle stärker an ihre Bedürfnisse anpassen. Dieser Weg ist sehr mächtig, bedeutet aber auch einen hohen Kostenaufwand und eine verringerte Aktualität durch den Zeitbedarf, den das Training für das Fine-Tuning der Modelle braucht.
Als zweiter Weg bietet sich deshalb an, die Suchanfragen an das Sprachmodell mit zusätzlichem Wissen mithilfe von RAG anzureichern. Die Aufbereitung des Wissens lohnt sich: Denn in gut strukturierten Dokumentationsbeständen sind diese Informationen oft bereits vorhanden oder sie können mit vergleichsweise geringem Aufwand aufbereitet werden.
Glossar | |
| Retrieval Augmented Generation (RAG) | Verfahren, in dem ein Sprachmodell vor der Generierung der Antwort relevante Informationen aus externen Wissensquellen abruft und diese in seine Antwort integriert. |
| Embedding-Modell | Ein KI-Modell, das Texte, Wörter oder ganze Dokumente in einer numerischen Form – so genannte Vektoren – darstellt. |
| Vektoren | Vektoren sind numerische Darstellungen von Objekten (zum Beispiel Texten), die deren Bedeutung erfassen. Dadurch können Inhalte nicht nur nach exakten Übereinstimmungen, sondern auch anhand ihrer semantischen Ähnlichkeit gesucht werden. |
| Knowledge Graph (Wissensgraph) | Eine Datenstruktur, die mithilfe von Knoten und Kanten Daten in Form eines Netzes speichert. Ergänzt durch Ordnungsprinzipien aus Ontologien schafft der Knowledge Graph einen flexiblen Rahmen, um Daten kontextbezogen zu verknüpfen und tiefere Erkenntnisse zu gewinnen. |
Tab. 04 Quelle Daniel Baldassare

