Vom Dokument zum Datenprodukt

Text: Claudia Sistig

Technische Redakteurinnen und Redakteure verfügen über zentrale Kompetenzen des Data Engineerings. Was genau steckt hinter Data Engineeriung und wie lässt es sich nutzen, um Inhalte für menschliche Leserinnen und Leser sowie für KI-Systeme optimal aufzubereiten?

Inhaltsübersicht

Lesedauer: 09:05 Minuten

Data Engineering ist ein vergleichsweiser junger Begriff, der sich im deutschsprachigen Raum zunehmend etabliert hat. Unter Data Engineering versteht man

  • die Planung,
  • die Umsetzung und
  • den Betrieb von technischen und konzeptionellen Strukturen,

mit denen sich Daten zuverlässig erfassen, speichern, verarbeiten und für unterschiedliche Zwecke bereitstellen lassen.

Im Mittelpunkt stehen dabei die Qualität, Konsistenz und Verfügbarkeit der zugrunde liegenden Daten. Viele dieser Aufgaben entsprechen Tätigkeiten, die in der Technischen Redaktion bereits zum Alltag gehören.

Abgrenzung zu Data Science

Data Engineering wird häufig mit Data Science verwechselt, ist jedoch klar davon abzugrenzen. Während sich Data Science vor allem mit der Analyse von Daten, der Entwicklung statistischer Modelle und der Gewinnung von Erkenntnissen beschäftigt, bildet Data Engineering die Grundlage dafür.

Für die Technische Redaktion ist daher nicht Data Science, sondern Data Engineering die näherliegende Disziplin. Schließlich setzt die Arbeit der Technischen Redaktion seit jeher bei der Strukturierung, Modellierung und Qualitätssicherung von Inhalten an, also noch vor der eigentlichen Analyse.

Im Unternehmen sorgen Data Engineers dafür, dass Daten aus unterschiedlichen Quellen, beispielsweise aus Fachanwendungen, Produktdatenbanken oder internen Wikis, in geeigneter Form verfügbar sind. Dazu gehören strukturierte, konsistente sowie versionierbare und nachvollziehbare Datenbestände. Auf dieser Grundlage lassen sich datengetriebene Analysen, Automatisierungen oder KI-Anwendungen zuverlässig umsetzen.

Ein Anwendungsbeispiel ist der Einsatz eines dokumentationsbasierten Chatbots auf Basis von Retrieval-Augmented Generation (RAG). Damit ein solcher Chatbot verlässliche Antworten liefern kann, müssen die zugrunde liegenden Dokumentationen strukturiert aufbereitet, mit Metadaten angereichert und eindeutig referenzierbar sein. Die dafür notwendige Vorarbeit folgt klaren Data-Engineering-Prinzipien.

Ziele von Data Engineering

Data Engineering hat die Ziele, Daten so vorzubereiten und zu strukturieren, dass sie von unterschiedlichen Zielgruppen effizient genutzt werden können. Dazu zählen etwa Fachanwenderinnen und -anwender, Entwicklerteams sowie automatisierte Systeme und KI-Anwendungen.

Typische Aufgaben im Data Engineering sind:

  • das Zusammenführen heterogener Datenquellen
  • das Modellieren von Datenstrukturen und Metadaten
  • das Transformieren und Normalisieren von Daten
  • das Sicherstellen von Datenqualität und Nachvollziehbarkeit
  • das Bereitstellen von Schnittstellen für Abfragen und Weiterverarbeitung

Der Fokus liegt dabei weniger auf dem Inhalt als auf der Struktur der Daten.

Brücke zur Redaktion

Gerade dieser prozess- und strukturorientierte Ansatz verdeutlicht die Nähe zwischen Data Engineering und der Technischen Redaktion. Wer mit Technischer Kommunikation zu tun hat, arbeitet seit jeher mit komplexen Informationsstrukturen, Metadaten, Produktvarianten und unterschiedlichen Zielgruppen. In der Technischen Redaktion werden Inhalte geplant, modularisiert, gepflegt und in unterschiedlichen Kontexten wiederverwendet. Data Engineering bietet für diese Abläufe einen konzeptionellen und methodischen Rahmen. Es beschreibt Denkweisen und Vorgehensmodelle. Diese helfen, Inhalte konsequent als Daten zu verstehen – und sie so aufzubereiten, dass sie sowohl für menschliche Leserinnen und Leser als auch für KI-Systeme nutzbar sind.

Data Engineering beschreibt damit weniger eine einzelne Rolle als vielmehr eine Denkweise im Umgang mit Daten. Im Mittelpunkt steht die Frage, wie Informationen strukturiert, modelliert und bereitgestellt werden müssen, damit sie zuverlässig nutzbar sind. Welche Fähigkeiten sind hierfür erforderlich?

Aufgaben eines Data Engineers

Im Unternehmensalltag umfasst Data Engineering vor allem Tätigkeiten, die Daten über ihren gesamten Lebenszyklus hinweg begleiten. Dazu gehören zunächst die Erfassung und Integration von Daten aus unterschiedlichen Quellen:

  • Fachanwendungen (Benutzereingaben)
  • Produktdatenbanken (automatisch erfasste oder generierte Daten)
  • Content-Management-Systeme (beispielsweise interne Wikis)
  • externe Schnittstellen

Diese Daten müssen verifiziert, vereinheitlicht, bereinigt sowie in konsistente Strukturen überführt werden.

Ein weiterer Schwerpunkt liegt in der Modellierung von Daten und Metadaten. Data Engineers definieren, welche Informationen benötigt werden, in welcher Beziehung die Informationen zueinander stehen und wie die Informationen gepflegt und versioniert werden. Ziel ist es, die Daten so zu organisieren, dass sie wiederverwendbar, nachvollziehbar und erweiterbar bleiben. Auch für den Fall, dass sich die verarbeitenden Systeme, Anforderungen oder Zielgruppen ändern.

Darüber hinaus überwachen Data Engineers die Qualität der bereitgestellten Daten, beispielsweise durch Validierungen, Plausibilitätsprüfungen und klare Verantwortlichkeiten für Inhalte und Strukturen.

Fähigkeiten eines Data Engineers

Die Arbeit im Data Engineering erfordert eine Kombination aus technischen, methodischen und konzeptionellen Fähigkeiten. Eine zentrale Kompetenz ist das strukturierte Denken. Daten werden dabei nicht isoliert betrachtet, sondern als Teil eines Gesamtsystems, in dem Abhängigkeiten, Beziehungen und Nutzungskontexte eine entscheidende Rolle spielen.

Ebenso wichtig ist die Fähigkeit zur Abstraktion. Data Engineers müssen komplexe Sachverhalte auf geeignete Modelle reduzieren und dabei entscheiden, welche Informationen relevant sind und in welcher Detailtiefe sie abgebildet werden. Diese Modelle bilden die Grundlage für spätere Nutzungsszenarien – von der klassischen Auswertung bis hin zu KI-gestützten Anwendungen.

Wichtig sind zudem Fähigkeiten in Qualitätssicherung und Dokumentation. Datenstrukturen müssen verständlich beschrieben und Änderungen nachvollziehbar gemacht werden. Diese Transparenz ist entscheidend, um Vertrauen in datenbasierte Systeme aufzubauen.

In der Technischen Redaktion

Betrachtet man die typischen Aufgaben des Data Engineerings, dann wird deutlich, dass viele der zugrunde liegenden Denkweisen und Methoden in der Technischen Redaktion bereits etabliert sind. Technische Redakteurinnen und Redakteure strukturieren Inhalte, modellieren Informationsobjekte, definieren Metadaten und stellen über verschiedene Publikationen, Produktvarianten und Zielgruppen hinweg Konsistenz sicher.

Ein zentraler Aspekt ist dabei die konsequente Trennung von Inhalt, Struktur und Präsentation. Inhalte werden modular aufgebaut, wiederverwendbar gestaltet und in klar definierten Informationsmodellen organisiert. Diese Vorgehensweise entspricht in hohem Maße der datenorientierten Modellierung, wie sie auch im Data Engineering zum Einsatz kommt.

Ergänzt wird das Ganze um Verantwortung für Qualität und Nachvollziehbarkeit. Versionierung, Freigabeprozesse, Validierungen und klare Zuständigkeiten gehören in der Technischen Redaktion zum Alltag. Damit werden genau jene Voraussetzungen geschaffen, die auch im Data Engineering als essenziell gelten, um Daten langfristig nutzbar und vertrauenswürdig zu machen.

Vor diesem Hintergrund lässt sich festhalten, dass Technische Redakteurinnen und Redakteure bereits heute in vielen Bereichen ähnlich wie Data Engineers arbeiten. Bisher liegt der Schwerpunkt allerdings auf Inhalten und Informationen anstatt auf numerischen Daten. Diese vorhandenen Kompetenzen bilden eine hervorragende Grundlage, um bestehende Inhalte für neue Nutzungsszenarien aufzubereiten, insbesondere für KI-gestützte Anwendungen.

Kompetenzen neu gedacht

Im Kontext KI-gestützter Anwendungen erhalten viele Kompetenzen der Technischen Redaktion eine neue Bedeutung. Dabei geht es weniger um den Erwerb zusätzlicher Fähigkeiten als um eine veränderte Perspektive auf bestehende Aufgaben.

Strukturdenken gehört seit jeher zum Kern der Technischen Redaktion. Informationsmodelle, Topic-Konzepte sowie die klare Trennung von Inhalt, Struktur und Präsentation sind Teil der Alltagsarbeit. Im Sinne des Data Engineerings wird dieses Strukturdenken stärker systemübergreifend wirksam. Inhalte werden so nicht nur innerhalb eines Redaktionssystems geplant, sondern als Bestandteil einer organisationsweiten Datenlandschaft verstanden.

Auch der Umgang mit Metadaten bekommt eine neue Bedeutung. Metadaten dienen nicht mehr ausschließlich der internen Organisation oder der Ausgabe. Vielmehr werden sie zum entscheidenden Faktor für Auffindbarkeit, Kontextualisierung und maschinelle Verarbeitung. Eine konsistente Pflege ist Voraussetzung dafür, dass Inhalte automatisiert zusammengestellt, gefiltert oder als Informationsgrundlage für KI-Systeme genutzt werden können.

Ein weiterer Aspekt ist die eindeutige Identifizierbarkeit von Inhalten. Technische Redakteurinnen und Redakteure arbeiten dabei bereits mit Versionen, Varianten und Modulen. Im datenorientierten Kontext rückt die Frage stärker in den Vordergrund, wie Inhalte eindeutig adressierbar und über Systemgrenzen hinweg referenzierbar gemacht werden können.

Dieser neue Denkansatz bedeutet daher für die Technische Redaktion keine Abkehr von bewährten Arbeitsweisen. Vielmehr werden vorhandene Fähigkeiten stärker auf neue Nutzungsszenarien ausgerichtet.

Etablierte Phasen

Der Data-Engineering-Lebenszyklus beschreibt die Abfolge von Schritten, wie Daten ihren Weg von der Entstehung bis zur Nutzung durchlaufen. Überträgt man dieses Modell auf die Technische Redaktion, zeigt sich, dass viele dieser Phasen dort bereits fest etabliert sind (Abb. 01).

Fünf Phasen des Data-Engineering-Lebenszyklus.
Abb. 01 Der Lebenszyklus von Data Engineering. Quelle Michael Sistig

Generierung von Daten

Am Anfang des Lebenszyklus steht die Generierung von Daten. In der Technischen Redaktion entstehen Informationen auf unterschiedliche Weise: durch die Erstellung redaktioneller Inhalte oder die Übernahme von Informationen aus Entwicklung, Marketing oder Produktmanagement. Dazu zählen beispielsweise API-Dokumentationen und Code-Beispiele, einleitende Texte sowie Grafiken oder Icons. Auch automatisch erzeugte Daten gehören dazu, etwa aus Konfigurationssystemen oder Protokollen.

Für die spätere Nutzung ist entscheidend, dass diese Informationen nicht nur inhaltlich korrekt und aktuell sind, sondern auch strukturiert erfasst werden. Bereits bei der Erstellung wird festgelegt, welche Art von Information vorliegt, welchem Thema sie zugeordnet ist und welche Metadaten sie beschreiben. Damit wird die Grundlage für eine spätere Wiederverwendung und maschinelle Verarbeitung der Informationen gelegt.

Organisation der Daten

Die Speicherung der Informationen erfolgt in der Technischen Redaktion typischerweise in einem Content-Management- oder Versionsverwaltungssystem. Aus Sicht des Data Engineerings ist dabei weniger das System relevant als die dahinterliegenden Datenstrukturen. Informationsmodelle, Topic-Typen, Metadaten und Beziehungen bestimmen, wie Inhalte abgelegt, gefunden und verknüpft werden.

Eine konsistente Speicherung ist Voraussetzung dafür, dass Inhalte über längere Zeiträume hinweg gepflegt, versioniert und in unterschiedlichen Kontexten genutzt werden können. Änderungen an Produkten, Normen oder Zielgruppen lassen sich nur dann genau abbilden, wenn die zugrunde liegenden Strukturen stabil und nachvollziehbar sind.

Datenaufnahme und Integration

Im Data Engineering bezeichnet Ingestion die Aufnahme und Integration von Daten aus unterschiedlichen Quellen. Übertragen auf die Technische Redaktion umfasst diese Phase den Import von Produktdaten, die Anbindung externer Informationsquellen oder die Zusammenführung von Inhalten aus unterschiedlichen Systemen.

Auch innerhalb der Technischen Redaktion findet kontinuierlich Datenintegration statt, wenn Inhalte aus verschiedenen Projekten, Produktlinien oder Sprachen zusammengeführt werden. Entscheidend ist dabei, dass Formate, Bezeichnungen und Metadaten vereinheitlicht werden, um Medienbrüche und Inkonsistenzen zu vermeiden.

Transformation und Modellierung

In der Transformationsphase werden Daten so aufbereitet, dass sie für konkrete Szenarien nutzbar sind. In der Technischen Redaktion bedeutet dies, Inhalte zu normalisieren, Variantenlogik und Versionen abzubilden oder unterschiedliche Detailstufen für verschiedene Zielgruppen bereitzustellen.

Hier zeigt sich die Nähe zum Data Engineering besonders deutlich. Informationen werden nicht nur geschrieben, sondern modelliert. Redakteurinnen und Redakteure entscheiden, welche Inhalte zusammengehören, wie sie referenziert werden und in welchen Kontexten sie verfügbar sind. Diese Modellierungsentscheidungen bestimmen maßgeblich, ob Inhalte automatisiert weiterverarbeitet oder von KI-Systemen sinnvoll verarbeitet werden können.

Auslieferung und Nutzung

Am Ende des Lebenszyklus steht die Auslieferung der Inhalte. Klassisch erfolgt diese in Form von Handbüchern, Online-Hilfen oder Servicedokumentationen. Zunehmend kommen jedoch weitere Nutzungsszenarien hinzu, beispielsweise Such- und Assistenzsysteme, dokumentationsbasierte Chatbots oder KI-gestützte Anwendungen.

Damit Inhalte für die unterschiedlichen Szenarien zuverlässig funktionieren, müssen sie nicht nur verständlich formuliert, sondern auch eindeutig referenzierbar und kontextualisiert sein. Die Qualität der Auslieferung hängt somit direkt von der vorgelagerten Strukturierung und Datenaufbereitung ab. Dies ist ein zentrales Prinzip des Data Engineerings. Die einzelnen Phasen des Data-Engineering-Lebenszyklus zeigen, an welchen Stellen Strukturierung und Datenaufbereitung in der Technischen Redaktion bereits heute stattfinden. Die Checkliste hilft, diese Punkte im eigenen Arbeitsumfeld zu überprüfen (Inf. 01).

Checkliste für die Technische Redaktion

 
  • Sind Inhalte klar von Struktur und Präsentation getrennt?
  • Sind Informationsobjekte eindeutig identifizierbar und referenzierbar?
  • Werden Metadaten systematisch und konsistent gepflegt?
  • Sind Inhalte modular aufgebaut und wiederverwendbar?
  • Lassen sich Inhalte automatisiert kombinieren oder filtern?
  • Ist die Produktzuordnung und Version von Informationen nachvollziehbar?
  • Sind Inhalte auch für maschinelle Nutzung geeignet (zum Beispiel Suche, RAG)?
  • Gibt es klare Verantwortlichkeiten für Struktur und Qualität?
  • Sind Inhalte klar von Struktur und Präsentation getrennt?
  • Sind Informationsobjekte eindeutig identifizierbar und referenzierbar?
  • Werden Metadaten systematisch und konsistent gepflegt?
  • Sind Inhalte modular aufgebaut und wiederverwendbar?
  • Lassen sich Inhalte automatisiert kombinieren oder filtern?
  • Ist die Produktzuordnung und Version von Informationen nachvollziehbar?
  • Sind Inhalte auch für maschinelle Nutzung geeignet (zum Beispiel Suche, RAG)?
  • Gibt es klare Verantwortlichkeiten für Struktur und Qualität

Inf. 01 Quelle Claudia Sistig

Stellenwert für die Redaktion

Die Übertragung des Data-Engineering-Lebenszyklus auf die Technische Redaktion macht deutlich, dass die bestehenden Kompetenzen an zusätzlicher Bedeutung gewinnen. Strukturierung, Modellierung und Qualitätssicherung von Informationen werden immer mehr zur Voraussetzung für neue Nutzungsszenarien.

Mit der wachsenden Bedeutung von KI-Anwendungen verschiebt sich der Fokus von der reinen Erstellung von Dokumenten hin zur Bereitstellung belastbarer Informationsgrundlagen. Technische Redakteurinnen und Redakteure übernehmen damit eine Schlüsselrolle an der Schnittstelle zwischen Inhalt, Daten und Nutzung. Sie entscheiden, welche Informationen wie strukturiert, kontextualisiert und zugänglich gemacht werden.

Kompetenzen gewinnen an Bedeutung

Mit der weiteren Verbreitung von KI-Anwendungen wächst die Bedeutung einer verlässlichen, strukturierten und maschinenlesbaren Informationsbasis. Systeme wie dokumentationsbasierte Chatbots, intelligente Suchfunktionen oder auch Assistenzlösungen sind unmittelbar auf die Qualität der zugrunde liegenden Inhalte angewiesen. Technische Redakteurinnen und Redakteure leisten hier einen entscheidenden Beitrag, indem sie Informationen so aufbereiten, dass sie sowohl für menschliche Leserinnen und Leser als auch für KI-Systeme nutzbar sind.

Die Technische Redaktion wird stärker als datenorientierte Disziplin sichtbar. Denn sie vermittelt nicht nur die Inhalte, sondern bereitet sie für unterschiedliche Zielgruppen auf. Technische Redakteurinnen und Redakteure müssen sich für diese Entwicklung nicht neu erfinden. Vielmehr gewinnen vorhandene Kompetenzen an Bedeutung. Strukturierung, Modellierung und Qualitätssicherung von Informationen werden zur Grundlage für neue Nutzungsszenarien – für menschliche Leserinnen und Leser ebenso wie für KI-Systeme.

Data Engineering bietet hierfür eine hilfreiche Perspektive und eine gemeinsame Sprache. Es macht sichtbar, welchen Beitrag die Technische Redaktion zur Nutzbarkeit, Skalierbarkeit und Zukunftsfähigkeit von Informationen leistet, und stärkt damit gleichzeitig die Rolle der Technischen Redaktion im Unternehmen.

Zum Weiterlesen

Reis, Joe/Housley, Matt (2023): Fundamentals of Data Engineering. O’Reilly. (deutsche Fassung 2025: Grundlagen des Data Engineering, Quantum Technologies).

Titelbild von Ausgabe 02 2026 der Fachzeitschrift technische kommunikation.