Das Nutzen von KI zum Erzeugen von Bild- und Textinhalten hat bereits tiefgreifende Veränderungen in unseren Methoden zur Informationsbeschaffung und -erstellung sowie in der Bearbeitung von Texten und Bildern mit sich gebracht. Nicht nur im professionellen Umfeld bieten sich neue Möglichkeiten, Bilder und Grafiken als Entwurf generieren zu lassen und später anzupassen, anstatt sie händisch zu erstellen. Dieser Wandel ermöglicht es, Ressourcen effektiver einzusetzen, und bietet neue Möglichkeiten zum Umgang mit vorhandenen Bildern und Informationen, etwa mit Hilfe der Bildgeneratoren Midjourney und Stable Diffusion. In diesem Artikel werden wir die Arbeit mit den beiden Bildgeneratoren genauer beschreiben.
Grundlagen der Bildgeneratoren
Stable Diffusion und Midjourney sind KI-basierte Anwendungen, die den Prozess der Bildgenerierung wesentlich beschleunigen (Inf. 01). Beide Lösungen verwenden neuronale Netzwerke und maschinelles Lernen, um aus Textanweisungen oder anderen visuellen Eingaben, etwa vorhandenem Bildmaterial, neue Bilder und Grafiken zu erzeugen. Sie nutzen eine Methode, die als Latent Diffusion bekannt ist: Um die Bildgenerierung zu steuern, wird ein so genannter Rauschprozess eingesetzt. Rauschprozess bedeutet, dass anfänglich zufällige, scheinbar unzusammenhängende Bildpunkte oder Pixel generiert werden. Dieses Rauschen dient als Startpunkt für den Bildgenerierungsprozess. Mit Hilfe von Künstlicher Intelligenz und maschinellem Lernen werden in wiederholten Verfeinerungs- und Anpassungsschritten diese zufällig generierten Pixel schrittweise in ein sinnvolles und hochauflösendes Bild mit dem gewünschten Motiv transformiert.
Dieser Prozess ermöglicht die schnelle Generierung hochwertiger Bilder, da schrittweise visuelle Informationen hinzugefügt werden. Trotz ihrer Gemeinsamkeiten unterscheiden sich Stable Diffusion und Midjourney in mehreren Aspekten. Stable Diffusion ist eine Open-Source-Lösung, die eine starke Community hinter sich hat, die zahlreiche Modelle und Erweiterungen zur Verfügung stellt. Diese Offenheit fördert die Innovation und ermöglicht es Laien und Profis, die Technologie individuell anzupassen und zu verbessern.
Auf der anderen Seite steht Midjourney, ein kostenpflichtiges Produkt, das ausschließlich mit Discord verwendet werden kann. Discord ist eine beliebte Plattform für Online-Kommunikation, die ursprünglich für die Gaming-Community entwickelt wurde. Das bedeutet, dass Nutzer und Nutzerin Midjourney über Discord und damit die vorhandene Infrastruktur und die Kommunikationskanäle verwenden können. Diese Bindung an eine Plattform hat ihre Vor- und Nachteile. Ein Vorteil dieser Exklusivität besteht darin, dass sie weniger Wartungsaufwand als eine lokale Installation erfordert. Updates und Wartungsarbeiten führen die Discord-Plattform oder die Midjourney Administratoren durch. Das Ergebnis ist ein reibungsloserer Arbeitsprozess. Allerdings setzt dieses Modell eine ständige Verfügbarkeit von Discord und schnelle Antwortzeiten der Discord-Server voraus, was in Situationen mit Netzwerkproblemen oder Serverausfällen zu Einschränkungen führen kann.
Insgesamt können beide Systeme den kreativen Prozess beschleunigen. Durch den Einsatz dieser Techniken können Fachleute aus Design oder auch Technischer Redaktion schnell qualitativ hochwertige Ergebnisse erzielen und so ihre Arbeitsabläufe optimieren.
Bilder mit Midjourney
Mit der aktuellen Version 5.1 kann Midjourney Textprompts in natürlicher Sprache verarbeiten: „Create a minimalist logo with geometric shapes (circle, square, triangle) as main elements. Use a modern colour scheme with a maximum of three colours and emphasise the letters ‚DD’ in the design“. Aber auch sehr kurze Prompts kann die Anwendung verarbeiten: „letters DD, logo for a software development company, futuristic, minimalist, geometric, bold, maximum three colors“.
Die Reihenfolge der Elemente im Prompt bestimmt dabei die Gewichtung. Die gewünschten Eigenschaften können als Aufzählung angegeben werden. Für die folgenden Beispiele wurden zusätzlich die Parameter --s und --v integriert. Mit dem Parameter --v 5.1 verwendet man das aktuelle Modell. Die älteren Versionen 5 und 1–4 sind aktuell weiterhin verfügbar.
Der --stylize Parameter (oder --s) steuert den Grad der künstlerischen Stilisierung in den von Midjourney generierten Bildern. Der Wert dieses Parameters beeinflusst die Intensität, mit der die KI Aspekte wie künstlerische Farbgestaltung, Bildkomposition und Formgebung in den generierten Bildern betont.
Die gültigen Werte für --stylize reichen von 0 bis 1.000, wobei der voreingestellte Standardwert 100 beträgt. Ein geringerer --stylize Wert ergibt Bilder, die dem ursprünglichen Textprompt näher kommen, aber weniger künstlerischen Charakter aufweisen. Im Gegensatz dazu erzeugen höhere Werte sehr künstlerische Darstellungen, die jedoch möglicherweise weniger stark mit dem zugrunde liegenden Prompt verknüpft sind. Für Logos und Icons, die im professionellen Umfeld verwendet werden sollen, sind meist niedrigere Werte (zwischen 10 und 25) sinnvoll.
Praktische Beispiele
Wie können Logos aussehen, die mit diesen Parametern generiert wurden? Welche Varianten und Vorgaben sind möglich und welche Prompts lassen sich gut umsetzen? Hier folgen vier Beispiele.
Beispiel 01 (Abb. 01, links): Minimalistisches Logo mit geometrischen Formen
- Grundkonzept: Minimalistisches Logo aus geometrischen Formen (Kreis, Quadrat, Dreieck), monochrom oder maximal drei Farben
- Prompt (natürliche Sprache): „Create a minimalist logo with geometric shapes (circle, square, triangle) as main elements. Use a modern colour scheme with a maximum of three colours and emphasise the letters ‚DD’ in the design. --s 16 --v 5.1“
Beispiel 02 (Abb. 02, rechts): Abstraktes Logo mit dynamischen Kurven und Linien
- Grundkonzept: Abstraktes, modernes Logo aus dynamischen Linien und Kurven, mit einer Anspielung auf Software, lebendige und kontrastreiche Farben
- Prompt (natürliche Sprache für Version 5): „Create an abstract logo and emphasise the letters ‚DD’ in the design. Use dynamic lines and curves to convey movement and energy. Experiment with vibrant, contrasting colours and subtly incorporate a software reference into the design. --s 16 --v 5“
Beispiel 03 (Abb. 03, links): Futuristisches Logo mit markanten Linien
- Grundkonzept: Abstraktes, modernes Logo mit markanten Linien und spezifischen Farben (blau und meergrün)
- Prompt (kurz): „letters DD, logo for a software development company, futuristic, minimalist, geometric, bold, lines, blue and sea green background --s 16 --v 5.1“
Beispiel 04 (Abb. 04, rechts): Mülleimer-Symbol für eine Software im 70er-Jahre Hippie-Stil
- Grundkonzept: Psychedelisches Logo im Hippie-Stil mit Blumenmuster und Groovy-Typografie, lebendige, kräftige Farben
- Prompt (abstrakt): „trash can, colorful icon for a software, 70s hippie style, floral patterns, groovy lettering, vibrant, bold color scheme, white background --s 16 --v 5.1“
Immer weitermachen
Wenn der erste Versuch nicht gleich funktioniert, ist es wichtig, weitere Varianten auszuprobieren. Eine bewährte Vorgehensweise ist beispielsweise das Ändern der Wortreihenfolge im Prompt, das Verwenden alternativer Bezeichnungen, das Umschreiben oder die Angabe von Beispielen für die gewünschten Muster und Stile.
Auch das Experimentieren mit unterschiedlichen Werten für den Parameter --stylize oder mit zusätzlichen Parametern wie --ar hat sich bewährt. Der Parameter --ar (Aspect Ratio) beeinflusst das Seitenverhältnis des generierten Bildes (das verwendete Seitenverhältnis hat auch Auswirkungen auf die generierten Bilder). Der Parameter --no erlaubt die Angabe von Negativprompts, um unerwünschte Elemente auszuschließen. Mit dem Prompt „trash can, colorful icon for a software, 70s hippie style, floral patterns, groovy lettering, vibrant, bold color scheme, white background --s 16 -- no purple --v 5.1“ würde die KI beispielsweise versuchen, bei der Bildgenerierung die Farbe Violett nicht zu verwenden. Zusätzliche Ideen für Prompts und Beispielbilder sind im Internet verfügbar, etwa bei Lexica oder auf Youtube (Inf. 01).
Grundlagen zu Systemen und Praxis |
Inf. 01 |
Bilder mit Stable Diffusion
Stable Diffusion ist eine rechenintensive KI-Anwendung. Die Qualität und die Art der generierten Bilder hängen stark von den verwendeten Modellen, Einstellungen und Erweiterungen ab. Um Stable Diffusion einzusetzen, gibt es grundsätzlich zwei Möglichkeiten: eine lokale Installation oder den Zugriff auf eine gehostete Installation. Stable Diffusion kann (beispielsweise für Testzwecke) über eine gehostete Installation, etwa auf einem Colab-Notebook oder Huggingface genutzt werden. Diese Option ist einfacher und weniger ressourcenintensiv. Für den professionellen Einsatz ist diese Form des Zugriffs aber kaum anwendbar. Bei gehosteten Installationen sind die verfügbaren Einstellungen, Modelle und Erweiterungen begrenzt.
Die lokale Installation von Stable Diffusion setzt einen modernen Rechner mit einer GPU (Graphics Processing Unit) mit mindestens 4 GB VRAM voraus. Bei einer lokalen Installation haben Benutzer und Administratoren volle Kontrolle über die verwendeten Einstellungen und Erweiterungen sowie die Möglichkeit, zusätzliche Modelle herunterzuladen.
Um die besten Ergebnisse mit Stable Diffusion zu erzielen, ist es wichtig, die unterschiedlichen Aspekte der Prompt-Strukturierung und -Optimierung zu verstehen. Die Einstellungen beeinflussen Qualität und Art der generierten Bilder (Inf. 02).
Einstellungen für Stable Diffusion |
Inf. 02 Quelle Claudia Sistig |
Wie sieht nun die praktische Anwendung der Einstellungen mit einem angepassten Prompt und einem Negativ-Prompt aus? Auch dazu ein Beispiel (abb. 05). Für dieses minimalistische Logo mit geometrischer Form gelten folgende Vorgaben:
a. Prompt: „DD logo icon for software, flat design, futuristic, minimal, bold in blue and sea green colors“
- Negativ-Prompt: „ugly, tiling, out of frame, blurry, blurred, watermark, grainy, signature, cut off, draft“
b. Einstellungen für Stable Diffusion:
- Modell: sd-v1-5-pruned-emanonly.ckpt
- Seed: 717309624 (zufallsgeneriert)
- Breite: 512
- Höhe: 512
- CFG Scale: 7
- Schritte (Steps): 20
- Sampler: Euler a
Wenn Stable Diffusion lokal installiert ist, können verschiedene Modelle und Erweiterungen hinzugefügt werden. Die Vielseitigkeit der Anwendung lässt sich so erheblich steigern. Eine dieser Erweiterungen ist ControlNet, etwa für die (am häufigsten verwendete) Stable Diffusion Web-Oberfläche AUTOMATIC1111. ControlNet ermöglicht eine größere Steuerung des Diffusionsprozesses.
Mit ControlNet können Nutzer festlegen, welche Teile des Originalbildes sie beibehalten und welche sie ignorieren möchten. Dies ist besonders nützlich für Aufgaben wie die Steuerung von Posen und Bildkompositionen. Um ControlNet zu verwenden, müssen zunächst die ControlNet-Modelle und die ControlNet-Erweiterung heruntergeladen werden.
Mit ControlNet können beispielsweise auch vorhandene Logos an neue Stil- oder Farbvorgaben angepasst werden. Die Logos in Abbildung 06 und 07 wurden basierend auf dem Logo in Abbildung 05 mit unterschiedlichen Präprozessoren nach dem folgenden Prompt erstellt:
„‚DD’ logo icon for software, Material Design, 3D effect, bold colors, light and shadow effects, clean lines, modern, minimalist, floating letters, digital painting, Google style, high contrast, Artstation, sharp edges“
Bei Abbildungen von Personen werden die Körperhaltung der abgebildeten Personen und die Positionen der Personen im Raum übernommen. Kleidung, Umgebung und Persönlichkeit der Personen können mithilfe des Prompts verändert werden.
Abb. 05 (links) Minimalistisches Logo generiert mit Stable Diffusion. Quelle Claudia Sistig; Stable Diffusion
Abb. 06 (Mitte) ControlNet 0: preprocessor: lineart_realistic, model: control_v11p_sd15_lineart Quelle Claudia Sistig; Stable Diffusion
Abb. 07 (rechts) ControlNet 1: preprocessor: softedge_hed, model: control_v11p_sd15_softedge, ControlNet 2: preprocessor: depth_zoe, model: control_v11f1p_sd15_depth Quelle Claudia Sistig; Stable Diffusion
Bilder für das Marketing
Neben Produktlogos und Symbolen für die Verwendung in Software-Komponenten können KI-gesteuerte Bildgeneratoren auch für Werbebilder eingesetzt werden, beispielsweise in Präsentationen oder Broschüren. Die generierten Bilder haben den Vorteil, dass sie weitgehend „wartungsfrei“ sind. Da die dargestellten Personen keine Persönlichkeitsrechte haben und auch das Unternehmen nicht verlassen können, müssen die Bilder selten aktualisiert werden.
Mehr noch als bei Produktlogos ist es bei komplexeren Bildern wichtig, die gewünschte Szene möglichst exakt zu beschreiben. Im folgenden Prompt sind daher auch Details wie Haftnotizen und Kaffeebecher relevant. Schließlich tragen sie zur gewünschten Atmosphäre bei.
Um eine formelle Atmosphäre zu erzeugen, sind beispielsweise Schlüsselwörter wie „board meeting“ oder „business attire“ hilfreich. Midjourney Prompt: „Software developers brainstorming in a conference room, professional photography, magazine style, positive, friendly, group, business casual attire, diverse team, large whiteboard, colorful post-it notes, laptops, coffee cups, high contrast, sharp focus --v 5.1 --ar 3:2 --style raw“.Das Ergebnis zeigt Abbildung 08. Mit dem für Abbildung 08 verwendeten Parameterwert „--style raw“ wird der künstlerische Midjourney Stil (weitgehend) deaktiviert, um ein photorealistisches Bild zu erhalten.
Abb. 08 Marketingbild generiert mit Midjourney. Quelle Claudia Sistig; Midjourney
Für die Verwendung mit Stable Diffusion passen wir den Prompt an und fügen einen Negativprompt hinzu. Der Negativ-Prompt wird verwendet, um die Bildgenerierung besser zu steuern und genauer auf die Vorstellungen des Nutzers abzustimmen, indem unerwünschte oder unangemessene Inhalte aus den generierten Bildern entfernt werden. Daher ist es wichtig, im Negativ-Prompt alle unerwünschten Eigenschaften oder Elemente aufzulisten. Das Ergebnis zeigt Abbildung 09, die dazugehörigen Einstellungen und Arbeitsschritte fasst das Info-Element zusammen (Inf. 03).
Abb. 09 Ein Bild mit werblichem Charakter generiert mit Stable Diffusion. quelle Claudia Sistig; Stable Diffusion
Vorgaben und Einstellungen für Abbildung 09 |
Prompt: „Software developers male female brainstorming in a conference room, exquisite detail, 8k, sharp-focus, intricately-detailed, award-winning photograph, elle, high-sharpness, facial-symmetry, ultra-detailed photography, wide angle, positive, friendly, group, business attire, diverse team, laptops, coffee cups, high contrast“ Negativ-Prompt: „nude, nsfw, ugly, duplicate, morbid, mutilated, out of frame, extra fingers, mutated hands, poorly drawn hands, poorly drawn face, mutation, deformed, blurry, bad anatomy, bad proportions, extra limbs, cloned face, disfigured, gross proportions, malformed limbs, missing arms, missing legs, extra arms, extra legs, fused fingers, too many fingers, long neck“ Einstellungen für Stable Diffusion:
Inf. 03 |
Integrieren eines Textgenerators
ChatGPT kann als Prompt-Generator genutzt werden, etwa für Stable Diffusion und Midjourney. Die Bildgeneratoren folgen in der Regel einem bestimmten Stil und stellen Anforderungen an die generierten Prompts (und für Stable Diffusion auch die Negativprompts). Daher besteht der erste Schritt darin zu entscheiden, welcher Bildgenerator verwendet werden soll. Im zweiten Schritt bekommt ChatGPT eine allgemeine Beschreibung der Aufgabenstellung:
„You are SDGPT, an AI art prompting assistant for a popular open source text-to-image AI tool called “Stable Diffusion”. Users install the application locally to create images. It uses prompts and negative prompts with different settings to create aesthetically pleasing images. Your task is now to provide me with an extremely detailed and precise prompt for Stable Diffusion when I give you an input idea. You should always respect the precise prompting style for Stable Diffusion that I will provide next.“
Die Beschreibung ist in Englisch, da die später generierten Prompts für die Bildgeneratoren in englischer Sprache erwartet werden und häufige Sprachwechsel innerhalb einer Konversation bei ChatGPT zu schlechteren Ergebnissen führen können.
Nach der Beschreibung der Aufgabenstellung erhält ChatGPT den Prompt Guide für den gewünschten Bildgenerator. Die Prompt Guides für Stable Diffusion und Midjourney enthalten bereits vorformulierte Beispiele für unterschiedliche Prompts und Stile. Nach dem Einlesen des Prompt Guides fragt ChatGPT nach einer Idee für den gewünschten Prompt. Hier reicht eine grundlegende Beschreibung des gewünschten Elements in englischer Sprache (beispielsweise „Give me a creative prompt to generate a product icon for a software containing the letters ‚DD’“). Diese Anfrage liefert beispielsweise das folgende Ergebnis:
Prompt: „Product icon, ‚DD’, 3D render, digital painting, sleek, modern, minimalist, embossed letters, metallic sheen, neon blue outline, dark matte background, high contrast, sharp edges, vivid, floating, Adobe Illustrator style, highly detailed, Artstation“. Negative Prompt: „grunge, decay, outdated, low contrast, blurred, overly complex, distracting elements, flat design, non-metallic“.
Nach dem Absetzen des Prompts beginnt der Prozess der kontinuierlichen Verbesserung in einem Kreislauf aus Bildgenerierung, Überprüfung der Ergebnisse und Anpassung der Einstellungen und Prompts als Grundlage der nächsten Bildgenerierung.
Hand in Hand
Durch die Kombination von Text-Prompts mit spezifischen Designparametern können KI-gestützte Bildgenerierungsmethoden den kreativen Prozess optimieren und schnell Entwürfe für eine Vielzahl unterschiedlicher Stilrichtungen liefern. In Verbindung mit einem Prozess der kontinuierlichen Verbesserung und Anpassung der verwendeten Einstellungen und Prompts lassen sich die generierten Bilder weiter verfeinern und anschließend manuell optimieren. So können Grafiker, Designer und Technische Redakteure die Möglichkeiten der KI-gestützten Bildgenerierung als Grundlage ihrer eigenen Arbeit verwenden.