Stable Diffusion: Wiederholbare Gesichter generieren

Wiederholbarkeit ist der wichtigste Aspekt bei der Erstellung grafischer Inhalte mit generativen neuronalen Netzen. Dies gilt unabhängig von der Art des Inhalts, den Sie erstellen, sei es eine Film- oder Spielfigur, eine Landschaft oder eine Szenenumgebung. Das Hauptproblem kann folgendermaßen formuliert werden: "Wie kann ich mein Ergebnis wiederholen?". Jedes Mal, wenn Sie beginnen, Bilder mit denselben positiven und negativen Vorgaben zu erstellen, werden Sie unterschiedliche Ergebnisse erhalten. Manchmal sind die Unterschiede gering und akzeptabel, aber in den meisten Fällen können sie ein Problem darstellen.
Stable Diffusion wurde anhand eines großen Datensatzes aus der realen Welt erlernt, was erklärt, warum die Wiederholbarkeit keine Stärke dieses neuronalen Netzwerkmodells ist. Diese Regel gilt jedoch nicht für Fotos von Prominenten. Diese Fotos kommen in der realen Welt viel häufiger vor und sind daher auch in dem Datensatz enthalten, mit dem Stable Diffusion trainiert wurde. Sie können diese Fotos als "Konstante" oder als "Ausgangspunkt" für den Generierungsprozess verwenden.
Methode 1. "Geschüttelt, nicht gerührt"
Natürlich müssen Sie nicht nur Bilder von Prominenten erstellen, sondern können mehrere relevante Aufforderungen verwenden, um mehr oder weniger konsistente Ergebnisse zu erhalten. Nehmen wir zum Beispiel zwei berühmte griechische Sängerinnen: Elena Paparizou und Marina Satti, und erhalten wiederholbare Ergebnisse:
Model: Realistic Vision v6.0 beta 1
Positive prompts:
Elena Paparizou, Marina Satti, fashion portrait, alone, solo, greek woman in beautiful clothes, natural skin, 8k uhd, high quality, film grain, Canon EOS
Negative prompts:
bad anatomy, bad hands, three hands, three legs, bad arms, missing legs, missing arms, poorly drawn face, bad face, fused face, cloned face, worst face, three crus, extra crus, fused crus, worst feet, three feet, fused feet, fused thigh, three thigh, fused thigh, extra thigh, worst thigh, missing fingers, extra fingers, ugly fingers, long fingers, horn, extra eyes, huge eyes, 2girl, amputation, disconnected limbs, cartoon, cg, 3d, unreal, animate, nsfw, nude, censored

Es funktioniert mit allen Berühmtheiten, da Stable Diffusion versucht, die markantesten Gesichtszüge zu reproduzieren. Hier verwenden wir dasselbe Modell und "schütteln" zwei Hollywood-Stars (Dwayne Johnson und Danny Trejo) in eine neue synthetische Figur.
Positive prompts:
Dwayne Johnson, Danny Trejo, fashion portrait, alone, solo, 8k uhd, high quality, film grain, Canon EOS
Negative prompts:
bad anatomy, bad hands, three hands, three legs, bad arms, missing legs, missing arms, poorly drawn face, bad face, fused face, cloned face, worst face, three crus, extra crus, fused crus, worst feet, three feet, fused feet, fused thigh, three thigh, fused thigh, extra thigh, worst thigh, missing fingers, extra fingers, ugly fingers, long fingers, horn, extra eyes, huge eyes, amputation, disconnected limbs, cartoon, cg, 3d, unreal, animate, nsfw, nude, censored

Jedes Mal, wenn Sie die gleichen Prominenten mischen, erhalten Sie ähnliche Ergebnisse. Schauen wir uns eine andere Methode an, um wiederholbare Zeichen zu erzeugen.
Methode 2. Namensanker
Berühmte Persönlichkeiten sind ein guter Anfang, aber lassen Sie uns andere Methoden in Betracht ziehen, um wiederholbare Ergebnisse zu erzielen. Die Antwort ist ganz einfach: Wir können mehrere menschliche Namen verwenden. Jede Nation hat einzigartige Namen, die mit sprachlichen Merkmalen verbunden sind. Der griechische Name Kostas zum Beispiel kann mit "Arbeit" oder "Mühe" übersetzt werden, während Nikos "Sieg des Volkes" bedeutet. Diese beiden Namen schaffen ein einzigartiges Bild einer generierten Person und helfen den Modellen des neuronalen Netzes, unsere Erstellungsziele zu verstehen.
Positive prompts:
Portrait of [Kostas | Nikos] on a white background, greek man, short haircut, beard
Negative prompts:
woman, bad anatomy, bad hands, three hands, three legs, bad arms, missing legs, missing arms, poorly drawn face, bad face, fused face, cloned face, worst face, three crus, extra crus, fused crus, worst feet, three feet, fused feet, fused thigh, three thigh, fused thigh, extra thigh, worst thigh, missing fingers, extra fingers, ugly fingers, long fingers, horn, extra eyes, huge eyes, 2girl, amputation, disconnected limbs, cartoon, cg, 3d, unreal, animate, nsfw, nude, censored

Lassen Sie uns zahlreiche Bilder (80-100) für die weitere Erstellung von Datensätzen erzeugen. Die Hauptaufforderung wurde so gewählt, dass sie praktische Bilder liefert, die leicht vom Hintergrund entfernt werden können. Negative Prompts schützen uns davor, zufällige Bilder mit Verzerrungen in den Datensatz aufzunehmen, ebenso wie Bilder von Frauen.
Tipp: Wenn Sie sehr unterschiedliche Bilder erhalten, versuchen Sie, den Parameter CFG Scale von 7,5 auf 15 zu ändern. Dadurch wird das neuronale Netz gezwungen, den Aufforderungen formaler zu folgen.

Sie können Ihre eigenen Namen mit einem einfachen Namensgenerator wie Behind the Name auswählen. Außerdem können Sie die ControlNet-Funktion verwenden, um mehr Kontrolle zu erhalten.
Methode 3. Aussehen beibringen
Wir können das Endergebnis nicht direkt beeinflussen, aber wir beobachten, dass einige Token (z. B. Token mit Prominentenbildern) mehr Gewicht haben als andere. Das bedeutet, dass wir unser bedingtes "Prominenten"-Token erstellen können, indem wir eine geeignete Eingabeaufforderung für es erstellen und das Modell damit weiter trainieren. Das ist die Funktionsweise von LoRA (Low-Rank Adaptation of Large Language Models). Sie können unsere Schritt-für-Schritt-Anleitung verwenden, um Ihr eigenes LoRA-Modell auf der Grundlage eines selbst erstellten Datensatzes zu trainieren.
Nachdem wir den Hintergrund entfernt haben, erhalten wir klare Porträts und verwenden diese, um ein spezifisches LoRA-Modell zu erstellen. Dieses Modell hilft dabei, ein Gesicht mit ein paar kleinen Änderungen nachzubilden:

Nun können wir diese Figur an verschiedenen Orten generieren, Geschichten erstellen und sie in verschiedene Rollen versetzen: vom Gärtner bis zum Geschäftsmann. Sein Gesicht wird stets erkennbar und wiederholbar sein:

Diese Methode ist nicht ideal, aber sie funktioniert in einer Vielzahl von Situationen perfekt. Sie müssen keinen Datensatz von einer realen Person vorbereiten, und er kann aus der Ferne erstellt werden:

Sie können versuchen, eine solche virtuelle Figur selbst zu erstellen, ohne die Hilfe eines professionellen Designers oder 3D-Modellierungsspezialisten. Alles, was Sie brauchen, sind schnelle GPUs, die Sie in den dedizierten Servern von LeaderGPU finden können.
Siehe auch:
Aktualisiert: 26.03.2025
Veröffentlicht: 21.01.2025