Ein Prompt — 5 Neue Generatoren: Runde 2 des KI-Vergleichs
AnleitungenVergleiche

Ein Prompt — 5 Neue Generatoren: Runde 2 des KI-Vergleichs

·10 Min. Lesezeit

Ein Prompt – 5 neue Generatoren: Runde 2 des KI-Vergleichs

Wir haben 5 weitere KI-Modelle mit denselben Prompts getestet. Können Newcomer mit den Marktführern mithalten? Überraschende Ergebnisse folgen.


Runde 2: Neue Herausforderer

Nach unserem ersten Vergleich, in dem wir FLUX, Ideogram, Stable Diffusion, Seedream und Nano Banana getestet haben, erreichten uns unzählige Fragen: „Was ist mit Imagen 4?", „Hast du Recraft ausprobiert?", „Was ist mit den neuen chinesischen Modellen?"

Völlig berechtigt. Die Welt der KI-Bildgenerierung entwickelt sich rasant. Die Top-Modelle von heute könnten morgen schon alte Nachrichten sein. Also haben wir uns 5 weitere Generatoren geschnappt – einige brandneu, andere unterschätzt – und sie mit denselben drei Prompts konfrontiert.

Gleiche Regeln: kein Feintuning, keine Optimierung, pure Ehrlichkeit. Ein Text – fünf Ergebnisse. Schauen wir mal, was passiert.


Das neue Line-up

Bevor wir uns die Ergebnisse anschauen, stellen wir kurz die heutigen Teilnehmer vor.

Z-Image Turbo (Pruna AI)

Ein optimiertes Modell von Pruna AI mit Fokus auf Geschwindigkeit ohne Qualitätsverlust. „Turbo" ist nicht nur Marketing – dieses Modell generiert tatsächlich schnell und behält dabei eine wettbewerbsfähige Qualität bei. Auf einer Effizienz-ersten-Architektur aufgebaut, ist es für hochvolumige Workflows konzipiert, bei denen Geschwindigkeit zählt. Verfügbar über Replicate mit budgetfreundlicher Preisgestaltung.

Qwen-Image (Alibaba)

Aus Alibabas Qwen-Familie (Tongyi Qianwen) kommt dieses Vision-Language-Modell. Als Teil von Chinas Vorstoß in die KI-Generierung bringt Qwen-Image starke technische Fähigkeiten mit, besonders bei asiatischer Ästhetik und kulturellen Referenzen. Interessanter Ansatz beim Prompt-Verständnis mit integrierter mehrsprachiger Unterstützung.

Recraft V3 (Recraft AI)

Die dritte Iteration von Recraft konzentriert sich auf Design und Illustrationsarbeit. Anders als fotorealismus-lastige Modelle glänzt Recraft V3 bei Vektor-Grafiken, Logo-Design und stilisierten Illustrationen. Version 3 hat bessere Fotorealismus-Unterstützung hinzugefügt, während die illustrativen Stärken erhalten blieben. Ein Spezialist, der versucht, ein Generalist zu sein.

Imagen 4 (Google)

Googles neuester Beitrag im Bildgenerierungs-Wettrennen. Imagen 4 bringt DeepMinds Forschung in die Produktion, mit Schwerpunkt auf Sicherheit, Genauigkeit und Prompt-Treue. Die starke Unterstützung durch Googles Infrastruktur und Forschung bedeutet konstante Qualität und regelmäßige Updates. Die Antwort des Konzernriesen auf Open-Source-Modelle.

FLUX Schnell (Black Forest Labs)

Von den Machern des ursprünglichen FLUX kommt Schnell (Deutsch für „fast"). Eine verschlankte Version von FLUX, optimiert für Geschwindigkeit – weniger Diffusionsschritte, schnellere Inferenz, geringere Rechenkosten. Tauscht etwas Qualität gegen Geschwindigkeit, behält aber die FLUX-DNA bei. Perfekt für Iterationen und Vorschauen.


Test #1: Einfacher Prompt

Prompt: A golden retriever puppy sitting in a field of sunflowers, golden hour lighting, photorealistic

Wir beginnen mit demselben einfachen Prompt aus Runde 1. Ein Welpe in Sonnenblumen. Sollte einfach sein, oder?

Was wir erwarten

Ein realistisches Foto eines Golden-Retriever-Welpen zwischen Sonnenblumen, warmes Golden-Hour-Licht. Einfach, klar, keine Tricks.

Worauf man achten sollte

  • Fotorealismus: echte Fotoqualität oder offensichtlich gerendert
  • Beleuchtung: echte Golden Hour oder nur „hell"
  • Fell-Textur: der Teufel steckt im Detail
  • Sonnenblumen-Genauigkeit: korrekte Größe und Struktur

Ergebnisse

Modellvergleich - Test 1

Z-Image Turbo lieferte überraschend saubere Ergebnisse. Guter Fotorealismus, ordentliche Beleuchtung. Die Fell-Textur ist etwas weicher als bei Top-Modellen, aber für ein geschwindigkeitsorientiertes Modell beeindruckende Qualität. Sonnenblumen wirken natürlich. Solide Baseline-Performance.

Qwen-Image erzeugte ein sehr poliertes Bild mit exzellenter Komposition. Interessanter Farbausgleich – etwas kühler als traditionelle Golden Hour, aber ästhetisch ansprechend. Die Detailarbeit ist stark. Das Modell „versteht" die Szene eindeutig gut.

Recraft V3 hatte hier etwas Schwierigkeiten. Das Ergebnis neigt leicht zum Illustrativen statt Fotorealistischen – man sieht seine Design-DNA durchscheinen. Trotzdem schön anzusehen, aber trifft das „fotorealistische" Ziel nicht so stark wie die Konkurrenz. Sonnenblumen sind allerdings gut gerendert.

Imagen 4 produzierte ein sehr Google-typisches Ergebnis: sauber, sicher, technisch korrekt. Exzellente Beleuchtung, gute Fell-Textur, alles an seinem Platz. Fehlt vielleicht etwas „Charakter" im Vergleich zu anderen, aber man kann die technische Ausführung nicht bemängeln. So sieht „Corporate AI" aus – verlässlich und poliert.

FLUX Schnell zeigte, warum die FLUX-Familie respektiert wird. Selbst die „schnelle" Version behält starke Qualität bei. Großartige atmosphärische Beleuchtung, gute Schärfentiefe, natürlich aussehender Welpe. Die Geschwindigkeitsoptimierung scheint nicht viel zu opfern. Beeindruckende Balance.


Test #2: Mittlere Komplexität

Prompt: A weathered fisherman in his 60s mending a net on a wooden dock, early morning fog, fishing boats in the background, cinematic lighting, shallow depth of field

Jetzt fügen wir Komplexität hinzu. Eine spezifische Person, Atmosphäre, Umgebungs-Storytelling. Hier zeigen Modelle ihre Persönlichkeit.

Worauf man achten sollte

  • Gesicht und Hände: Altersgenauigkeit, Falten, Finger
  • Nebel-Atmosphäre: natürlich oder künstlich
  • Netz-Textur: sich wiederholende Muster sind schwer für KI
  • Schärfentiefe: ordentliche Hintergrund-Unschärfe
  • Filmisches Gefühl: sieht es wie ein Film-Still aus

Ergebnisse

Z-Image Turbo bewältigte dies einigermaßen gut. Gesicht sieht angemessen gealtert aus, Hände sind akzeptabel (eine Schwachstelle vieler Modelle). Nebel ist vorhanden, aber etwas gleichförmig. Netz ist vereinfacht, aber lesbar. Insgesamt ein kompetentes Ergebnis, das keine Preise gewinnen wird, aber seinen Zweck erfüllt.

Qwen-Image beeindruckte hier. Exzellente Gesichtsdetails mit natürlich wirkenden Falten und verwitterter Haut. Guter atmosphärischer Nebel, schönes Color-Grading. Das Netz wird besser gehandhabt als bei den meisten Konkurrenten. Schärfentiefe funktioniert gut. Starke filmische Atmosphäre. Dieses Modell scheint bei menschlichen Motiven zu brillieren.

Recraft V3 zeigt erneut seine Illustrations-Wurzeln. Das Ergebnis ist mehr Concept-Art als Fotografie. Auf seine eigene Weise schön, aber entfernt sich von „filmischer Fotografie" hin zu „gemalter Illustration". Wenn man ein Storyboard oder Konzept-Piece wollte, perfekt. Für Fotorealismus nicht ganz da.

Imagen 4 lieferte solide technische Ausführung. Gute Gesichtsalterung, ordentlicher Nebel, akzeptable Schärfentiefe. Die Szene fühlt sich etwas „inszeniert" an – sehr sauber, sehr kontrolliert. Weniger körniger Realismus, mehr „TV-Werbespot"-Ästhetik. Qualität ist hoch, Charakter ist moderat.

FLUX Schnell schuf eine atmosphärische, stimmungsvolle Szene. Großartige Lichtarbeit, gute Gesichtsdetails, Nebel fühlt sich natürlich an. Das Netz ist vereinfacht, aber die Gesamtkomposition ist stark. Dieses Modell schlägt durchweg über seiner „schnellen" Kategorisierung.


Test #3: Komplexer Prompt

Prompt: A tiny astronaut sitting on the edge of a coffee cup, looking up at a galaxy swirling inside the cup like cream in coffee, miniature tilt-shift photography style, dramatic lighting from above, hyperdetailed, 4K

Der härteste Test. Maßstabsspiele, unmögliche Physik, spezifischer Fotografie-Stil. Das trennt Konzeptverständnis von Keyword-Matching.

Worauf man achten sollte

  • Maßstab: ist der Astronaut wirklich winzig oder nur klein
  • Tilt-Shift-Effekt: charakteristische Randunschärfe
  • Galaxie im Kaffee: wurden die Konzepte verschmolzen oder entstand Chaos
  • Beleuchtung: dramatisch von oben oder nur „hell von oben"
  • Gesamtkohärenz: einzelnes Foto oder offensichtliche Komposition

Ergebnisse

Z-Image Turbo machte einen ehrlichen Versuch. Astronaut ist da, Tasse ist da, etwas Wirbel im Kaffee. Aber die Konzepte verschmelzen nicht vollständig – fühlt sich mehr an wie zusammengesetzte separate Elemente. Tilt-Shift ist minimal. Für ein Geschwindigkeitsmodell, das einen komplexen Prompt angeht, respektabler Versuch, aber nicht umwerfend.

Qwen-Image schuf etwas Interessantes. Gute Maßstabsarbeit mit dem winzigen Astronauten, schöner Galaxie-Effekt im Kaffee. Beleuchtung ist dramatisch. Allerdings ist Tilt-Shift subtil bis abwesend. Das Modell verstand das Konzept eindeutig und führte die meisten Elemente gut aus. Starke Interpretation, wenn nicht perfekte Ausführung.

Recraft V3 ging voll auf künstlerische Interpretation. Schuf eine wunderschöne, stilisierte Szene, die mehr „Concept-Art" als „Tilt-Shift-Fotografie" ist. Galaxie sieht fantastisch aus, Astronaut ist gut gerendert, aber es ist eindeutig Illustration, nicht Fotografie. Wenn man Kunst wollte, hat man sie bekommen. Wenn man Fotorealismus wollte, ist das hier nicht richtig.

Imagen 4 ging das methodisch an. Alle Elemente sind vorhanden: winziger Astronaut, Galaxie-Kaffee, Overhead-Beleuchtung. Ausführung ist sauber und sicher. Das Ergebnis ist technisch korrekt, aber fehlt etwas „Magie" – es fühlt sich konstruiert statt eingefangen an. Googles Safety-first-Ansatz zeigt sich hier.

FLUX Schnell überraschte uns. Schaffte es, das Konzept gut einzufangen mit guter Maßstabsarbeit, schöner Galaxie-Integration und versuchtem Tilt-Shift-Effekt. Die Beleuchtung ist dramatisch, Komposition ist durchdacht. Für ein „schnelles" Modell schlägt es weit über seiner Gewichtsklasse bei komplexen Prompts.


Allgemeine Beobachtungen: Runde 2

Nach dem Testen dieser fünf Modelle zeichnen sich einige Muster klar ab.

Geschwindigkeit vs. Qualität ist nicht immer ein Trade-off

Sowohl Z-Image Turbo als auch FLUX Schnell sind auf Geschwindigkeit optimiert, liefern aber beide Qualität, die mit langsameren Modellen konkurriert. Die „schnelle" Kategorie ist deutlich gereift. Man muss nicht mehr immer zwischen Geschwindigkeit und Qualität wählen.

Regionale Unterschiede in der Ästhetik

Qwen-Image (chinesisch) und Imagen 4 (amerikanisch) zeigen subtile, aber bemerkbare Unterschiede in Color-Grading, Kompositionspräferenzen und Detailbetonung. Kultureller Hintergrund der Trainingsdaten und Entwicklerentscheidungen prägen den Output. Keines ist „besser" – nur anders.

Spezialisten brauchen spezifische Anwendungsfälle

Recraft V3 versucht weiter, fotorealistisch zu sein, obwohl sein Herz eindeutig bei Illustration und Design liegt. Es ist kein „schlechtes" Modell – es ist ein Spezialist, der aufgefordert wird, ein Generalist zu sein. Nutzt es für das, worin es gut ist (Vektor-Grafiken, stilisierte Illustrationen), und es wird glänzen.

Corporate vs. Open-Source-Vibes

Imagen 4 (Google) hat dieses polierte, sichere, Corporate-Gefühl. Technisch exzellent, aber kreativ konservativ. Open-Source-nahe Modelle wie FLUX Schnell gehen mehr kreative Risiken ein. Beide Ansätze sind für verschiedene Anwendungsfälle valide.

Prompt-Verständnis wird besser

Alle fünf Modelle verstanden komplexe Prompts besser als Modelle von vor noch sechs Monaten. Das „winziger Astronaut in Kaffeetasse"-Konzept, das ältere Modelle verwirrt hätte, wird jetzt von den meisten kompetent gehandhabt. Die Branche reift schnell.


Vergleich: Runde 1 vs. Runde 2

Wie schlagen sich unsere neuen Herausforderer gegen das Line-up aus Runde 1?

Bester Fotorealismus:

  • Runde 1: Ideogram v3 Turbo
  • Runde 2: Qwen-Image
  • Vorteil: Unentschieden – beide brillieren in verschiedenen Aspekten

Beste Atmosphäre/Kinematografie:

  • Runde 1: FLUX 2 Max
  • Runde 2: FLUX Schnell
  • Vorteil: Runde 1 (Max ist immer noch besser als Schnell)

Beste Geschwindigkeit/Qualität-Balance:

  • Runde 1: Seedream 4.5
  • Runde 2: FLUX Schnell
  • Vorteil: Runde 2 (Schnell ist beeindruckend schnell)

Beste für komplexe Prompts:

  • Runde 1: FLUX 2 Max
  • Runde 2: Qwen-Image
  • Vorteil: Runde 1 (Max handhabt Komplexität besser)

Zuverlässigste/Konsistenteste:

  • Runde 1: Stable Diffusion 3.5
  • Runde 2: Imagen 4
  • Vorteil: Runde 1 (SD 3.5 ist die langweilig zuverlässige Wahl)

Spickzettel: Wer für was

Aufgabe Beste Wahl aus Runde 2 Warum
Hochvolumiger Workflow Z-Image Turbo Schnelle Generierung, ordentliche Qualität, budgetfreundlich
Menschen-Porträts, Gesichter Qwen-Image Exzellente Gesichtsdetails und Hauttextur
Design, Illustrationsarbeit Recraft V3 Für stilisierte Grafiken gebaut, nicht Fotorealismus
Sicherer, Corporate-Content Imagen 4 Google-gebackene Qualität, sicherheitsfokussiert
Schnelle Iterationen, Vorschauen FLUX Schnell Schnell wie Turbo, Qualität wie FLUX
Komplexe Kompositionen Qwen-Image Starkes Prompt-Verständnis

Praktische Tipps: Runden 1 & 2 kombiniert

Wenn du beide Vergleichs-Artikel gelesen hast, hier ist, was du wissen musst:

Für maximale Qualität: Verwende FLUX 2 Max (Runde 1) oder Ideogram v3 (Runde 1), wenn Qualität oberste Priorität hat und Geschwindigkeit keine Rolle spielt.

Für Geschwindigkeit: FLUX Schnell (Runde 2) oder Z-Image Turbo (Runde 2), wenn du schnell iterieren musst oder Budget-Einschränkungen hast.

Für Porträts: Qwen-Image (Runde 2) oder Ideogram v3 (Runde 1) brillieren beide bei menschlichen Gesichtern und Hauttextur.

Für Zuverlässigkeit: Stable Diffusion 3.5 (Runde 1) oder Imagen 4 (Runde 2), wenn du vorhersehbare, konsistente Ergebnisse brauchst.

Für Experimente: Probiere alles über Replicate aus. Bei $0.02-0.05 pro Bild kostet das Testen verschiedener Modelle weniger als ein Kaffee.

Meistere die Grundlagen: Das Verständnis von Posen, Emotionen, Beleuchtung und Komposition ist wichtiger als welches Modell du verwendest. Ein guter Prompt auf einem „schlechteren" Modell schlägt einen schlechten Prompt auf dem „besten" Modell. Schau dir unsere Guides für 500 Posen und 132 Emotionen an, um deine Prompting-Fähigkeiten zu verbessern.


Unterm Strich

Runde 2 zeigt, dass die KI-Generierungs-Landschaft gesund und wettbewerbsfähig ist. Kein einzelnes Modell dominiert alles. Geschwindigkeitsoptimierte Modelle werden gut genug, um qualitätsfokussierte herauszufordern. Regionale Player (Qwen aus China) bringen verschiedene Perspektiven ein.

Das beste Modell ist das, das zu deinem spezifischen Anwendungsfall, Budget und Workflow passt. Folge nicht dem Hype – teste selbst. Bei Replicate-Preisen gibt es keine Ausrede, nicht zu experimentieren.

Und denk dran: All diese Modelle werden in sechs Monaten veraltet sein. Die Technologie bewegt sich so schnell. Bleib neugierig, teste weiter und hänge nicht zu sehr an einer einzelnen Plattform.


Willst du bessere KI-Bilder erstellen, unabhängig davon, welches Modell du verwendest? Meistere die Grundlagen mit unserem 500 Posen Guide und 132 Emotionen Guide – universelle Fähigkeiten, die auf jedem Generator funktionieren.

Bereit für bessere KI-Inhalte?

Holen Sie sich professionelle Anleitungen mit Referenzfotos — hören Sie auf zu raten, fangen Sie an zu kreieren.

Anleitungen ansehen

Verwandte Guides