Alle Beiträge

Thought Leadership

July 22nd, 2025

Der Stand der KI-Bilderzeugung: Erkenntnisse aus über einer Milliarde Bildern

Nachdem über eine Milliarde Bilder generiert und an Spitzentagen 5 Millionen pro Tag erreicht wurden, konnte das KI-Team von Gamma viel darüber lernen, welche KI-Modelle tatsächlich gute Ergebnisse liefern – und wo sie noch Schwächen haben.

Einige wichtige Erkenntnisse:

Die Gesamtbildqualität hat professionelle Standards erreicht.
In allen Bereichen sehen wir bedeutende Fortschritte bei der Übereinstimmung von Bild und Prompt, der Fotorealität und der Qualität der Texterstellung, was einen neuen Standard setzt und frühere Generationen im Vergleich dazu amateurhaft wirken lässt.
Die Texterstellung hat sich enorm verbessert.
Modelle, die früher nur wirre Buchstaben erzeugten, können jetzt oft pixelgenaue Beschilderungen, Poster und Markenmaterialien erstellen.
Unerwünschte Textgenerierung ist ein anhaltendes Problem. Modelle, die beim Generieren von Text auf Anfrage besonders gut sind, fügen nun manchmal unerwünschte Textelemente hinzu, selbst wenn die Prompts ausdrücklich darauf verzichten, Textinhalte zu erwähnen.

Im vergangenen Jahr haben Nutzerinnen und Nutzer bei Gamma über eine Milliarde Bilder auf unserer Plattform generiert. An Spitzentagen wurden bis zu fünf Millionen Generierungen erreicht. Das ist nicht nur ein Meilenstein, sondern auch ein riesiger Datensatz, der zeigt, wie leistungsfähig KI-Bildmodelle in der Praxis sind.

Gamma ist in einer einzigartigen Position, die Modelle zu vergleichen, da wir den Nutzer*innen die Freiheit geben, zwischen den Modellen zu wählen (oder wir stellen für sie die passende Voreinstellung ein), je nach ihren spezifischen Anforderungen an die Bildgenerierung.

Und das zeigen die Daten: Der Bereich der KI-Bilderzeugung entwickelt sich sehr schnell. Modelle, die vor wenigen Monaten noch Schwierigkeiten mit einfacher Texterstellung hatten, generieren jetzt professionelle Marketingmaterialien. Mit dem schnellen Fortschritt entstehen jedoch auch neue Herausforderungen, und einige alte Probleme bestehen trotz der Verbesserungen weiterhin.

Vergleich der einzelnen Modelle

Basierend auf der Analyse von Millionen von Nutzerinteraktionen und Feedbacks zeigen wir hier, wie die führenden Modelle – Imagen 4 Ultra, Flux Kontext Max, GPT Image, Recraft v3 und Ideogram 3.0 – in unseren häufigsten Kategorien des Nutzerfeedbacks abschneiden.

(Hinweis: Wir haben die jeweils hochwertigsten Versionen jedes Modells verwendet, die im Gamma-Produkt verfügbar sind. Wir haben pro Modell für jeden Prompt 3 Bilder generiert und das beste ausgewählt.)

Korrekte Umsetzung von Prompts

Für den ersten Vergleich haben wir gemessen, wie die Modelle einen komplexen Prompt interpretieren. In diesem Fall habe ich Folgendes angefragt:

Ein vielfältiges Team aus vier jungen Fachkräften entwickelt gemeinsam Ideen an einem farbenfrohen Projektboard in einem umgebauten Loft. Die Teamleitung trägt hochgekrempelte Ärmel und leuchtend gelbe Sneaker und zeigt auf innovative Skizzen, während eine Kollegin Haftnotizen zur gemeinsamen Vision hinzufügt. Sonnenlicht fällt durch Industriefenster und beleuchtet den Arbeitsbereich, der mit Prototypen, Inspirationsboards und einigen originellen Schreibtischpflanzen ausgestattet ist. Kaffeetassen und angebrochene Snacks deuten auf eine energiegeladene Sitzung hin. Die Atmosphäre vereint Professionalität mit kreativer Energie, während das Team an seinem bahnbrechenden Konzept arbeitet. Fotorealistisch, warmes Licht, natürliche Gesichtsausdrücke.

A comparison of five different image models' ability to follow a complex prompt.

Hier hatten wir einen klaren Gewinner.

Imagen 4 Ultra trifft nahezu jedes Detail der Eingabe – das Loft-Ambiente, das Sonnenlicht und die warme Beleuchtung, die Prototyp-Modelle und die Atmosphäre von „Professionalität mit kreativer Freiheit“.

Außerdem lieferte es im Vergleich zu anderen Modellen die beste Fotorealität, die eher eine schlechte Gesichtsgenauigkeit aufwiesen.

Textrendering

Unser nächster Test widmete sich einer bestehenden Herausforderung für Bildmodelle: der präzisen Darstellung von komplexem Text.

Wir haben den Modellen den folgenden Prompt gegeben:

Eine leuchtend blaue Infografik mit weißem Text und dem Titel „5 SCHRITTE ZUR BERECHNUNG VON COAST-FIRE“ in großen, fetten Buchstaben oben. Das Layout zeigt 5 nummerierte Schritte in einem Raster, wobei Schritt 5 den unteren Bereich einnimmt. Jeder Schritt hat einen weißen Kreis mit blauer Zahl (1-5) und passendem Symbol. Schritt 1: Geldsack-Symbol, Text „ADDIERE DEINE ALTERSVORSORGEKONTEN : 401K, 403B, IRA, ETC“. Schritt 2: Taschenrechner- und Diagramm-Symbol, Text „NUTZE EINEN ZINSESZINSRECHNER : 5-7 % FÜR SO VIELE JAHRE BIS ZUR RENTE“. Schritt 3: Taschenrechner mit Dollarzeichen-Symbol, Text „NUTZE DIE 4-%-REGEL, UM ZU SEHEN, WIE VIEL DU JÄHRLICH ZUM LEBEN HAST : Z. B. 1.500.000 Dollar x 4 % = 60.000 Dollar pro Jahr“. Schritt 4: Strandsonnenschirm- und Stuhl-Symbol, Text „BERECHNE DEINE ANGEMESSENEN JÄHRLICHEN LEBENSHALTUNGSKOSTEN : MULTIPLIZIERE MIT 80%-100%“. Schritt 5: Geldstapel-Symbol, Text „ÜBERSTEIGT DEIN PROGNOZIERTES ALTERSEINKOMMEN DEINE AKTUELLEN JÄHRLICHEN LEBENSHALTUNGSKOSTEN, HAST DU 'COAST-FIRE' ERREICHT!“.

A comparison of five image models' ability to render complex text.

Hier werten wir dies als ein Unentschieden zwischen Imagen, GPT und Flux. (Die beiden anderen Modelle lagen deutlich hinter diesen Spitzenreitern zurück.) Alle drei Modelle haben das geforderte Format erfolgreich interpretiert:

Titel Platzierung oben in großem, fettem Text.
Fünf verschiedene Schritte, klar nummeriert (1 bis 5) mit weißen Zahlen in blauen Kreisen.
Layout im Rasterstil, wobei Schritt 5 sich über den unteren Bereich erstreckt oder als abschließender Schritt visuell hervorgehoben ist.

Diese Modelle haben die Eingabeaufforderung nicht nur präzise analysiert, sondern auch die visuelle Hierarchie und organisatorische Klarheit eingehalten, die in der Kategorie Infografik gefordert werden.

Symbole wurden einheitlich verwendet und entsprachen jedem Schritt, und jede Infografik fand ein visuelles Gleichgewicht zwischen dekorativen Elementen und informativen Inhalten.

Allerdings war keines der Ergebnisse frei von Tippfehlern und keines konnte den gesamten von uns bereitgestellten Text darstellen. (Auch die Formatierung von Mathematik stellte für GPT und Flux eine Herausforderung dar.) In allen drei Fällen ist jedoch der Großteil des Textes lesbar und stimmt weitgehend mit der beabsichtigten Aussage überein.

Fotorealismus

Anschließend forderten wir die Modelle auf, ihre Fähigkeit zur Erzeugung von Fotorealismus zu bewerten, was eine äußerst hohe visuelle Detailtreue erfordert.

Wir haben den folgenden Prompt verwendet:

Ultra-realistische Nahaufnahme einer 35-jährigen Frau mit Heterochromie: Das linke Auge ist grün, das rechte Auge ist haselnussbraun. Sie sitzt in einem sonnenbeschienenen Café. Die Aufnahme entstand mit einem 85-mm-Objektiv bei Blende f/1,4. Die natürliche Hauttextur zeigt dezente Sommersprossen über dem Nasenrücken, einzelne Wimpern fangen das goldene Licht der Abendsonne ein, das durch ein vom Regen gestreiftes Fenster hinter ihr fällt. Der Fokus liegt exakt auf ihren Augen, in deren Pupillen sich der Fotograf und die Kameraausrüstung spiegeln.

A comparison of five image models' ability to render photorealistic images.

Wieder einmal stach für uns Imagen 4 klar hervor, trotz einer etwas ungewöhnlichen Komposition und einer unnötigen Spiegelung oben rechts.

Was die visuelle Treue betrifft – Heterochromie, Glasreflexionen, Sommersprossen, Tiefenschärfe und sogar Kameraobjektiv-Effekte – war Imagen das einzige Modell, das alle diese Elemente überzeugend darstellte.

Zum Beispiel konnte Imagen den Kontrast zwischen grünen und haselnussbraunen Augen genau abbilden, wobei das linke Auge deutlich grüner war. Flux, GPT und Recraft zeigten hingegen standardmäßig einheitlich gefärbte Augen.

In anderen Vergleichen zeigte sich, dass Imagen bei Gruppenbildern besonders gut abschnitt, da es in der Lage war, die Gesichtsschärfe bei mehreren Personen beizubehalten.

„Do not“-Anweisungen

Wir haben außerdem die Fähigkeit der Modelle verglichen, „Do Not“-Anweisungen zu befolgen, was in der Vergangenheit eine Herausforderung war.

Wir haben den folgenden Prompt verwendet:

Kinderbuchillustration eines lebendigen Zirkus mit einem rot-weiß gestreiften Zirkuszelt, einem bunten, sich drehenden Karussell, in der Luft schwebenden Jonglierbällen, einem regenbogenfarbenen Seil, das zwischen hohen Stangen gespannt ist, sowie verstreuten Popcornschachteln und Zuckerwatteständen. Leuchtende Grundfarben, weiche, abgerundete Formen und verspielte Details wie schwebende Luftballons, drehende Windräder und eine kleine Spielzeugeisenbahn, die das Zelt umrundet. Es dürfen KEINE Tiere, Menschen oder menschliche Figuren in der Szene enthalten sein.

A comparison of five image models' ability to follow "do not" instructions in a prompt.

In diesem Fall war Recraft der Gewinner.

Es hielt sich am genauesten an unsere „Do not“-Anweisungen („es dürfen KEINE“). Zum einen vermied es strikt sowohl anthropomorphe als auch menschliche Figuren, während GPT eine Person beim Jonglieren zeigte und Ideogram Akrobaten in der Luft darstellte.

Es überzeugte sogar bei einer subtileren Erkennung: Imagen, Flux und GPT zeigen alle Karussellpferde, was gegen die „Keine Tiere“-Regel verstößt. Recraft verzichtet ganz auf das Karussell und geht lieber auf Nummer sicher, fängt aber dennoch den Spaß ein.

Diagramme und Flussdiagramme

Abschließend haben wir die Fähigkeit der Modelle getestet, komplexe Diagramme und Flussdiagramme darzustellen. Dazu haben wir folgenden Prompt verwendet:

Übersichtliches Flussdiagramm, das den Ablauf einer SaaS-Produkteinführung zeigt. Rechteckige Felder sind durch Pfeile verbunden und beginnen mit „Marktforschung“, gefolgt von „MVP-Entwicklung“, „Beta-Test“, „Marketingkampagne“, „Produkteinführung“ und enden mit „Analyse nach der Einführung“. Verwende ein Farbschema in Türkis und Lavendel mit klaren Beschriftungen, Entscheidungsrauten an wichtigen Freigabepunkten und Zeitachsen, die unter jedem Meilenstein Phasen von drei bis sechs Monaten anzeigen.

A comparison of five image models' ability to render diagrams and flowcharts.

In diesem Fall hat GPT die Goldmedaille gewonnen.

Während jedes Modell eine einzigartige visuelle Interpretation lieferte, war GPT das einzige, das ein kohärentes, gut lesbares und visuell ansprechendes Flussdiagramm erstellte, das alle wichtigen Anweisungen aus der Vorgabe berücksichtigte.

Der Ablauf von GPT ist klar und ununterbrochen, mit einer konsequenten Verwendung von Pfeilen, die Mehrdeutigkeiten oder Fehlleitungen vermeidet (im Gegensatz zu Flux, das wiederholte oder schleifenförmige Knoten enthält).

Es sorgt außerdem für ein ausgewogenes Verhältnis zwischen Symbolen und Text, und die Illustrationen unterstützen die Botschaft angemessen.

Und trotz ein paar Tippfehlern ist der Text von GPT vollständig lesbar und inhaltlich stimmig.

Fazit

Die KI-Bilderzeugungsmodelle werden nicht nur besser – sie spezialisieren sich. Jedes Modell entwickelt seine eigenen Stärken, was bedeutet, dass die richtige Wahl ganz davon abhängt, was Sie erreichen möchten.

In unserer Anwendung überzeugt Image 4 Ultra durch Fotorealismus, GPT glänzt bei strukturierten Diagrammen und Recraft hat die „Do not“-Vorgaben am besten umgesetzt. Diese Spezialisierung ist die natürliche Weiterentwicklung einer reifenden Technologie.

Vor sechs Monaten mussten wir (und unsere Nutzer*innen) noch mit den Einschränkungen der KI-Bilderzeugung umgehen. Jetzt navigieren wir durch ihre Stärken. Das ist ein viel angenehmeres Problem.

Die Modelle entwickeln sich rasant weiter, und bei Gamma erleben wir die Veränderungen in Echtzeit. Wir werden diese Erkenntnisse in den kommenden Wochen erneut überprüfen – mit spannenden Entwicklungen auf der Bestenliste.

Der Stand der KI-Bilderzeugung: Erkenntnisse aus über einer Milliarde Bildern

Vergleich der einzelnen Modelle

Korrekte Umsetzung von Prompts

Textrendering

Fotorealismus

„Do not“-Anweisungen

Diagramme und Flussdiagramme

Fazit

Wie gute Ideen in die Welt kommen

Produkt

Unternehmen

Social Media

Rechtliches

App herunterladen