Alle berichten

Thought Leadership

July 22nd, 2025

De staat van AI beeldgeneratie: Leren van meer dan een miljard afbeeldingen

Na het genereren van meer dan een miljard afbeeldingen en het bereiken van 5 miljoen afbeeldingen per dag op piekdagen, heeft het AI-team van Gamma veel geleerd over welke AI-modellen daadwerkelijk iets opleveren en waar ze nog tekortschieten.

Enkele belangrijke bevindingen:

De algemene beeldkwaliteit heeft professionele normen bereikt.
Over de hele linie zien we aanzienlijke verbeteringen in de uitlijning van afbeeldingen, fotorealisme en de kwaliteit van tekstweergave, waarmee een nieuwe norm wordt gesteld die de vorige generaties amateuristisch doet lijken.
Het renderen van tekst is enorm verbeterd.
Modellen die vroeger rommelige letters produceerden, kunnen nu vaak pixelperfecte bewegwijzering, posters en merkmaterialen maken.
Het ongevraagd genereren van tekst is een hardnekkig probleem geworden. Modellen die uitblinken in het renderen van tekst wanneer daarom wordt gevraagd, voegen nu soms ongewenste tekstelementen toe, zelfs wanneer prompts expliciet voorkomen dat er tekstinhoud wordt genoemd.

In het afgelopen jaar hebben onze gebruikers bij Gamma meer dan een miljard afbeeldingen gegenereerd via ons platform, met piekdagen die opliepen tot 5 miljoen generaties. Dat is niet zomaar een mijlpaal, het is een enorme dataset die precies laat zien hoe goed AI-afbeeldingsmodellen presteren in de echte wereld.

Gamma bevindt zich in een unieke positie om de modellen te vergelijken, omdat we gebruikers de vrijheid geven om tussen modellen te kiezen (of we stellen de juiste standaard voor hen in) op basis van hun specifieke behoeften voor beeldgeneratie.

En hier is wat die gegevens laten zien: de AI-ruimte voor het genereren van afbeeldingen versnelt in hoog tempo. Modellen die enkele maanden geleden nog moeite hadden met het renderen van basistekst, maken nu professioneel marketingmateriaal. Maar snelle vooruitgang brengt voorspelbare uitdagingen met zich mee en sommige oude problemen blijven ondanks de vooruitgang bestaan.

Vergelijking per model

Op basis van de analyse van miljoenen gebruikersinteracties en feedback is dit hoe de toonaangevende modellen - Imagen 4 Ultra, Flux Kontext Max, GPT Image, Recraft v3 en Ideogram 3.0 - het doen in onze meest voorkomende categorieën van gebruikersfeedback.

(Opmerking: We gebruikten de meest hoogwaardige versies van elk model die beschikbaar zijn in het Gamma-product. We genereerden 3 afbeeldingen per model voor elke prompt en kozen de beste)

Snelle naleving

Voor de eerste vergelijking hebben we gemeten hoe de modellen een complexe vraag interpreteren. In dit geval vroeg ik het volgende:

Een divers team van vier jonge professionals brainstormt rond een kleurrijk projectbord in een omgebouwde zolderruimte. De teamleider, met opgerolde mouwen en felgele sneakers, wijst op innovatieve schetsen terwijl een collega plakbriefjes toevoegt aan hun gedeelde visie. Zonlicht stroomt door industriële ramen en verlicht hun werkruimte vol prototypes, creatieve inspiratieborden en een paar eigenzinnige bureaiplanten. Koffiekopjes en half opgegeten snacks wijzen op hun energieke sessie. De sfeer balanceert professionaliteit met creatieve energie terwijl ze samenwerken aan hun baanbrekende concept. Fotorealistisch, warme belichting, natuurlijke uitdrukkingen.

A comparison of five different image models' ability to follow a complex prompt.

In dit geval hadden we een duidelijke winnaar.

Imagen 4 Ultra benadert bijna elk detail in de prompt - de loft-setting, het zonlicht en de warme verlichting, de prototype-modellen en de sfeer van "professionaliteit met een creatief bureau".

Bovendien gaf het het beste fotorealisme weer in vergelijking met andere modellen, die een slechte gezichtsintegriteit lieten zien.

Tekstweergave

Onze volgende test betrof een oude uitdaging voor afbeeldingsmodellen: het nauwkeurig weergeven van complexe tekst.

We gaven de modellen de volgende prompt:

Een helderblauwe infographic met witte tekst met de titel "5 STAPPEN VOOR HET BEREKENEN VAN KUSTVUUR" in grote vette letters bovenaan. De lay-out toont 5 genummerde stappen in een raster met stap 5 onderaan. Elke stap heeft een witte cirkel met blauw nummer (1-5) en bijbehorend pictogram. Stap 1: icoontje van geldbuidel, tekst "TOEVOEG UW RETIREMENT ACCOUNTS : 401K, 403B, IRA, ETC". Stap 2: rekenmachine en grafiek icoon, tekst "GEBRUIK EEN COMPOUND INTEREST CALCULATOR : 5-7% VOOR HOE VEEL JAAR TOT HET PENSIOEN". Stap 3: rekenmachine met dollartekenpictogram, tekst "GEBRUIK DE 4%-REGEL om te ZIEN VAN HOE VEEL JAARLIJKS JE KAN LEVEN : EX. $1.500.000 X 4% = $60.000 PER JAAR". Stap 4: strandparasol en stoel icoon, tekst "BEREKEN UW COMFORTABELE JAARLIJKSE LEVENSUITGAVEN : VERMENIGVULDIG MET 80%-100%". Stap 5: geldstapelicoon, tekst "ALS UW GEPROJECTEERDE RETIREMENT INKOMEN UW HUIDIGE JAARLIJKSE LEVENSUITGAVEN VERBETEREN, HEBT U KUSTVUUR!

A comparison of five image models' ability to render complex text.

Hier beoordelen we een gelijkspel tussen Imagen, GPT en Flux. (De andere twee modellen bleven ver achter bij deze koplopers.) Alle drie de modellen interpreteerden met succes het vereiste formaat:

Titel bovenaan in grote, vette tekst.
Vijf verschillende stappen, duidelijk genummerd (1 tot 5) met behulp van witte nummers in blauwe cirkels.
Rastervormige lay-out, met stap 5 onderaan of visueel verankerd als afsluitende stap.

Deze modellen pareerden niet alleen nauwkeurig de prompt, maar hielden zich ook aan de visuele hiërarchie en organisatorische duidelijkheid die de categorie infographic vereist.

Pictogrammen werden op een consistente manier gebruikt die overeenkwam met elke stap, en elke infographic had een visueel evenwicht tussen decoratieve elementen en informatieve inhoud.

Dat gezegd hebbende, geen van deze outputs was typefoutvrij en geen van hen was in staat om de volledige tekst die we aanleverden op te nemen. (De opmaak van wiskunde was ook een uitdaging voor GPT en Flux.) Maar in alle drie de gevallen is het grootste deel van de tekst leesbaar en sluit nauw aan bij de bedoelde boodschap.

Fotorealisme

Vervolgens hebben we de modellen getest op hun vermogen om fotorealisme te leveren, wat een extreem fijne visuele getrouwheid vereist.

We gebruikten de volgende prompt:

Ultrarealistische close-up foto van een 35-jarige vrouw met heterochromie, linkeroog groen, rechteroog hazelnoot, zittend in een zonovergoten koffietent, gefotografeerd met 85mm lens bij f/1.4 diafragma. Natuurlijke huidtextuur toont subtiele sproeten op haar neusbrug, afzonderlijke wimpers vangen het gouden licht op dat door het met regen bedekte raam achter haar schijnt. Exacte focus op haar ogen waar je de reflectie van de fotograaf en camera-apparatuur in haar pupillen kunt zien.

A comparison of five image models' ability to render photorealistic images.

Wederom kwam Imagen 4 duidelijk naar voren, ondanks een ietwat vreemde compositie en onnodige reflectie rechtsboven.

In termen van visuele getrouwheid-heterochromie, glasreflecties, sproeten, scherptediepte en zelfs cameralens-effecten was Imagen het enige model dat alle van deze elementen overtuigend kon leveren.

Imagen kon bijvoorbeeld het contrast tussen groene en hazelnootkleurige ogen nauwkeurig weergeven, waarbij het linkeroog duidelijk groener was. Flux, GPT en Recraft gaven allemaal standaard uniform gekleurde ogen weer.

In andere vergelijkingen zagen we Imagen uitblinken in groepsfoto's, waarbij het in staat was om de gezichtshelderheid van een groep mensen te behouden.

"Instructies "Niet doen

We vergeleken ook het vermogen van de modellen om "Niet doen"-instructies op te volgen, wat van oudsher een uitdaging is.

We gebruikten de volgende prompt:

Kinderboekillustratie van een levendig circus met rood-wit gestreepte big top tent, kleurrijke draaiende carrousel, jongleerballen bevroren in de lucht, koord met regenboogstrepen dat zich uitstrekt tussen hoge palen en verspreide popcorndozen en suikerspinkraampjes. Heldere primaire kleuren, zachte ronde vormen en grillige details zoals zwevende ballonnen, draaiende pinwielen en een speelgoedtreintje dat rond de tent cirkelt. Voeg GEEN dieren, mensen of menselijke figuren toe aan de scène.

A comparison of five image models' ability to follow "do not" instructions in a prompt.

In dit geval was Recraft de winnaar.

Het hield zich het meest aan onze "niet doen" instructies. Zo werden zowel antropomorfe als menselijke figuren strikt vermeden, terwijl GPT een jonglerend persoon bevatte en Ideogram acrobaten in de lucht liet zien.

Het blonk zelfs uit in een subtielere vangst - Imagen, Flux en GPT laten allemaal draaimolenpaarden zien, die de "geen dieren"-clausule overtreden. Recraft slaat de draaimolen helemaal over en kiest voor voorzichtigheid terwijl het toch leuk blijft.

Diagrammen en stroomschema's

Tot slot hebben we getest of de modellen complexe diagrammen en stroomdiagrammen kunnen weergeven. We gebruikten de volgende prompt:

Schoon stroomdiagram dat het lanceringsproces van een SaaS-product laat zien met rechthoekige vakken verbonden door pijlen, beginnend bij "Marktonderzoek" via "MVP-ontwikkeling", "Bèta-testen", "Marketingcampagne", "Productlancering" en eindigend bij "Post-Launch Analytics"."Gebruik een groen en lavendelkleurig kleurenschema met duidelijke labels, beslissingsdiamanten voor belangrijke goedkeuringspoorten en tijdlijnindicatoren met fasen van 3-6 maanden onder elke belangrijke mijlpaal.

A comparison of five image models' ability to render diagrams and flowcharts.

In dit geval pakte GPT het goud.

Hoewel elk model een unieke visuele interpretatie bracht, was GPT de enige die een samenhangend, leesbaar en visueel communicatief stroomschema leverde dat alle belangrijke instructies van de prompt respecteerde.

De stroom van GPT is duidelijk en ononderbroken, met consistent pijlgebruik dat dubbelzinnigheid of misleiding vermijdt (in tegenstelling tot Flux, dat herhaalde of lusvormige knooppunten bevat).

Er is ook een goed evenwicht tussen pictogrammen en tekst en de illustraties ondersteunen de boodschap op de juiste manier.

En ondanks een paar typefouten is de tekst van GPT volledig leesbaar en semantisch correct.

Conclusie

De AI-modellen voor het genereren van afbeeldingen worden niet alleen beter, ze specialiseren zich ook. Elk model vindt zijn eigen kracht, wat betekent dat de juiste keuze volledig afhangt van wat je probeert te bereiken.

In ons gebruik blinkt Image 4 Ultra uit in fotorealisme, GPT schittert met gestructureerde diagrammen en Recraft volgde de "doe niet" voorkeuren het beste. Deze specialisatie is de natuurlijke evolutie van een volwassen technologie.

Zes maanden geleden beheersten wij (en onze gebruikers) de beperkingen van AI-afbeeldingsgeneratie. Nu navigeren we door de sterke punten. Dat is een veel beter probleem om te hebben.

De modellen evolueren snel en bij Gamma zien we de veranderingen in realtime. We zullen deze bevindingen de komende weken opnieuw bekijken, met onvermijdelijke wijzigingen in het klassement.

De staat van AI beeldgeneratie: Leren van meer dan een miljard afbeeldingen

Vergelijking per model

Snelle naleving

Tekstweergave

Fotorealisme

"Instructies "Niet doen

Diagrammen en stroomschema's

Conclusie

Hoe goede ideeën in het universum terechtkomen

Product

Bedrijf

Sociaal

Wettelijk

Download de app