Tous les articles

Décryptages

22 juillet 2025

L’état de la génération d’images par l’IA : apprendre à partir de plus d’un milliard d’images

L’équipe IA de Gamma a déjà généré plus d’un milliard d’images et atteint les 5 millions de générations par jour lors des pics d’activité. Cela lui a beaucoup appris sur les modèles d’IA qui sont vraiment performants — et sur leurs limites actuelles.

Quelques grandes conclusions :

La qualité globale de l’image a atteint des normes professionnelles.
Dans l’ensemble, nous constatons des avancées significatives concernant l’adéquation entre images et invites, le photoréalisme et la qualité du rendu du texte. Cela donne lieu à une nouvelle norme et les générations précédentes semblent être d’un niveau amateur en comparaison.
Le rendu du texte s’est considérablement amélioré.
Les modèles qui produisaient autrefois des lettres peu claires peuvent désormais créer des panneaux, des affiches et des supports de marque extrêmement précis.
La génération de texte non sollicitée est devenue un problème persistant. Les modèles qui excellent dans le rendu de texte lorsqu’on le leur demande ajoutent parfois des éléments textuels indésirables, même lorsque les invites évitent explicitement de mentionner tout contenu textuel.

Au cours de l’année écoulée chez Gamma, nos utilisatrices et utilisateurs ont généré plus d’un milliard d’images depuis notre plateforme, avec des pics journaliers atteignant 5 millions de générations. Il ne s’agit pas seulement d’une étape importante. En effet, cet ensemble de données considérable révèle exactement la manière dont les modèles d’images générées par l’IA fonctionnent dans le monde réel.

Gamma est particulièrement bien placée pour comparer les modèles, car nous offrons aux utilisateurs la liberté de choisir entre différents modèles (ou nous définissons le bon modèle par défaut) en fonction de leurs besoins spécifiques en matière de génération d’images.

Et voici ce que ces données révèlent : la génération d’images par l’IA s’accélère à un rythme fulgurant. Certains modèles qui peinaient à rendre correctement du texte il y a quelques mois à peine créent maintenant des supports marketing de qualité professionnelle. Toutefois, ce progrès rapide s’accompagne de difficultés prévisibles, et certains problèmes anciens persistent malgré les avancées.

Comparaison modèle par modèle

Nous avons analysé des millions d’interactions et de retours d’utilisateurs pour comparer les principaux modèles, à savoir Imagen 4 Ultra, Flux Kontext Max, GPT Image, Recraft v3 et Ideogram 3.0, dans nos catégories de retours d’utilisateurs les plus courantes.

(Remarque : nous avons utilisé les versions les plus premium de chaque modèle disponible dans le produit Gamma. Pour chaque invite, nous avons généré trois images par modèle et choisi la meilleure.)

Respect des invites

Pour la première comparaison, nous avons mesuré la manière dont les modèles interprètent une invite complexe. Dans le cas ci-dessous, voici ce que j'ai demandé :

Une équipe hétéroclite, composée de quatre jeunes professionnels, fait un brainstorming autour d’un tableau de projet coloré dans un loft réaménagé. Le chef d’équipe a les manches retroussées et porte des baskets jaune vif. Il montre du doigt des croquis innovants tandis qu’un collègue ajoute des post-it à leur vision commune. Les rayons du soleil traversent les fenêtres industrielles et illuminent leur espace de travail rempli de prototypes, de tableaux d’inspiration créatifs et de quelques plantes de bureau originales. Des tasses de café et des collations entamées témoignent de l’énergie qui anime leur session. L’atmosphère de cet espace dédié au développement d’un concept novateur reflète un équilibre entre professionnalisme et énergie créative. Photoréaliste, éclairage chaleureux, expressions naturelles.

A comparison of five different image models' ability to follow a complex prompt.

Dans ce cas, l’un des modèles a gagné haut la main.

Imagen 4 Ultra reproduit presque parfaitement chaque détail de l’invite : le cadre du loft, la lumière naturelle, l’éclairage chaleureux, les prototypes et l’atmosphère « professionnelle avec une touche de créativité ».

De plus, il a produit le meilleur photoréalisme par rapport aux autres modèles qui ont mal préservé l’intégrité faciale.

Rendu de texte

Notre test suivant s’est attaqué à un défi de longue date concernant les modèles d’image : le rendu précis de texte complexe.

Nous avons donné aux modèles l’invite suivante :

Une infographie bleu vif avec du texte blanc intitulée « 5 ÉTAPES POUR CALCULER LE COAST FIRE » en grandes lettres en gras en haut. La mise en page présente 5 étapes numérotées dans une grille, l’étape 5 s’étendant sur toute la largeur du bas. Chaque étape comporte un cercle blanc avec un chiffre bleu (1-5) et une icône correspondante. Étape 1 : icône représentant un sac d’argent, texte « ADDITIONNEZ VOS COMPTES DE RETRAITE : PER, PEA, ETC. ». Étape 2 : icône représentant une calculatrice et un graphique, texte « UTILISEZ UN CALCULATEUR D’INTÉRÊTS COMPOSÉS : 5-7 % POUR LE NOMBRE D'ANNÉES JUSQU’À LA RETRAITE ». Étape 3 : icône représentant une calculatrice avec le symbole de l’euro, texte « UTILISEZ LA RÈGLE DES 4 % POUR VOIR COMBIEN VOUS POUVEZ DÉPENSER PAR AN : EX. 1 500 000 € X 4 % = 60 000 € PAR AN ». Étape 4 : icône représentant un parasol et une chaise de plage, texte « CALCULEZ VOS DÉPENSES ANNUELLES POUR VIVRE CONFORTABLEMENT : MULTIPLIEZ-LES PAR 80%-100% ». Étape 5 : icône représentant un tas de billets, texte « SI VOTRE REVENU DE RETRAITE ENVISAGÉ DÉPASSE VOS DÉPENSES ANNUELLES ACTUELLES, VOUS AVEZ ATTEINT LE COAST FIRE ! ».

A comparison of five image models' ability to render complex text.

Ici, nous considérons qu’il y a égalité entre Imagen, GPT et Flux (les deux autres modèles étaient loin derrière ces leaders). Les trois modèles ont correctement interprété le format requis :

placement du titre en haut, en grands caractères et en gras ;
cinq étapes distinctes, clairement numérotées (de 1 à 5) avec des chiffres blancs dans des cercles bleus ;
mise en page dans une grille avec l’étape 5 s’étendant sur toute la largeur du bas ou visuellement ancrée comme une étape de conclusion.

Ces modèles ont non seulement analysé l’invite avec précision, mais ont également respecté la hiérarchie visuelle et la clarté organisationnelle exigées par la catégorie Infographie.

Les icônes ont été utilisées de manière cohérente pour correspondre à chaque étape et chaque infographie a trouvé un équilibre visuel entre les éléments décoratifs et le contenu informatif.

Cela dit, aucun de ces résultats n’était exempt de fautes de frappe et aucun n’a pu inclure l’intégralité du texte que nous avons fourni (le formatage mathématique a également posé problème à GPT et à Flux.) Mais dans les trois cas, la majorité du texte est lisible et proche du message prévu.

Photoréalisme

Ensuite, nous avons demandé aux modèles d’évaluer leur capacité à réaliser du photoréalisme qui exige une très grande fidélité visuelle.

Nous avons utilisé l’invite suivante :

Photographie ultra-réaliste en gros plan d’une femme de 35 ans atteinte d’hétérochromie, œil gauche vert, œil droit noisette, assise dans un café ensoleillé, prise avec un objectif 85 mm à une ouverture de f/1.4. Son grain de peau naturel révèle de subtiles taches de rousseur sur l’arête du nez. Chacun de ses cils capte la lumière dorée du soir qui filtre à travers la fenêtre mouillée par la pluie derrière elle. La mise au point se fait précisément sur ses yeux. On peut voir le reflet du photographe et de son équipement dans ses pupilles.

A comparison of five image models' ability to render photorealistic images.

Encore une fois, Imagen 4 nous a semblé clairement se démarquer, malgré une composition légèrement étrange et un reflet inutile en haut à droite.

En termes de fidélité visuelle—hétérochromie, reflets sur le verre, taches de rousseur, profondeur de champ et même effets créés par l’objectif de l’appareil photo —Imagen était le seul modèle qui a présenté tous ces éléments de manière convaincante.

Par exemple, Imagen a pu représenter avec précision le contraste entre l’œil vert et l’œil noisette, l’œil gauche étant distinctement plus vert. Flux, GPT et Recraft ont tous opté pour des yeux de couleur uniforme.

Dans d’autres comparaisons, nous avons vu Imagen exceller sur les images de groupe en maintenant la netteté des visages pour l’ensemble des personnes.

Instructions « Ne pas faire »

Nous avons également comparé la capacité des modèles à suivre les instructions « Ne pas faire » qui ont posé problème par le passé.

Nous avons utilisé l’invite suivante :

Illustration de livre pour enfants représentant un cirque animé avec un grand chapiteau à rayures rouges et blanches, un carrousel coloré en mouvement, des balles de jonglage figées en l’air, une corde rigide arborant les couleurs de l’arc-en-ciel, tendue entre de grands poteaux, ainsi que des boîtes de pop-corn et des stands de barbe à papa dispersés çà et là. Couleurs primaires vives, formes douces et arrondies et détails fantaisistes comme des ballons flottant dans les airs, des moulins à vent tournoyants et un petit train jouet faisant le tour du chapiteau. NE PAS inclure d’animaux, de personnes, ni de silhouettes humaines dans la scène.

A comparison of five image models' ability to follow "do not" instructions in a prompt.

Sur ce test, Recraft a gagné.

Il est celui qui a respecté le plus fidèlement nos instructions « Ne pas faire ». Tout d’abord, il a strictement évité les personnages anthropomorphes et humains, alors que GPT a intégré une personne en train de jongler et Ideogram a représenté des acrobates en l’air.

Il a même excellé dans une subtilité plus délicate : Imagen, Flux et GPT représentent tous des chevaux de manège et ne respectent donc pas le critère « pas d’animaux ». Recraft évite complètement le carrousel, préférant la prudence tout en captant l’aspect ludique.

Diagrammes et organigrammes

Enfin, nous avons testé la capacité des modèles à créer des diagrammes et des organigrammes complexes. Pour cela, nous avons utilisé l’invite suivante :

Organigramme concis montrant le processus de lancement d’un produit SaaS avec des rectangles reliés par des flèches, commençant par « Étude de marché », puis « Développement du MVP », « Tests bêta », « Campagne marketing », « Lancement du produit » et se terminant par « Analyses post-lancement ». Utilisez une palette de couleurs bleu canard et lavande avec des étiquettes claires, des losanges de décision pour les points d’approbation clés et des indicateurs chronologiques montrant des phases de 3 à 6 mois sous chaque étape importante.

A comparison of five image models' ability to render diagrams and flowcharts.

Sur ce test, GPT a remporté l’or.

Bien que chaque modèle ait apporté une interprétation visuelle unique, GPT a été le seul à produire un organigramme cohérent, lisible et visuellement communicatif qui respectait toutes les instructions clés de l’invite.

L’organigramme de GPT est clair et ininterrompu. L’utilisation cohérente des flèches évite toute ambiguïté ou orientation trompeuse (contrairement à Flux qui inclut des nœuds répétés ou en boucle).

Il équilibre également les icônes avec le texte de façon nette et les illustrations complètent le message de manière appropriée.

Et malgré quelques fautes de frappe, le texte de GPT est parfaitement lisible et cohérent sur le plan sémantique.

Ligne du bas

Les modèles de génération d’images par l’IA ne s’améliorent pas seulement — ils se spécialisent également. Chaque modèle développe un point fort. Ainsi, faire le bon choix dépend entièrement de ce que vous essayez d’accomplir.

Dans le cadre de notre utilisation, Image 4 Ultra excelle dans le photoréalisme, GPT brille par ses diagrammes structurés et Recraft est celui qui respecte le mieux la catégorie d’instructions « Ne pas faire ». Cette spécialisation est l’évolution naturelle d’une technologie qui arrive à maturité.

Il y a six mois, nous (et nos utilisateurs) gérions les limites de la génération d’images par l’IA. Maintenant, nous exploitons ses forces. C’est un bien meilleur problème à résoudre.

Les modèles évoluent rapidement et, chez Gamma, nous observons ces changements en temps réel. Nous reviendrons sur ces résultats dans les semaines à venir avec d’inévitables modifications au classement.

L’état de la génération d’images par l’IA : apprendre à partir de plus d’un milliard d’images

Comparaison modèle par modèle

Respect des invites

Rendu de texte

Photoréalisme

Instructions « Ne pas faire »

Diagrammes et organigrammes

Ligne du bas

Là où vos idées prennent vie.

Produit

Entreprise

Réseaux sociaux

Juridique

Télécharger l’application