Todas las publicaciones

Liderazgo intelectual

22 de julio de 2025

El estado de la generación de imágenes con IA: lo que se aprende de 1000 millones de imágenes

Después de generar más de mil millones de imágenes y alcanzar los 5 millones por día en los días de mayor actividad, el equipo de IA de Gamma ha aprendido mucho sobre qué modelos de IA realmente cumplen y en qué aspectos aún se quedan cortos.

Algunos hallazgos de nivel superior:

La calidad general de la imagen ha alcanzado estándares profesionales.
En todos los aspectos, vemos avances significativos en la alineación entre las instrucciones y las imágenes, el fotorrealismo y la calidad de renderizado de texto, lo que establece un nuevo estándar que hace que las generaciones anteriores parezcan amateurs en comparación.
El renderizado de texto ha mejorado enormemente.
Los modelos que antes generaban texto distorsionado ahora suelen crear señalización, carteles y materiales de marca con una precisión impecable.
La generación de texto no solicitada se ha convertido en un problema persistente. Los modelos que destacan en renderizar texto cuando se les solicita ahora a veces añaden elementos de texto no deseados, incluso cuando las instrucciones explícitamente lo evitan.

Durante el último año, quienes utilizan Gamma han generado más de mil millones de imágenes a través de nuestra plataforma, con días pico que alcanzan los 5 millones de generaciones. Esto no es solo un hito, es un conjunto de datos enorme que muestra con claridad cómo funcionan los modelos de imágenes con IA en el mundo real.

Gamma está en una posición única para comparar los modelos, ya que damos a los usuarios la libertad de elegir entre modelos (o establecemos el adecuado para ellos de forma predeterminada) según sus necesidades específicas de generación de imágenes.

Y esto es lo que revela esa información: el espacio de Generación de imágenes con IA avanza a gran velocidad. Modelos que hace solo unos meses tenían dificultades para mostrar texto básico ahora crean materiales de marketing de nivel profesional. Sin embargo, el progreso rápido trae desafíos previsibles y algunos problemas antiguos persisten a pesar de los avances.

Comparación modelo por modelo

Basándonos en el análisis de millones de interacciones y comentarios de usuarios, así es como los principales modelos (Imagen 4 Ultra, Flux Kontext Max, GPT Image, Recraft v3 e Ideogram 3.0) se comparan en nuestras categorías más comunes de comentarios de usuarios.

(Nota: Usamos las versiones más premium de cada modelo disponibles dentro del producto Gamma. Generamos 3 imágenes por modelo para cada instrucción y elegimos la mejor).

Cumplimiento de la instrucción

Para la primera comparación, medimos cómo los modelos interpretan una instrucción compleja. En este caso, pedí lo siguiente:

Un equipo diverso de cuatro jóvenes profesionales intercambia ideas alrededor de un tablero de proyectos colorido en un loft remodelado. La persona líder, con las mangas remangadas y zapatillas deportivas amarillas, señala bocetos innovadores mientras una colega incluye notas adhesivas a la visión compartida. La luz del sol entra por las ventanas industriales, iluminando un espacio de trabajo lleno de prototipos, tableros de inspiración creativa y algunas plantas de escritorio originales. Tazas de café y bocadillos a medio comer revelan la energía de la sesión. El ambiente equilibra profesionalismo y creatividad mientras colaboran en su concepto revolucionario. Fotorealista, iluminación cálida, expresiones naturales.

A comparison of five different image models' ability to follow a complex prompt.

En este caso, tuvimos un claro ganador.

Imagen 4 Ultra acierta casi todos los detalles de la instrucción: el entorno tipo loft, la luz del sol y la iluminación cálida, los modelos prototipo y la atmósfera de "profesionalismo con agencia creativa".

Además, ofreció el mejor fotorrealismo en comparación con otros modelos, que generan una pobre integridad facial.

Renderizado de texto

Nuestra siguiente prueba abordó un desafío de larga data para los modelos de imágenes: el renderizado preciso de texto complejo.

Le proporcionamos a los modelos la siguiente instrucción:

Una infografía azul brillante con texto blanco titulada “5 ETAPAS PARA CALCULAR COAST FIRE” en letras grandes y en negrita en la parte superior. El diseño muestra 5 etapas numeradas en una cuadrícula, la etapa 5 abarca la parte inferior. Cada etapa tiene un círculo blanco con un número azul (1 a 5) y un ícono correspondiente. Etapa 1: ícono de bolsa de dinero, texto “SUMA TUS CUENTAS DE RETIRO: 401K, 403B, IRA, ETCÉTERA”. Etapa 2: ícono de calculadora y gráfico, texto “USA UNA CALCULADORA DE INTERÉS COMPUESTO: 5-7 % DURANTE LOS AÑOS QUE FALTEN PARA TU JUBILACIÓN”. Etapa 3: ícono de calculadora con signo de dólar, texto “USA LA REGLA DEL 4 % PARA VER CUÁNTO PUEDES GASTAR AL AÑO: EJEMPLO: 1 500 000 USD X 4 % = 60 000 USD AL AÑO”. Etapa 4: ícono de sombrilla y silla de playa, texto “CALCULA TUS GASTOS ANUALES PARA UNA VIDA CÓMODA: MULTIPLICA POR 80%-100%”. Etapa 5: ícono de pila de dinero, texto “SI TUS INGRESOS DE JUBILACIÓN PREVISTOS SUPERAN TUS GASTOS ANUALES ACTUALES, ¡HAS LOGRADO COAST FIRE!”.

A comparison of five image models' ability to render complex text.

Aquí, consideramos que hay un empate entre Imagen, GPT y Flux. (Los otros dos modelos quedaron muy por detrás de estos líderes). Los tres modelos interpretaron correctamente el formato requerido:

Colocación del título en la parte superior con texto grande y en negrita.
Cinco etapas distintas, claramente numeradas (del 1 al 5) usando números blancos en círculos azules.
Diseño de estilo de cuadrícula, en el que la etapa 5 abarca la parte inferior o está visualmente anclada como etapa final.

Estos modelos no solo interpretaron la instrucción con precisión, sino que también respetaron la jerarquía visual y la claridad organizativa que exige la categoría de infografía.

Los íconos se usaron de manera coherente y correspondían a cada etapa, y cada infografía lograba un equilibrio visual entre los elementos decorativos y el contenido informativo.

Dicho esto, ninguno de estos resultados estuvo libre de errores tipográficos ni logró incluir la totalidad del texto que proporcionamos. (El formato matemático también representó un desafío para GPT y Flux). Sin embargo, en los tres casos, la mayor parte del texto es legible y se ajusta bastante al mensaje que queríamos transmitir.

Fotorrealismo

A continuación, solicitamos a los modelos que evaluaran su capacidad para lograr fotorrealismo, lo cual exige una fidelidad visual extremadamente precisa.

Usamos la siguiente instrucción:

Fotografía ultrarrealista en primer plano de una mujer de 35 años con heterocromía, ojo izquierdo verde y ojo derecho color avellana, sentada en una cafetería iluminada por el sol, tomada con un lente de 85 mm a una apertura de f/1.4. La textura natural de la piel muestra pecas sutiles sobre el puente de la nariz y pestañas individuales que capturan la luz dorada de la hora mágica que entra por una ventana con gotas de lluvia detrás de ella. El enfoque exacto está en sus ojos, donde se refleja el fotógrafo y el equipo de cámara en sus pupilas.

A comparison of five image models' ability to render photorealistic images.

Nuevamente, Imagen 4 nos pareció el más destacado, a pesar de una composición un poco extraña y un reflejo innecesario en la parte superior derecha.

En cuanto a fidelidad visual —heterocromía, reflejos en el vidrio, pecas, profundidad de campo e incluso efectos de lente de cámara—, Imagen fue el único modelo que logró representar todos estos elementos de manera convincente.

Por ejemplo, Imagen pudo representar con precisión el contraste entre ojos verdes y avellana, con el ojo izquierdo notablemente más verde. Flux, GPT y Recraft mostraron por defecto ojos de color uniforme.

En otras comparaciones, vimos que Imagen sobresalió en imágenes grupales, ya que pudo mantener la claridad facial en un grupo de personas.

Instrucciones de "No hacer"

También comparamos la capacidad de los modelos para seguir instrucciones de "No hacer", que históricamente han sido un desafío.

Usamos la siguiente instrucción:

Ilustración para libro infantil de un circo vibrante con una carpa grande de rayas rojas y blancas, un carrusel colorido girando, pelotas de malabares suspendidas en el aire, una cuerda floja de rayas arcoíris que se extiende entre altos postes y cajas de palomitas y puestos de algodón de azúcar dispersos. Colores primarios brillantes, formas suaves y redondeadas, y detalles fantásticos como globos flotantes, molinetes giratorios y un pequeño tren de juguete que da vueltas alrededor de la carpa. NO incluyas animales, personas ni figuras humanas en la escena.

A comparison of five image models' ability to follow "do not" instructions in a prompt.

En este caso, Recraft fue el ganador.

Se apegó con mayor fidelidad a nuestras instrucciones de "No hacer". En primer lugar, evitó estrictamente tanto las figuras antropomórficas como las humanas, mientras que GPT incluyó a una persona haciendo malabares e Ideogram mostró acróbatas en el aire.

Incluso destacó en una observación más sutil: Imagen, Flux y GPT muestran caballos de carrusel, lo que infringe la cláusula de “sin animales”. Recraft omite el carrusel por completo, optando por la cautela pero sin perder el toque divertido.

Diagramas y diagramas de flujo

Por último, probamos la capacidad de los modelos para crear diagramas y diagramas de flujo complejos. Utilizamos la siguiente instrucción:

Diagrama de flujo limpio que muestra el proceso de lanzamiento de un producto SaaS, con cajas rectangulares conectadas por flechas, que comienza en «Investigación de mercado», luego pasa a «Desarrollo del MVP», «Pruebas beta», «Campaña de marketing», «Lanzamiento del producto» y finaliza en «Análisis postlanzamiento». Utiliza una paleta de colores verde azulado y lavanda, etiquetas claras, diamantes de decisión para los puntos clave de aprobación e indicadores de línea de tiempo que muestran fases de 3 a 6 meses debajo de cada hito principal.

A comparison of five image models' ability to render diagrams and flowcharts.

En este caso, GPT se llevó el oro.

Si bien cada modelo ofreció una interpretación visual única, GPT fue el único que entregó un diagrama de flujo coherente, legible y visualmente comunicativo que respetó todas las instrucciones clave.

El flujo de GPT es claro y no tiene interrupciones, con un uso uniforme de flechas que evita la ambigüedad o la confusión (a diferencia de Flux, que incluye nodos repetidos o en bucle).

También equilibra los íconos con el texto de manera clara, y las ilustraciones apoyan el mensaje de forma adecuada.

Y a pesar de un par de errores tipográficos, el texto de GPT es completamente legible y tiene sentido semántico.

Conclusión

Los modelos de generación de imágenes con IA no solo están mejorando, sino que también se están especializando. Cada modelo está encontrando su fortaleza, lo que significa que la elección correcta depende completamente de lo que quieras lograr.

En nuestra experiencia, Image 4 Ultra destaca en el fotorrealismo, GPT sobresale con diagramas estructurados y Recraft fue el que mejor siguió las preferencias de "no hacer". Esta especialización es la evolución natural de una tecnología en maduración.

Hace seis meses, nosotros (y nuestros usuarios) estábamos gestionando las limitaciones de la generación de imágenes con IA. Ahora estamos explorando sus fortalezas. Ese es un problema mucho mejor de tener.

Los modelos están evolucionando rápidamente y en Gamma vemos los cambios en tiempo real. Volveremos a analizar estos hallazgos en las próximas semanas, con cambios inevitables en la clasificación.

El estado de la generación de imágenes con IA: lo que se aprende de 1000 millones de imágenes

Comparación modelo por modelo

Cumplimiento de la instrucción

Renderizado de texto

Fotorrealismo

Instrucciones de "No hacer"

Diagramas y diagramas de flujo

Conclusión

Haz que tus buenas ideas salgan al universo

Producto

Empresa

Redes sociales

Información legal

Descarga la app