Todos os posts

Liderança de Pensamento

22 de julho de 2025

O estado da geração de imagens com IA: Aprendendo com mais de um bilhão de imagens

Após gerar mais de um bilhão de imagens e atingir 5 milhões por dia em dias de pico, a equipe de IA do Gamma aprendeu muito sobre quais modelos de IA realmente funcionam — e em quais pontos eles ainda deixam a desejar.

Algumas descobertas de alto nível:

A qualidade geral da imagem atingiu padrões profissionais.
Em todos os aspectos, vemos avanços significativos no alinhamento entre prompt e imagem, fotorrealismo e qualidade de renderização de texto, estabelecendo um novo padrão que faz as gerações anteriores parecerem amadoras.
A renderização de textos melhorou imensamente.
Modelos que antes produziam letras distorcidas agora podem criar sinalizações, pôsteres e materiais de marca perfeitos.
A geração de texto não solicitado se tornou um problema persistente. Modelos que se destacam na renderização de textos às vezes adicionam elementos de texto indesejados, mesmo quando os prompts evitam explicitamente mencionar qualquer conteúdo do tipo.

No último ano no Gamma, nossos usuários geraram mais de um bilhão de imagens por meio da nossa plataforma, com dias de pico atingindo 5 milhões de gerações. Isso não é apenas um marco — é um conjunto de dados massivo que revela exatamente como os modelos de imagem de IA se comportam no mundo real.

O Gamma está em uma posição única para comparar os modelos, porque oferecemos aos usuários a liberdade de escolher entre modelos (ou definimos o padrão adequado para eles) com base em suas necessidades específicas de geração de imagens.

E aqui está o resultado desses dados: o espaço de geração de imagens por IA está caminhando a passos largos. Modelos que há poucos meses sofriam com dificuldades de renderização básica de texto agora estão criando materiais de marketing de nível profissional. Mas com o rápido progresso surgem desafios previsíveis, e alguns problemas antigos persistem apesar dos avanços.

Comparação modelo a modelo

Com base na análise de milhões de interações e feedbacks de usuários, veja como os principais modelos — Imagen 4 Ultra, Flux Kontext Max, GPT Image, Recraft v3 e Ideogram 3.0 — se comparam nas nossas categorias mais comuns de feedback de usuários.

(Nota: utilizamos as versões mais avançadas de cada modelo disponível no produto Gamma. Geramos 3 imagens por modelo para cada prompt e escolhemos a melhor.)

Aderência ao prompt

Na primeira comparação, medimos como os modelos interpretam um prompt complexo. Neste caso, usamos o seguinte prompt:

Uma equipe diversificada de quatro jovens profissionais faz um brainstorming em torno de um quadro de projeto colorido em um espaço de loft convertido. O líder da equipe, usando mangas dobradas e tênis amarelo brilhante, aponta para esboços inovadores enquanto um colega adiciona notas adesivas à visão compartilhada. A luz do sol entra pelas janelas industriais, iluminando o espaço de trabalho repleto de modelos de protótipos, quadros de inspiração criativa e algumas plantas de mesa peculiares. Xícaras de café e lanches parcialmente consumidos sugerem uma sessão energética. A atmosfera equilibra profissionalismo com energia criativa enquanto eles colaboram em seu conceito inovador. Fotorrealista, iluminação quente, expressões naturais.

A comparison of five different image models' ability to follow a complex prompt.

Neste caso, tivemos um vencedor claro.

O Imagen 4 Ultra captura quase todos os detalhes do prompt — o ambiente de loft, a luz solar e iluminação quente, os modelos de protótipo e a atmosfera de "profissionalismo com toque criativo".

Além disso, ele proporcionou o melhor fotorrealismo em comparação com outros modelos, que geraram integridade facial de baixa qualidade.

Renderização de texto

Nosso próximo teste enfrentou um desafio de longa data para modelos de imagem: a renderização precisa de um texto complexo.

Alimentamos os modelos com o seguinte prompt:

Um infográfico azul brilhante com texto branco intitulado "5 ETAPAS PARA CALCULAR O COAST FIRE" em letras grandes e negrito na parte superior. O layout mostra 5 etapas numeradas em uma grade, com a etapa 5 ocupando a parte inferior. Cada etapa tem um círculo branco com número azul (1 a 5) e ícone correspondente. Etapa 1: ícone de saco de dinheiro, texto "SOME SUAS CONTAS DE APOSENTADORIA: 401K, 403B, FGTS, ETC". Etapa 2: ícone de calculadora e gráfico, texto "USE UMA CALCULADORA DE JUROS COMPOSTOS: 5-7% PARA QUANTOS ANOS FALTAM PARA A APOSENTADORIA". Etapa 3: ícone de calculadora com cifrão, texto "USE A REGRA DOS 4% PARA SABER COM QUANTO VOCÊ PODE VIVER ANUALMENTE: EX. $1.500.000 X 4% = $60.000 POR ANO". Etapa 4: ícone de guarda-sol e cadeira de praia, texto "CALCULE SUAS DESPESAS ANUAIS CONFORTÁVEIS: MULTIPLIQUE POR 80%-100%". Etapa 5: ícone de pilha de dinheiro, texto "SE SUA RENDA PROJETADA PARA A APOSENTADORIA EXCEDER SUAS DESPESAS ANUAIS ATUAIS, VOCÊ ALCANÇOU O COAST FIRE!".

A comparison of five image models' ability to render complex text.

Aqui, consideramos um empate entre o Imagen, o GPT e o Flux, pois os outros dois modelos ficaram muito atrás desses candidatos. Todos os três modelos interpretaram com sucesso o formato necessário:

Posicionamento do título no topo em texto grande e em negrito.
Cinco etapas distintas, claramente numeradas (1 a 5) usando números brancos em círculos azuis.
Layout em estilo de grade, com a Etapa 5 se estendendo pela parte inferior ou visualmente ancorada como uma etapa conclusiva.

Esses modelos não apenas analisaram o prompt com precisão, mas também aderiram à hierarquia visual e clareza organizacional exigidas pela categoria de infográfico.

Os ícones foram usados de maneira consistente, correspondendo a cada etapa, e cada infográfico alcançou um equilíbrio visual entre elementos decorativos e conteúdo informativo.

Dito isso, nenhuma desses resultados estava livre de erros de digitação, e nenhum foi capaz de incluir a totalidade do texto que fornecemos. A formatação matemática também foi um desafio para o GPT e o Flux. Mas nos três casos, a maior parte do texto é legível e está bem alinhado com a mensagem pretendida.

Fotorrealismo

Em seguida, inserimos um prompt nos modelos para avaliar sua capacidade de entregar fotorrealismo, o que exige uma fidelidade visual extremamente refinada.

Usamos o seguinte prompt:

Fotografia ultrarrealista em close-up de uma mulher de 35 anos com heterocromia, olho esquerdo verde, olho direito cor de mel, sentada em uma cafeteria ensolarada, fotografada com lente de 85mm com abertura de f/1.4. A textura natural da pele mostra sardas sutis na ponte do nariz, cílios individuais captando a luz dourada do entardecer que atravessa a janela marcada pela chuva atrás dela. Foco exato nos olhos onde é possível ver o reflexo do fotógrafo e do equipamento da câmera em suas pupilas.

A comparison of five image models' ability to render photorealistic images.

Mais uma vez, o Imagen 4 se destacou claramente, apesar de uma composição um pouco estranha e um reflexo desnecessário no canto superior direito.

Em termos de fidelidade visual — heterocromia, reflexos em vidro, sardas, profundidade de campo e até efeitos de lente de câmera — o Imagen foi o único modelo que entregou todos esses elementos de forma convincente.

Como exemplo, o Imagen foi capaz de representar com precisão o contraste entre olhos verdes e cor de mel, com o olho esquerdo nitidamente mais verde. O Flux, o GPT e o Recraft padronizaram os olhos com cores uniformes.

Em outras comparações, vimos o Imagen se destacar em imagens de grupo, onde foi capaz de manter a clareza facial em um grupo de pessoas.

Instruções do tipo "NÃO"

Também comparamos a capacidade dos modelos de seguir instruções do tipo "NÃO", que historicamente têm sido um desafio.

Usamos o seguinte prompt:

Ilustração de livro infantil de um circo vibrante com uma grande tenda listrada em vermelho e branco, carrossel colorido girando, bolas de malabarismo congeladas no ar, corda bamba com listras de arco-íris esticada entre postes altos, e caixas de pipoca e barracas de algodão-doce espalhadas. Cores primárias brilhantes, formas arredondadas suaves e detalhes fantasiosos como balões flutuantes, cataventos girando e um pequeno trem de brinquedo circulando a tenda. NÃO inclua animais, pessoas ou figuras humanas na cena.

A comparison of five image models' ability to follow "do not" instructions in a prompt.

Neste caso, O Recraft foi o vencedor.

Ele aderiu mais fielmente às nossas instruções do tipo "NÃO". Primeiramente, evitou estritamente tanto figuras antropomórficas quanto humanas, enquanto o GPT incluiu uma pessoa fazendo malabarismo e o Ideogram mostrou acrobatas no ar.

E té se destacou de uma forma mais sutil, enquanto o Imagen, o Flux e o GPT mostraram cavalos de carrossel, o que viola a cláusula "sem animais". O Recraft pula completamente o carrossel, preferindo ser cauteloso enquanto ainda captura a diversão.

Diagramas e fluxogramas

Por fim, testamos a capacidade dos modelos de renderizar diagramas e fluxogramas complexos. Usamos o seguinte prompt:

Diagrama de fluxograma limpo mostrando o processo de lançamento de produto SaaS com caixas retangulares conectadas por setas, começando de "Pesquisa de Mercado" passando por "Desenvolvimento de MVP", "Testes Beta", "Campanha de Marketing", "Lançamento do Produto" e terminando em "Análise Pós-Lançamento". Use esquema de cores turquesa e lavanda com rótulos claros, diamantes de decisão para pontos de aprovação importantes e indicadores de cronograma mostrando fases de 3-6 meses abaixo de cada marco principal.

A comparison of five image models' ability to render diagrams and flowcharts.

Neste caso, o GPT levou a medalha de ouro.

Embora cada modelo tenha trazido uma interpretação visual única, o GPT foi o único a entregar um fluxograma coeso, legível e visualmente comunicativo que respeitou todas as instruções-chave do prompt.

O fluxo do GPT é claro e ininterrupto, com uso consistente de setas que evita ambiguidade ou direcionamento incorreto (diferente do Flux, que inclui nós repetidos ou em loop).

Também equilibra ícones com texto de forma limpa, e as ilustrações apoiam a mensagem adequadamente.

E apesar de alguns erros de digitação, o texto do GPT é totalmente legível e semanticamente correto.

Resultado final

Os modelos de geração de imagens por IA não estão apenas melhorando — estão se especializando. Cada modelo está encontrando seu ponto forte, o que significa que a escolha certa depende inteiramente do que você está tentando realizar.

Em nosso uso, o Imagen 4 Ultra se destaca em fotorrealismo, o GPT brilha com diagramas estruturados, e o Recraft seguiu melhor as instruções do tipo "NÃO". Essa especialização é a evolução natural de uma tecnologia em amadurecimento.

Seis meses atrás, nós (e nossos usuários) estávamos lidando com as limitações da geração de imagens com IA. Agora estamos navegando pelos pontos fortes. Esse é um problema muito melhor de lidar.

Os modelos estão evoluindo rapidamente e, no Gamma, vemos as mudanças em tempo real. Revisitaremos essas descobertas nas próximas semanas, com inevitáveis alterações no ranking.

O estado da geração de imagens com IA: Aprendendo com mais de um bilhão de imagens

Comparação modelo a modelo

Aderência ao prompt

Renderização de texto

Fotorrealismo

Instruções do tipo "NÃO"

Diagramas e fluxogramas

Resultado final

Como boas ideias aparecem no universo

Produto

Empresa

Social

Jurídico

Baixe o app