Tutti i messaggi

Thought Leadership

July 22nd, 2025

Lo stato della generazione di immagini AI: Apprendimento da oltre un miliardo di immagini

Dopo aver generato oltre un miliardo di immagini e aver raggiunto i 5 milioni al giorno nei giorni di picco, il team AI di Gamma ha imparato molto su quali modelli AI sono effettivamente efficaci e dove sono ancora insufficienti.

Alcuni risultati di primo livello:

La qualità complessiva delle immagini ha raggiunto standard professionali.
In tutti i settori, si notano progressi significativi nell'allineamento dei prompt delle immagini, nel fotorealismo e nella qualità del rendering del testo, stabilendo un nuovo standard che fa sembrare le generazioni precedenti dei dilettanti al confronto.
Il rendering del testo è migliorato immensamente.
I modelli che producevano lettere confuse possono spesso creare insegne, poster e materiali di marca perfetti al pixel.
La generazione di testo non richiesto è diventata un problema persistente. I modelli che eccellono nella resa del testo quando richiesto, a volte aggiungono elementi di testo indesiderati anche quando le richieste evitano esplicitamente di menzionare qualsiasi contenuto testuale.

Nell'ultimo anno, i nostri utenti hanno generato più di un miliardo di immagini attraverso la nostra piattaforma, con picchi di 5 milioni di generazioni. Non si tratta solo di una pietra miliare, ma di un enorme set di dati che rivela esattamente le prestazioni dei modelli di immagine AI nel mondo reale.

Gamma si trova in una posizione unica per confrontare i modelli, perché lasciamo agli utenti la libertà di scegliere tra i vari modelli (o impostiamo il modello predefinito giusto per loro) in base alle loro specifiche esigenze di generazione di immagini.

Ed ecco cosa mostrano questi dati: lo spazio della generazione di immagini AI sta accelerando ad un ritmo rapido. Modelli che fino a pochi mesi fa avevano difficoltà con il rendering del testo di base ora creano materiali di marketing di livello professionale. Ma i rapidi progressi comportano sfide prevedibili e alcuni vecchi problemi persistono nonostante i progressi.

Confronto modello per modello

Sulla base dell'analisi di milioni di interazioni e feedback degli utenti, ecco come si posizionano i modelli principali - Imagen 4 Ultra, Flux Kontext Max, GPT Image, Recraft v3 e Ideogram 3.0 - nelle categorie più comuni di feedback degli utenti.

(Nota: abbiamo utilizzato le versioni più pregiate di ciascun modello disponibili all'interno del prodotto Gamma. Abbiamo generato 3 immagini per modello per ogni richiesta e abbiamo scelto la migliore)

Aderenza tempestiva

Per il primo confronto, abbiamo misurato come i modelli interpretano una richiesta complessa. In questo caso, ho chiesto quanto segue:

Un team eterogeneo di quattro giovani professionisti fa brainstorming attorno a una lavagna colorata in un loft riconvertito. Il team leader, con le maniche arrotolate e le scarpe da ginnastica gialle, indica schizzi innovativi mentre un collega aggiunge note adesive alla loro visione condivisa. La luce del sole filtra dalle finestre industriali, illuminando il loro spazio di lavoro pieno di modelli di prototipi, tavole di ispirazione creativa e alcune piante da scrivania stravaganti. Tazze di caffè e spuntini mangiati a metà fanno pensare alla loro energica sessione di lavoro. L'atmosfera è in equilibrio tra professionalità ed energia creativa, mentre collaborano al loro concetto di svolta. Fotorealismo, illuminazione calda, espressioni naturali.

A comparison of five different image models' ability to follow a complex prompt.

In questo caso, abbiamo avuto un chiaro vincitore.

Imagen 4 Ultra è in grado di cogliere quasi tutti i dettagli della richiesta: l'ambientazione del loft, la luce del sole e l'illuminazione calda, i modelli prototipo e l'atmosfera da "professionalità con agenzia creativa".

Inoltre, ha trasmesso il miglior fotorealismo rispetto ad altri modelli, che hanno prodotto una scarsa integrità facciale.

Rendering del testo

Il nostro prossimo test ha affrontato una sfida di lunga data per i modelli di immagini: la resa accurata di testi complessi.

Abbiamo dato ai modelli il seguente suggerimento:

Un'infografica blu brillante con testo bianco intitolato "5 STEPS FOR CALCULATING COAST FIRE" (5 passi per calcolare l'incendio della costa) in grandi lettere in grassetto nella parte superiore. Il layout mostra 5 passi numerati in una griglia con il passo 5 che si estende in basso. Ogni passo ha un cerchio bianco con un numero blu (1-5) e un'icona di accompagnamento. Fase 1: icona della borsa del denaro, testo "AGGIUNGI I TUOI CONTI DI RETRIBUZIONE: 401K, 403B, IRA, ECC". Fase 2: icona della calcolatrice e del grafico, testo "UTILIZZARE UN CALCOLATORE DELL'INTERESSE COMPOUND: 5-7% PER QUANTI ANNI MANCANO ALLA PENSIONE". Fase 3: calcolatrice con icona del segno del dollaro, testo "UTILIZZA LA REGOLA DEL 4% PER VEDERE QUANTO PUOI VIVERE ANNUALMENTE: ES. 1.500.000 DOLLARI X 4% = 60.000 DOLLARI ALL'ANNO". Fase 4: icona dell'ombrellone e della sedia, testo "CALCOLA LA TUA COMODA SPESA DI VITA ANNUA: MOLTIPLICARE PER 80%-100%". Fase 5: icona della pila di denaro, testo "SE IL TUO REDDITO PROIETTIVO DA RITIRO SUPERA LE SPESE DI VITA ANNUE ATTUALI, HAI RAGGIUNTO IL FUOCO DELLA COSTA!

A comparison of five image models' ability to render complex text.

In questo caso, giudichiamo un pareggio tra Imagen, GPT e Flux. (Tutti e tre i modelli hanno interpretato con successo il formato richiesto:

Titolo in alto con testo grande e in grassetto.
Cinque fasi distinte, chiaramente numerate (da 1 a 5) con numeri bianchi in cerchi blu.
Layout a griglia, con il passo 5 che attraversa la parte inferiore o è visivamente ancorato come passo conclusivo.

Questi modelli non solo hanno analizzato con precisione il messaggio, ma hanno anche rispettato la gerarchia visiva e la chiarezza organizzativa richieste dalla categoria delle infografiche.

Le icone sono state utilizzate in modo coerente, in corrispondenza di ogni fase, e ogni infografica ha raggiunto un equilibrio visivo tra elementi decorativi e contenuti informativi.

Detto questo, nessuno di questi output era privo di errori di battitura e nessuno è stato in grado di includere la totalità del testo che abbiamo fornito. (In tutti e tre i casi, però, la maggior parte del testo è leggibile e si allinea perfettamente al messaggio desiderato.

Fotorealismo

Successivamente, abbiamo sottoposto i modelli alla valutazione della loro capacità di offrire un fotorealismo, che richiede una fedeltà visiva estremamente fine.

Abbiamo utilizzato il seguente prompt:

Foto ravvicinata ultra-realistica di una donna di 35 anni con eterocromia, occhio sinistro verde e occhio destro nocciola, seduta in una caffetteria illuminata dal sole, scattata con un obiettivo da 85 mm con apertura f/1,4. La texture naturale della pelle mostra sottili lentiggini sul ponte del naso, mentre le singole ciglia catturano la luce dell'ora d'oro che filtra dalla finestra bagnata dalla pioggia alle sue spalle. Messa a fuoco esatta sugli occhi, dove è possibile vedere il riflesso del fotografo e dell'attrezzatura fotografica nelle pupille.

A comparison of five image models' ability to render photorealistic images.

Anche in questo caso, l'Imagen 4 ci ha colpito in modo particolare, nonostante una composizione un po' strana e un riflesso non necessario in alto a destra.

In termini di fedeltà visiva - eterocromia, riflessi del vetro, lentiggini, profondità di campo e persino effetti dell'obiettivo - Imagen è stato l'unico modello che ha fornito tutti questi elementi in modo convincente.

Ad esempio, Imagen è stato in grado di rappresentare accuratamente il contrasto tra occhi verdi e nocciola, con l'occhio sinistro nettamente più verde. Flux, GPT e Recraft hanno invece scelto occhi di colore uniforme.

In altri confronti, abbiamo visto Imagen eccellere nelle immagini di gruppo, dove è stato in grado di mantenere la chiarezza del volto in un gruppo di persone.

istruzioni "non&quot

Abbiamo anche confrontato la capacità dei modelli di seguire le istruzioni "Non", che storicamente rappresentano una sfida.

Abbiamo utilizzato il seguente prompt:

Illustrazione per bambini di un vivace circo con tendone a strisce bianche e rosse, giostra colorata che gira, palline da giocoliere congelate a mezz'aria, corda tesa a strisce arcobaleno che si allunga tra alti pali e bancarelle di popcorn e zucchero filato sparse. Colori primari brillanti, forme morbide e arrotondate e dettagli stravaganti come palloncini galleggianti, girandole e un trenino che gira intorno alla tenda. NON includere animali, persone o figure umane nella scena.

A comparison of five image models' ability to follow "do not" instructions in a prompt.

In questo caso, il vincitore è stato Recraft.

Si è attenuto fedelmente alle nostre istruzioni "non". Ad esempio, ha evitato rigorosamente figure antropomorfe e umane, mentre GPT ha incluso una persona che fa il giocoliere e Ideogram ha mostrato acrobati a mezz'aria.

Ha perfino superato un'altra presa per i fondelli: Imagen, Flux e GPT ritraggono tutti dei cavalli da giostra, che violano la clausola "niente animali". Recraft salta completamente la giostra, scegliendo la cautela, ma non rinunciando al divertimento.

Diagrammi e diagrammi di flusso

Infine, abbiamo testato la capacità dei modelli di rappresentare diagrammi complessi e diagrammi di flusso. Abbiamo utilizzato il seguente prompt:

Diagramma di flusso pulito che mostra il processo di lancio di un prodotto SaaS con caselle rettangolari collegate da frecce, partendo da "Ricerche di mercato", passando per "Sviluppo MVP", "Beta test", "Campagna di marketing", "Lancio del prodotto" e terminando con "Analisi post-lancio"."Utilizzate uno schema di colori verde e lavanda con etichette chiare, diamanti decisionali per i principali gate di approvazione e indicatori temporali che mostrano le fasi di 3-6 mesi sotto ogni pietra miliare principale.

A comparison of five image models' ability to render diagrams and flowcharts.

In questo caso, GPT si è aggiudicato l'oro.

Sebbene ogni modello abbia apportato un'interpretazione visiva unica, GPT è stato l'unico a fornire un diagramma di flusso coeso, leggibile e visivamente comunicativo che rispettasse tutte le istruzioni chiave della richiesta.

Il flusso di GPT è chiaro e ininterrotto, con un uso coerente delle frecce che evita l'ambiguità o il depistaggio (a differenza di Flux, che include nodi ripetuti o ad anello).

Inoltre, bilancia le icone con il testo in modo pulito e le illustrazioni supportano il messaggio in modo appropriato.

E nonostante un paio di errori di battitura, il testo di GPT è perfettamente leggibile e semanticamente valido.

In conclusione

I modelli di generazione di immagini AI non stanno solo migliorando, ma si stanno specializzando. Ogni modello sta trovando la sua forza, il che significa che la scelta giusta dipende interamente da ciò che si sta cercando di ottenere.

Nel nostro utilizzo, Image 4 Ultra eccelle nel fotorealismo, GPT brilla con i diagrammi strutturati e Recraft ha seguito al meglio le preferenze "non". Questa specializzazione è la naturale evoluzione di una tecnologia che sta maturando.

Sei mesi fa, noi (e i nostri utenti) stavamo gestendo i limiti della generazione di immagini AI. Ora ne gestiamo i punti di forza. È un problema molto più importante.

I modelli si evolvono rapidamente e noi di Gamma vediamo i cambiamenti in tempo reale. Rivedremo questi risultati nelle prossime settimane, con inevitabili modifiche alla classifica.

Lo stato della generazione di immagini AI: Apprendimento da oltre un miliardo di immagini

Confronto modello per modello

Aderenza tempestiva

Rendering del testo

Fotorealismo

istruzioni "non&quot

Diagrammi e diagrammi di flusso

In conclusione

Come le buone idee entrano nell'universo

Prodotto

Azienda

Sociale

Legale

Scarica l'app