Toate postările

Thought Leadership

July 22nd, 2025

Stadiul generării de imagini AI: Învățarea din peste un miliard de imagini

După ce a generat peste un miliard de imagini și a ajuns la 5 milioane pe zi în zilele de vârf, echipa Gamma AI a învățat multe despre modelele AI care produc rezultate - și unde nu reușesc încă.

Câteva constatări la nivel înalt:

Calitatea generală a imaginii a atins standardele profesionale.
În general, observăm progrese semnificative în ceea ce privește alinierea imaginii-prompt, fotorealismul și calitatea redării textului, stabilind un nou standard care face ca generațiile anterioare să pară amatoare prin comparație.
Redarea textului s-a îmbunătățit foarte mult.
Modelele care obișnuiau să producă litere distorsionate pot crea adesea semnale, postere și materiale de marcă perfecte ca pixel.
Generarea de text nesolicitat a devenit o problemă persistentă. Modelele care excelează în redarea textului la cerere adaugă acum uneori elemente de text nedorite, chiar și atunci când solicitările evită în mod explicit menționarea oricărui conținut text.

În ultimul an, la Gamma, utilizatorii noștri au generat peste un miliard de imagini prin intermediul platformei noastre, zilele de vârf atingând 5 milioane de generații. Aceasta nu este doar o piatră de hotar - este un set masiv de date care dezvăluie exact cât de bine funcționează modelele de imagine AI în lumea reală.

Gamma se află într-o poziție unică pentru a compara modelele, deoarece le oferim utilizatorilor libertatea de a alege între modele (sau stabilim modelul implicit potrivit pentru ei) în funcție de nevoile lor specifice de generare a imaginilor.

Și iată ce arată aceste date: spațiul de generare a imaginilor AI se accelerează într-un ritm rapid. Modelele care se luptau cu redarea textului de bază cu doar câteva luni în urmă creează acum materiale de marketing de nivel profesional. Dar odată cu progresul rapid apar și provocări previzibile, iar unele probleme vechi persistă în ciuda progreselor.

Comparație model cu model

Pe baza analizei a milioane de interacțiuni și reacții ale utilizatorilor, iată cum se situează modelele principale - Imagen 4 Ultra, Flux Kontext Max, GPT Image, Recraft v3 și Ideogram 3.0 - în cele mai comune categorii de reacții ale utilizatorilor.

(Notă: Am folosit cele mai premium versiuni ale fiecărui model disponibile în cadrul produsului Gamma. Am generat 3 imagini per model pentru fiecare solicitare și am ales-o pe cea mai bună)

Aderență promptă

Pentru prima comparație, am măsurat modul în care modelele interpretează o solicitare complexă. În acest caz, am cerut următoarele:

O echipă diversă formată din patru tineri profesioniști face brainstorming în jurul unei planșe de proiect colorate într-un spațiu transformat în mansardă. Liderul echipei, care poartă mâneci suflecate și adidași galbeni strălucitori, indică schițe inovatoare, în timp ce un coleg adaugă note lipicioase la viziunea lor comună. Lumina soarelui pătrunde prin ferestrele industriale, luminând spațiul lor de lucru plin de modele de prototipuri, panouri de inspirație creativă și câteva plante de birou ciudate. Ceștile de cafea și gustările pe jumătate mâncate fac aluzie la sesiunea lor energică. Atmosfera echilibrează profesionalismul cu energia creativă în timp ce ei colaborează la conceptul lor revoluționar. Fotorealist, iluminare caldă, expresii naturale.

A comparison of five different image models' ability to follow a complex prompt.

În acest caz, am avut un câștigător clar.

Imagen 4 Ultra surprinde aproape fiecare detaliu al solicitării - decorul loftului, lumina soarelui și iluminatul cald, modelele prototip și atmosfera "profesionalism cu agenție creativă".

În plus, acesta a transmis cel mai bun fotorealism în comparație cu alte modele, care au prezentat o integritate facială slabă.

Redarea textului

Următorul nostru test a abordat o provocare de lungă durată pentru modelele de imagine: redarea precisă a textului complex.

Am hrănit modelele cu următorul prompt:

Un infografic albastru strălucitor cu text alb intitulat "5 pași pentru calcularea focului de coastă" cu litere mari și îndrăznețe în partea de sus. Layout-ul prezintă 5 pași numerotați într-o grilă cu pasul 5 în partea de jos. Fiecare pas are un cerc alb cu un număr albastru (1-5) și o pictogramă însoțitoare. Pasul 1: pictograma geantă cu bani, textul "ADD UP YOUR RETIREMENT ACCOUNTS : 401K, 403B, IRA, ETC.". Pasul 2: pictograma cu calculator și grafic, textul "USE A COMPOUND INTEREST CALCULATOR : 5-7% FOR HOWEVER MANY YEARS TO RETIREMENT". Pasul 3: calculator cu pictograma cu semnul dolarului, textul "USE THE 4% RULE TO SEE HOW MUCH YOU CAN LIVE ON ANNUALLY : EX. $1,500,000 X 4% = $60,000 PE AN". Pasul 4: pictograma cu umbrelă de plajă și scaun, textul "CALCULEAZĂ-ȚI cheltuielile anuale de trai confortabile : MULTIPLICAȚI CU 80%-100%". Pasul 5: pictograma teanc de bani, textul "DACĂ VENITUL PROIECTAT LA PENSIONARE EXCEDE CHELTUIELILE ANUALE DE VIAȚĂ CURENTE, AȚI REALIZAT COAST FIRE!".

A comparison of five image models' ability to render complex text.

În acest caz, judecăm o egalitate între Imagen, GPT și Flux. (Celelalte două modele au fost mult în urma acestor fruntașe.) Toate cele trei modele au interpretat cu succes formatul solicitat:

Titlu plasare în partea de sus, cu text mare, bold.
Cinci etape distincte, numerotate clar (de la 1 la 5), folosind numere albe în cercuri albastre.
Dispunere în stil grilă, cu pasul 5 cuprins în partea de jos sau ancorat vizual ca pas final.

Aceste modele nu numai că au analizat promptul cu exactitate, dar au respectat și ierarhia vizuală și claritatea organizațională cerute de categoria infografică.

Icoanele au fost utilizate într-un mod consecvent, corespunzător fiecărui pas, iar fiecare infografic a atins un echilibru vizual între elementele decorative și conținutul informativ.

Acestea fiind spuse, niciunul dintre aceste rezultate nu a fost lipsit de greșeli de scriere și niciunul nu a putut include întregul text pe care l-am furnizat. (Formatarea matematicii a fost, de asemenea, o provocare pentru GPT și Flux.) Dar, în toate cele trei cazuri, majoritatea textului este lizibilă și se aliniază îndeaproape cu mesajul dorit.

Fotorealism

Apoi, am solicitat modelelor să evalueze capacitatea lor de a oferi fotorealism, care necesită o fidelitate vizuală extrem de fină.

Am folosit următoarea solicitare:

Fotografie în prim plan ultra-realistă a unei femei în vârstă de 35 de ani cu heterocromie, ochiul stâng verde, ochiul drept alune, stând într-o cafenea luminată de soare, realizată cu un obiectiv de 85 mm la diafragma f/1,4. Textura naturală a pielii arată pistrui subțiri pe podul nasului, genele individuale captează lumina orei de aur care pătrunde prin fereastra stropită de ploaie din spatele ei. Focalizare exactă pe ochii ei, unde se poate vedea reflexia fotografului și a echipamentului aparatului foto în pupilele ei.

A comparison of five image models' ability to render photorealistic images.

Din nou, Imagen 4 ne-a atras atenția, în ciuda unei compoziții ușor ciudate și a reflexiei inutile din dreapta sus.

În ceea ce privește fidelitatea vizuală - heterocromie, reflexii de sticlă, pistrui, profunzime de câmp și chiar efecte ale lentilelor camerei - Imagen a fost singurul model care a oferit toate aceste elemente în mod convingător.

De exemplu, Imagen a reușit să descrie cu acuratețe contrastul dintre ochii verzi și cei căprui, cu ochiul stâng mult mai verde. Flux, GPT și Recraft au indicat în mod implicit ochi uniform colorați.

În alte comparații, am văzut că Imagen excelează la imaginile de grup, unde a reușit să mențină claritatea facială într-un grup de persoane.

instrucțiuni "A nu se face&quot

De asemenea, am comparat capacitatea modelelor de a urma instrucțiunile "A nu se face", care au reprezentat o provocare istorică.

Am folosit următoarea solicitare:

Ilustrație de carte pentru copii a unui circ plin de viață, cu un cort mare în dungi roșii și albe, un carusel colorat care se învârte, mingi de jonglerie înghețate în aer, o frânghie în dungi curcubeu întinsă între stâlpi înalți și cutii de popcorn și standuri de vată de zahăr împrăștiate. Culori primare strălucitoare, forme rotunjite moi și detalii capricioase precum baloane plutitoare, roți de pini care se învârt și un trenuleț de jucărie care se învârte în jurul cortului. NU includeți animale, oameni sau figuri umane în scenă.

A comparison of five image models' ability to follow "do not" instructions in a prompt.

În acest caz, Recraft a fost câștigătorul.

Acesta a respectat cu cea mai mare fidelitate instrucțiunile noastre "a nu se face". De exemplu, a evitat cu strictețe atât figurile antropomorfe, cât și cele umane, în timp ce GPT a inclus o persoană care jongla, iar Ideogram a arătat acrobați în aer.

A excelat chiar și la o captură mai subtilă - Imagen, Flux și GPT înfățișează cai de carusel, care încalcă clauza "fără animale". Recraft scapă complet de carusel, alegând să fie prudent și, în același timp, să surprindă distracția.

Diagrame și hărți de flux

În cele din urmă, am testat capacitatea modelelor de a reda diagrame și hărți de flux complexe. Am folosit următoarea solicitare:

Diagramă de flux curată care prezintă procesul de lansare a produsului SaaS cu casete dreptunghiulare conectate prin săgeți, pornind de la "Cercetarea pieței", trecând prin "Dezvoltarea MVP", "Testarea beta", "Campania de marketing", "Lansarea produsului" și terminând la "Analiza post-lansare"."Utilizați o schemă de culori albastru și lavandă cu etichete clare, diamante de decizie pentru principalele porți de aprobare și indicatori de cronologie care prezintă faze de 3-6 luni sub fiecare etapă majoră.

A comparison of five image models' ability to render diagrams and flowcharts.

În acest caz, GPT a luat aurul.

În timp ce fiecare model a adus o interpretare vizuală unică, GPT a fost singurul care a livrat o schemă de flux coerentă, lizibilă și comunicativă din punct de vedere vizual, care a respectat toate instrucțiunile cheie din invitație.

Fluxul GPT este clar și neîntrerupt, cu o utilizare consecventă a săgeților care evită ambiguitatea sau direcționarea greșită (spre deosebire de Flux, care include noduri repetate sau în buclă).

De asemenea, echilibrează pictogramele cu textul în mod curat, iar ilustrațiile susțin mesajul în mod corespunzător.

Și, în ciuda câtorva greșeli de scriere, textul GPT este complet lizibil și semantic solid.

Concluzie

Modelele de generare a imaginilor AI nu doar se îmbunătățesc, ci se specializează. Fiecare model își găsește punctul forte, ceea ce înseamnă că alegerea corectă depinde în întregime de ceea ce încercați să realizați.

În utilizarea noastră, Image 4 Ultra excelează la fotorealism, GPT strălucește cu diagramele structurate, iar Recraft a urmat cel mai bine preferințele "nu". Această specializare este evoluția naturală a unei tehnologii în curs de maturizare.

Acum șase luni, noi (și utilizatorii noștri) gestionam limitele generării de imagini AI. Acum navigăm printre punctele forte. Aceasta este o problemă mult mai bună.

Modelele evoluează rapid, iar la Gamma, vedem schimbările în timp real. Vom reveni asupra acestor rezultate în săptămânile următoare, cu modificări inevitabile ale clasamentului.

Stadiul generării de imagini AI: Învățarea din peste un miliard de imagini

Comparație model cu model

Aderență promptă

Redarea textului

Fotorealism

instrucțiuni "A nu se face&quot

Diagrame și hărți de flux

Concluzie

Cum ajung ideile bune în univers

Produs

Compania

Social

Legal

Descărcați aplicația