Všechny příspěvky

Thought Leadership

July 22nd, 2025

Stav generování obrázků umělou inteligencí: Učení z více než miliardy obrázků

Po vygenerování více než miliardy obrázků a dosažení počtu 5 milionů denně ve špičce se tým AI společnosti Gamma naučil mnoho o tom, které modely AI skutečně přinášejí výsledky - a kde jsou stále nedostatečné.

Některá hlavní zjištění:

Celková kvalita obrazu dosáhla profesionálních standardů.
Ve všech oblastech jsme zaznamenali výrazný pokrok v zarovnávání obrazových podnětů, fotorealismu a kvalitě vykreslování textu, čímž jsme nastavili nový standard, který ve srovnání s předchozími generacemi vypadá amatérsky.
Vykreslování textu se výrazně zlepšilo.
Modely, které dříve vytvářely zkomolená písmena, mohou často vytvářet dokonalé nápisy, plakáty a značkové materiály.
Nevyžádané generování textů se stalo trvalým problémem. Modely, které vynikají ve vykreslování textu na vyžádání, nyní někdy přidávají nechtěné textové prvky, i když se výzvy výslovně vyhýbají uvedení jakéhokoli textového obsahu.

Za poslední rok vytvořili naši uživatelé v platformě Gamma více než miliardu obrázků, přičemž ve špičce dosáhl počet generací 5 milionů. To není jen milník - je to obrovský soubor dat, který přesně ukazuje, jak dobře si modely obrázků s umělou inteligencí vedou v reálném světě.

Gamma má jedinečnou možnost porovnávat modely, protože uživatelům dáváme možnost volby mezi modely (nebo jim nastavíme správné výchozí nastavení) na základě jejich konkrétních potřeb při generování snímků.

A z těchto údajů vyplývá, že oblast generování obrázků s umělou inteligencí se rychle zrychluje. Modely, které ještě před několika měsíci zápasily se základním vykreslováním textu, nyní vytvářejí marketingové materiály na profesionální úrovni. S rychlým pokrokem však přicházejí předvídatelné problémy a některé staré problémy navzdory pokroku přetrvávají.

Porovnání jednotlivých modelů

Na základě analýzy milionů interakcí a zpětné vazby od uživatelů uvádíme, jak si vedou přední modely - Imagen 4 Ultra, Flux Kontext Max, GPT Image, Recraft v3 a Ideogram 3.0 - v nejčastějších kategoriích zpětné vazby od uživatelů.

(Poznámka: Použili jsme nejkvalitnější verze jednotlivých modelů, které jsou v rámci produktu Gamma k dispozici. Pro každou výzvu jsme vygenerovali 3 obrázky pro každý model a vybrali jsme nejlepší z nich.)

Rychlé dodržování předpisů

Při prvním srovnání jsme měřili, jak modely interpretují složitou výzvu. V tomto případě jsem se ptal na následující:

Různorodý tým čtyř mladých profesionálů pracuje v přestavěném podkrovním bytě nad barevnou projektovou tabulí. Vedoucí týmu s vyhrnutými rukávy a zářivě žlutými teniskami ukazuje na inovativní náčrty, zatímco jeho kolega doplňuje jejich společnou vizi samolepicími poznámkami. Průmyslovými okny proudí sluneční světlo a osvětluje jejich pracovní prostor plný modelů prototypů, kreativních inspiračních tabulí a několika bizarních stolních rostlin. Šálky s kávou a napůl snědené svačiny napovídají, že jejich sezení je plné energie. Atmosféra vyvažuje profesionalitu s tvůrčí energií, když spolupracují na svém průlomovém konceptu. Fotorealistické, teplé osvětlení, přirozené výrazy.

A comparison of five different image models' ability to follow a complex prompt.

V tomto případě jsme měli jasného vítěze.

Imagen 4 Ultra se trefila do téměř každého detailu - prostředí loftu, sluneční světlo a teplé osvětlení, prototypy modelů a atmosféra "profesionality s kreativní agenturou".

Navíc v porovnání s ostatními modely, jejichž výstupem byla špatná integrita obličeje, vykazoval nejlepší fotorealističnost.

Vykreslování textu

V dalším testu jsme se zaměřili na dlouhodobou výzvu pro obrazové modely: přesné vykreslování složitého textu.

Modelům jsme zadali následující výzvu:

Jasně modrá infografika s bílým textem, na jehož horní straně je velkými tučnými písmeny napsáno "5 KROKŮ PRO VYPOČÍTÁNÍ POVODŇOVÉHO POŽÁRU". Rozložení zobrazuje 5 očíslovaných kroků v mřížce s krokem 5 přesahujícím dolní část. Každý krok má bílý kruh s modrým číslem (1-5) a doprovodnou ikonu. Krok 1: ikona pytlíku s penězi, text "PŘIDÁVEJTE SVÉ PENĚŽNÍ ÚČTY : 401K, 403B, IRA ATD.". Krok 2: ikona kalkulačky a grafu, text "POUŽIJTE KALKULÁTOR SLOŽENÝCH ÚROKŮ : 5-7 % ZA JAKÝKOLIV ROK DO DŮCHODU". Krok 3: kalkulačka s ikonou znaménka dolaru, text "POUŽIJTE PRAVIDLO 4 %, ABYSTE ZJISTILI, Z JAKÉ ČÁSTKY MŮŽETE ROČNĚ ŽÍT : PŘ. 1 500 000 USD X 4 % = 60 000 USD ROČNĚ". Krok 4: ikona plážového slunečníku a křesla, text "VYPOČÍTEJTE SI SVÉ PŘÍJEMNÉ ROČNÍ ŽIVOTNÍ NÁKLADY : VYNÁSOBTE 80%-100%". Krok 5: ikona hromádky peněz, text "POKUD VAŠE PŘEDPOKLÁDANÉ PŘÍJMY NA DŮCHOD PŘEKRAČUJÍ VAŠE SOUČASNÉ ROČNÍ ŽIVOTNÍ VÝDAJE, DOSÁHLI JSTE POVSTÁNÍ NA DŮCHOD!".

A comparison of five image models' ability to render complex text.

V tomto případě jsme rozhodli o remíze mezi společnostmi Imagen, GPT a Flux. (Ostatní dva modely byly daleko za těmito předními modely.) Všechny tři modely úspěšně interpretovaly požadovaný formát:

Umístění názvu v horní části velkým tučným písmem.
Pět různých kroků, zřetelně očíslovaných (1 až 5) pomocí bílých čísel v modrých kroužcích.
Rozložení ve stylu mřížky, přičemž krok 5 se rozprostírá přes celou spodní část nebo je vizuálně ukotven jako závěrečný krok.

Tyto modely nejenže přesně rozebraly zadání, ale také dodržely vizuální hierarchii a organizační přehlednost , které vyžaduje kategorie infografiky.

Ikony byly použity konzistentním způsobem, který odpovídal jednotlivým krokům, a každá infografika dosáhla vizuální rovnováhy mezi dekorativními prvky a informativním obsahem.

Žádný z těchto výstupů však nebyl bez překlepů a žádný z nich nebyl schopen zahrnout celý text, který jsme poskytli. (Formátování matematiky bylo výzvou i pro GPT a Flux.) Ve všech třech případech je však většina textu čitelná a přesně odpovídá zamýšlenému sdělení.

Fotorealismus

Dále jsme modely vyzvali k posouzení jejich schopnosti fotorealismu, který vyžaduje extrémně jemnou vizuální věrnost.

Použili jsme následující výzvu:

Ultrarealistická fotografie 35leté ženy s heterochromií, levé oko zelené, pravé oříškové, sedící v kavárně osvětlené sluncem, pořízená objektivem 85 mm při cloně f/1,4. Přirozená struktura pleti ukazuje jemné pihy na jejím nosním hřbetu, jednotlivé řasy zachycují zlatavé světlo proudící skrz deštěm zkrápěné okno za ní. Přesně zaostřeno na její oči, v jejichž zorničkách je vidět odraz fotografa a vybavení fotoaparátu.

A comparison of five image models' ability to render photorealistic images.

I v tomto případě se nám zdálo, že snímek Imagen 4 jednoznačně vyniká, a to navzdory poněkud zvláštní kompozici a zbytečnému odrazu v pravém horním rohu.

Z hlediska vizuální věrnosti - heterochromie, skleněných odlesků, pih, hloubky ostrosti a dokonce i efektů objektivu fotoaparátu - byl Imagen jediným modelem, který přesvědčivě všechny tyto prvky.

Například Imagen dokázal přesně zobrazit kontrast mezi zelenýma a oříškovýma očima, přičemž levé oko bylo výrazně zelenější. Flux, GPT a Recraft standardně nastavily stejnobarevné oči.

V dalších srovnáních jsme viděli, že Imagen vyniká na skupinových snímcích, kde dokázal zachovat jasnost obličejů ve skupině osob.

pokyny "Nedělat&quot

Porovnávali jsme také schopnost modelů dodržovat pokyny "Nedělej to", které v minulosti představovaly problém.

Použili jsme následující výzvu:

Dětská knižní ilustrace živého cirkusu s červenobíle pruhovaným velkokapacitním stanem, barevným otáčejícím se kolotočem, žonglérskými míčky zamrzlými ve vzduchu, duhově pruhovaným lanem nataženým mezi vysokými tyčemi a roztroušenými krabicemi s popcornem a stánky s cukrovou vatou. Jasné základní barvy, měkké oblé tvary a rozmarné detaily, jako jsou vznášející se balónky, točící se větrníky a malý vláček s hračkami kroužící kolem stanu. Do scény NEZAHRNUJTE žádná zvířata, lidi ani lidské postavy.

A comparison of five image models' ability to follow "do not" instructions in a prompt.

V tomto případě zvítězil Recraft.

Přesně se držel našich pokynů "ne". Například se striktně vyhýbala antropomorfním a lidským postavám, zatímco GPT zahrnovala žonglujícího člověka a Ideogram ukazoval akrobaty ve vzduchu.

Dokonce vynikal i v jemnějším háčku - Imagen, Flux a GPT zobrazují koně na kolotoči, kteří porušují ustanovení o zákazu zvířat. Recraft tento kolotoč zcela vynechává, chybuje na straně opatrnosti a zároveň zachycuje zábavu.

Diagramy a vývojové diagramy

Nakonec jsme otestovali schopnost modelů vykreslovat složité diagramy a vývojové diagramy. Použili jsme následující výzvu:

Přehledné schéma znázorňující proces uvedení produktu SaaS na trh s obdélníkovými poli spojenými šipkami, které začínají "Průzkumem trhu", pokračují "Vývojem MVP", "Beta testováním", "Marketingovou kampaní", "Uvedením produktu na trh" a končí "Analýzou po uvedení produktu na trh"." Použijte čajové a levandulové barevné schéma s jasnými štítky, rozhodovacími kosočtverci pro klíčové schvalovací brány a ukazateli časové osy zobrazujícími 3-6měsíční fáze pod každým hlavním milníkem.

A comparison of five image models' ability to render diagrams and flowcharts.

V tomto případě si zlato odnesl GPT.

Ačkoli každý model přinesl jedinečnou vizuální interpretaci, společnost GPT byla jediná, která dodala ucelený, čitelný a vizuálně sdělný vývojový diagram, který respektoval všechny klíčové pokyny z výzvy.

Tok GPT je jasný a nepřerušovaný, s důsledným používáním šipek, které zabraňuje dvojznačnosti nebo nesprávnému směrování (na rozdíl od Fluxu, který obsahuje opakující se nebo smyčkové uzly).

Ikony a text jsou v ní také čistě vyváženy a ilustrace vhodně podporují sdělení.

A navzdory několika překlepům je text GPT plně čitelný a sémanticky správný.

Podtrženo, sečteno

Modely generování obrázků pomocí umělé inteligence se nejen zlepšují - ale i specializují. Každý model nachází svou silnou stránku, což znamená, že správná volba závisí výhradně na tom, čeho se snažíte dosáhnout.

Podle našeho použití Image 4 Ultra vyniká fotorealismem, GPT září strukturovanými diagramy a Recraft nejlépe dodržuje preference "ne". Tato specializace je přirozeným vývojem dozrávající technologie.

Před šesti měsíci jsme my (a naši uživatelé) zvládali omezení generování obrázků pomocí umělé inteligence. Nyní se pohybujeme v oblasti silných stránek. To je mnohem lepší problém.

Modely se rychle vyvíjejí a my ve společnosti Gamma vidíme změny v reálném čase. V následujících týdnech se k těmto zjištěním vrátíme a žebříček nevyhnutelně změníme.

Stav generování obrázků umělou inteligencí: Učení z více než miliardy obrázků

Porovnání jednotlivých modelů

Rychlé dodržování předpisů

Vykreslování textu

Fotorealismus

pokyny "Nedělat&quot

Diagramy a vývojové diagramy

Podtrženo, sečteno

Jak se dobré nápady dostávají do vesmíru

Produkt

Společnost

Sociální

Právní

Stáhněte si aplikaci