Всі пости

Thought Leadership

July 22nd, 2025

Стан генерації зображень зі штучним інтелектом: Навчання на понад мільярді зображень

Згенерувавши понад мільярд зображень і досягнувши 5 мільйонів на день у пікові дні, команда АІ Gamma багато дізналася про те, які моделі штучного інтелекту справді ефективні - і де вони все ще недопрацьовують.

Деякі висновки найвищого рівня:

Загальна якість зображення досягла професійних стандартів.
Ми бачимо значний прогрес у вирівнюванні підказок, фотореалістичності та якості відображення тексту, що встановлює новий стандарт, порівняно з яким попередні покоління виглядають аматорськими.
Відображення тексту значно покращилося.
Моделі, які використовувалися для створення спотворених літер, часто можуть створювати піксельно ідеальні вивіски, плакати та брендовані матеріали.
Небажана генерація тексту стала постійною проблемою. Моделі, які чудово рендерили текст за запитом, тепер іноді додають небажані текстові елементи, навіть якщо підказки явно уникають згадки про будь-який текстовий вміст.

За минулий рік на платформі Gamma наші користувачі створили понад мільярд зображень, причому в пікові дні їхня кількість сягала 5 мільйонів. Це не просто віха - це величезний масив даних, який показує, наскільки добре ШІ-моделі зображень працюють у реальному світі.

Gamma має унікальну можливість порівнювати моделі, оскільки ми надаємо користувачам свободу вибору між моделями (або встановлюємо для них відповідні налаштування за замовчуванням), виходячи з їхніх конкретних потреб у створенні зображень.

І ось що показують ці дані: сфера створення зображень за допомогою ШІ стрімко розвивається. Моделі, які ще кілька місяців тому не могли впоратися з базовим рендерингом тексту, тепер створюють маркетингові матеріали професійного рівня. Але зі стрімким прогресом приходять і передбачувані виклики, а деякі старі проблеми залишаються, незважаючи на прогрес.

Порівняння моделей між собою

На основі аналізу мільйонів користувацьких взаємодій та відгуків, ось як провідні моделі - Imagen 4 Ultra, Flux Kontext Max, GPT Image, Recraft v3 та Ideogram 3.0 - розподіляються за найпоширенішими категоріями користувацьких відгуків.

(Примітка: ми використовували найпреміальніші версії кожної моделі, доступні в продукті Gamma. Ми згенерували по 3 зображення для кожної моделі для кожної підказки і вибрали найкраще)

Оперативне дотримання

Для першого порівняння ми виміряли, як моделі інтерпретують складну підказку. У цьому випадку я попросив про наступне:

Різноманітна команда з чотирьох молодих спеціалістів проводить мозковий штурм біля кольорової проектної дошки у переобладнаному приміщенні лофту. Лідер команди, одягнений у яскраво-жовті кросівки з закатаними рукавами, вказує на інноваційні ескізи, а його колега додає стікери до їхнього спільного бачення. Сонячне світло пробивається крізь промислові вікна, освітлюючи їхній робочий простір, заставлений прототипами моделей, дошками для творчого натхнення та кількома химерними настільними рослинами. Чашки з кавою та недоїдені закуски натякають на їхню енергійну роботу. Атмосфера балансує між професіоналізмом і творчою енергією, коли вони працюють над своєю проривною концепцією. Фотореалістичне, тепле освітлення, природні вирази обличчя.

A comparison of five different image models' ability to follow a complex prompt.

У цьому випадку у нас був явний переможець.

Imagen 4 Ultra вловив майже кожну деталь у завданні - обстановку лофту, сонячне світло і тепле освітлення, прототипи моделей і атмосферу "професіоналізму з креативним агентством".

Крім того, вона передавала найкращу фотореалістичність порівняно з іншими моделями, які погано відтворювали цілісність обличчя.

Відображення тексту

Наш наступний тест був присвячений давньому виклику для графічних моделей: точному рендерингу складного тексту.

Ми дали моделям наступну підказку:

Яскраво-синя інфографіка з білим текстом "5 КРОКІВ ДЛЯ РОЗРАХУНКУ ПРИБЕРЕЖНОЇ ПОЖЕЖІ" великими жирними літерами вгорі. Макет показує 5 пронумерованих кроків у сітці, причому крок 5 охоплює нижню частину. Кожен крок має біле коло з синім номером (1-5) і відповідною піктограмою. Крок 1: піктограма із зображенням грошової сумки, текст "ПОПОВНІТЬ ВАШІ РЕНЕСІЙНІ РАХУНКИ: 401K, 403B, IRA, ETC". Крок 2: піктограма з калькулятором та графіком, текст "ВИКОРИСТАЙТЕ КАЛЬКУЛЯТОР СКЛАДНИХ ВІДСОТКІВ: 5-7% ЗА СКОЛЬКО РОКІВ ДО ВИХОДУ НА ПЕНСІЮ". Крок 3: калькулятор зі значком долара, текст "ВИКОРИСТАЙТЕ ПРАВИЛО 4%, ЩОБ ПОБАЧИТИ, НА СКІЛЬКИ ВИ МОЖЕТЕ ЖИТИ ЩОРІЧНО: ПРИКЛАД. $1 500 000 X 4% = $60 000 НА РІК". Крок 4: піктограма з пляжною парасолькою і стільцем, текст "РОЗРАХУЙТЕ СВОЇ КОМФОРТНІ ЩОРІЧНІ ВИТРАТИ НА ЖИТТЯ: ПОМНОЖТЕ НА 80%-100%". Крок 5: іконка зі стопкою грошей, текст "ЯКЩО ВАШ ПРОЕКТОВАНИЙ ДОХІД ВІД ВИХОДУ НА ПЕНСІЮ ПЕРЕВИЩУЄ ВАШІ ПОТОЧНІ ЩОРІЧНІ ВИТРАТИ НА ЖИТТЯ, ВИ ДОСЯГАЄТЕ ДОБРОБУТУ НА ПОРУБІЖЖЯ!".

A comparison of five image models' ability to render complex text.

Тут ми бачимо рівну кількість голосів між Imagen, GPT та Flux. (Дві інші моделі значно відстали від цих лідерів.) Усі три моделі успішно інтерпретували необхідний формат:

Заголовок розміщується вгорі великим жирним шрифтом.
П'ять окремих етапів, чітко пронумерованих (від 1 до 5) білими цифрами в синіх колах.
Макет у вигляді сітки, з кроком 5, що охоплює всю нижню частину або візуально закріплений як завершальний крок.

Ці моделі не лише точно розбирали запит, але й дотримувалися візуальної ієрархії та організаційної чіткості, яких вимагає категорія інфографіки.

Іконки використовувалися послідовно, відповідно до кожного кроку, а кожна інфографіка досягала візуального балансу між декоративними елементами та інформативним наповненням.

Проте, жоден з цих результатів не був без помилок, і жоден з них не зміг включити весь текст, який ми надали. (Математичне форматування також було проблемою для GPT і Flux.) Але в усіх трьох випадках більша частина тексту читабельна і точно відповідає задуманому повідомленню.

Фотореалізм

Далі ми запропонували моделям оцінити їхню здатність передавати фотореалізм, що вимагає надзвичайно точної візуальної достовірності.

Ми використали наступну підказку:

Надреалістична фотографія крупним планом 35-річної жінки з гетерохромією (ліве око зелене, праве - каре), яка сидить в освітленій сонцем кав'ярні, знята 85-міліметровим об'єктивом з діафрагмою f/1.4. Природна текстура шкіри демонструє ледь помітні веснянки на переніссі, окремі вії ловлять світло золотого годинника, що проникає крізь заляпане дощем вікно за її спиною. Точний фокус на її очах, в зіницях яких можна побачити відображення фотографа та обладнання.

A comparison of five image models' ability to render photorealistic images.

Знову ж таки, Imagen 4 вразив нас як явний виняток, незважаючи на дещо дивну композицію і непотрібне віддзеркалення вгорі праворуч.

З точки зору візуальної точності - гетерохромії, віддзеркалення скла, веснянок, глибини різкості і навіть ефектів об'єктива камери - Imagen був єдиною моделлю, яка переконливо передавала всі ці елементи.

Наприклад, Imagen зміг точно зобразити контраст між зеленими і карими очима, причому ліве око виразно зеленіше. Flux, GPT і Recraft за замовчуванням мають рівномірно забарвлені очі.

В інших порівняннях ми побачили, що Imagen чудово справляється з груповими зображеннями, де він зміг зберегти чіткість облич у групі людей.

інструкції "Не можна&quot

Ми також порівняли здатність моделей дотримуватися інструкцій "Не роби", що історично було складним завданням.

Ми використали наступну підказку:

Ілюстрація до дитячої книжки про яскравий цирк із червоно-білим смугастим шатром, барвистою каруселлю, що обертається, жонглюванням кульками, що застигли в повітрі, райдужним канатом, що тягнеться між високими стовпами, та розкиданими коробками з попкорном і солодкою ватою. Яскраві основні кольори, м'які округлі форми та химерні деталі, такі як повітряні кульки, дзиґи, що крутяться, та крихітний іграшковий потяг, що кружляє навколо намету. НЕ включайте у сцену жодних тварин, людей чи людських фігур.

A comparison of five image models' ability to follow "do not" instructions in a prompt.

У цьому випадку переможцем став проект Recraft.

Вона найточніше дотримувалася наших інструкцій "не можна". Наприклад, він суворо уникав як антропоморфних, так і людських фігур, тоді як GPT включав людину, що жонглює, а Ideogram показував акробатів у повітрі.

Йому навіть вдалося вловити більш тонкий підступ: Imagen, Flux і GPT зображують коней на каруселі, що порушує пункт "ніяких тварин". Recraft повністю оминає карусель, помиляючись на користь обережності, але все ж таки фіксуючи веселощі.

Діаграми та блок-схеми

Нарешті, ми перевірили здатність моделей рендерити складні діаграми та блок-схеми. Ми використовували наступну підказку:

Чиста блок-схема, що показує процес запуску продукту SaaS з прямокутними блоками, з'єднаними стрілками, починаючи від "Дослідження ринку" через "Розробку MVP", "Бета-тестування", "Маркетингову кампанію", "Запуск продукту" і закінчуючи "Аналітикою після запуску"."Використовуйте бірюзово-лавандову кольорову гаму з чіткими написами, діамантами рішень для ключових етапів затвердження та індикаторами часової шкали, що показують 3-6-місячні етапи під кожною основною віхою.

A comparison of five image models' ability to render diagrams and flowcharts.

У цьому випадку золото здобув GPT.

Хоча кожна модель пропонувала унікальну візуальну інтерпретацію, GPT був єдиним, хто створив цілісну, читабельну та візуально зрозумілу блок-схему, яка відповідала всім ключовим інструкціям, що містилися в підказці.

Потік GPT є чітким і безперервним, з послідовним використанням стрілок, що дозволяє уникнути двозначності або неправильного напрямку (на відміну від Flux, який містить повторювані або зациклені вузли).

Він також чітко балансує між іконками та текстом, а ілюстрації належним чином підтримують повідомлення.

І, незважаючи на кілька помилок, текст GPT повністю читабельний і семантично обґрунтований.

Підсумок

Моделі генерації зображень зі штучним інтелектом не просто вдосконалюються - вони спеціалізуються. Кожна модель знаходить свої сильні сторони, а це означає, що правильний вибір повністю залежить від того, чого ви намагаєтеся досягти.

У нашому використанні Image 4 Ultra виділяється фотореалістичністю, GPT блищить структурованими діаграмами, а Recraft найкраще відповідає вподобанням "не треба". Така спеціалізація є природним розвитком зрілої технології.

Півроку тому ми (і наші користувачі) боролися з обмеженнями генерації зображень штучним інтелектом. Тепер ми орієнтуємося на сильні сторони. Це набагато краща проблема.

Моделі швидко розвиваються, і в Gamma ми бачимо зміни в реальному часі. Ми повернемося до цих результатів найближчими тижнями, з неминучими змінами в таблиці лідерів.

Стан генерації зображень зі штучним інтелектом: Навчання на понад мільярді зображень

Порівняння моделей між собою

Оперативне дотримання

Відображення тексту

Фотореалізм

інструкції "Не можна&quot

Діаграми та блок-схеми

Підсумок

Як хороші ідеї потрапляють у всесвіт

Продукт

Компанія

Соціальний

Юридичний

Завантажте додаток