Все посты

Thought Leadership

July 22nd, 2025

Состояние искусственного интеллекта в области создания изображений: Обучение на основе более миллиарда изображений

Сгенерировав более миллиарда изображений и достигая 5 миллионов в день в пиковые дни, команда ИИ Gamma узнала много нового о том, какие модели ИИ действительно приносят результат и где они все еще не работают.

Некоторые основные выводы:

Общее качество изображения достигло профессиональных стандартов.
Мы видим значительные улучшения в выравнивании изображений, фотореалистичности и качестве отрисовки текста, устанавливая новый стандарт, по сравнению с которым предыдущие поколения выглядят дилетантами.
Прорисовка текста значительно улучшилась.
Модели, которые раньше создавали беспорядочные буквы, теперь могут создавать пиксельно идеальные вывески, постеры и фирменные материалы.
Генерация нежелательного текста стала постоянной проблемой. Модели, которые отлично справляются с выводом текста по запросу, теперь иногда добавляют нежелательные текстовые элементы, даже если в подсказках явно не упоминается текстовый контент.

За последний год работы Gamma наши пользователи создали более миллиарда изображений с помощью нашей платформы, причем в пиковые дни число поколений достигало 5 миллионов. Это не просто веха - это огромный массив данных, который показывает, насколько хорошо работают модели изображений, созданные искусственным интеллектом, в реальном мире.

Gamma имеет уникальные возможности для сравнения моделей, поскольку мы предоставляем пользователям свободу выбора (или устанавливаем для них подходящую модель по умолчанию) в зависимости от их конкретных потребностей в создании изображений.

И вот что показывают эти данные: сфера создания изображений с помощью ИИ развивается стремительными темпами. Модели, которые еще несколько месяцев назад с трудом справлялись с базовым рендерингом текста, теперь создают маркетинговые материалы профессионального уровня. Но с быстрым прогрессом приходят предсказуемые проблемы, и некоторые старые проблемы сохраняются, несмотря на достижения.

Сравнение моделей

На основе анализа миллионов пользовательских взаимодействий и отзывов вот как ведущие модели - Imagen 4 Ultra, Flux Kontext Max, GPT Image, Recraft v3 и Ideogram 3.0 - оцениваются по наиболее распространенным категориям пользовательских отзывов.

(Примечание: Мы использовали самые премиальные версии каждой модели, доступные в продукте Gamma. Мы сгенерировали по 3 изображения каждой модели для каждого задания и выбрали лучшее)

Оперативное соблюдение

Для первого сравнения мы измерили, как модели интерпретируют сложный запрос. В данном случае я попросил сделать следующее:

Разнообразная команда из четырех молодых профессионалов проводит мозговой штурм вокруг красочной доски проектов в переоборудованном лофте. Лидер команды, одетый в закатанные рукава и ярко-желтые кроссовки, указывает на инновационные эскизы, в то время как его коллега добавляет липкие заметки к их общему видению. Солнечный свет проникает сквозь промышленные окна, освещая их рабочее пространство, заполненное моделями прототипов, досками для творческого вдохновения и несколькими причудливыми настольными растениями. Чашки с кофе и недоеденные закуски намекают на то, что они энергично проводят время. Атмосфера балансирует между профессионализмом и творческой энергией, пока они работают над своей прорывной концепцией. Фотореалистичное, теплое освещение, естественные выражения.

A comparison of five different image models' ability to follow a complex prompt.

В этом случае у нас был явный победитель.

В Imagen 4 Ultra продумана практически каждая деталь - обстановка лофта, солнечный свет и теплое освещение, прототипы моделей и атмосфера "профессионализма в креативном агентстве".

Кроме того, он передавал наилучшую фотореалистичность по сравнению с другими моделями, которые плохо передавали целостность лица.

Рендеринг текста

Наш следующий тест был посвящен давней проблеме моделей изображений: точному отображению сложного текста.

Мы кормили моделей следующими подсказками:

Ярко-голубая инфографика с белым текстом "5 ШАГОВ ДЛЯ РАСЧЕТА ПРИБРЕЖНОГО ОГНЯ", написанным большими жирными буквами в верхней части. На макете изображены 5 пронумерованных шагов в виде сетки, причем шаг 5 расположен в самом низу. Каждый шаг имеет белый круг с синим номером (1-5) и сопутствующую пиктограмму. Шаг 1: значок денежного мешка, текст "ADD UP YOUR RETIREMENT ACCOUNTS : 401K, 403B, IRA И Т. Д.". Шаг 2: значок калькулятора и графика, текст "USE A COMPOUND INTEREST CALCULATOR : 5-7% FOR HOWEVER MANY YEARS TO RETIREMENT". Шаг 3: калькулятор со значком доллара, текст "Используйте правило 4%, чтобы определить, на какую сумму вы можете прожить в год: EX. $1,500,000 X 4% = $60,000 В ГОД". Шаг 4: значок пляжного зонтика и кресла, текст "CALCULATE YOUR COMFORTABLE ANNUAL LIVING EXPENSES : УМНОЖЬТЕ НА 80%-100%". Шаг 5: иконка с пачкой денег, текст "ЕСЛИ ВАШ ПРОЕКТИРУЕМЫЙ ДОХОД НА ВЫХОДНЫЕ ПРЕВЫШАЕТ ВАШИ ТЕКУЩИЕ ДОХОДЫ НА ПРОЖИВАНИЕ, ВЫ УСПЕЛИ ЗАРАБОТАТЬ НА ПМЖ!".

A comparison of five image models' ability to render complex text.

Здесь мы можем судить о ничьей между Imagen, GPT и Flux. (Все три модели успешно интерпретировали требуемый формат:

Заголовок разместите в верхней части крупным жирным шрифтом.
Пять отдельных этапов, четко пронумерованных (от 1 до 5) с помощью белых цифр в синих кружках.
Макет в стиле сетки, с шагом 5, расположенным внизу или визуально закрепленным в качестве завершающего шага.

Эти модели не только точно разобрали подсказку, но и соблюли визуальную иерархию и организационную ясность, требуемые категорией инфографики.

Значки использовались последовательно, в соответствии с каждым шагом, и в каждой инфографике соблюдался визуальный баланс между декоративными элементами и информативным содержанием.

При этом ни один из этих результатов не содержит опечаток, и ни один из них не смог включить в себя весь текст, который мы предоставили. (Математическое форматирование также было проблемой для GPT и Flux.) Но во всех трех случаях большая часть текста разборчива и точно соответствует задуманному сообщению.

Фотореализм

Затем мы попробовали оценить способность моделей передавать фотореализм, который требует чрезвычайно точной визуальной точности.

Мы использовали следующую подсказку:

Ультрареалистичная фотография крупным планом 35-летней женщины с гетерохромией, левый глаз зеленый, правый - лесной, сидящей в освещенном солнцем кафе, снятая объективом 85 мм с диафрагмой f/1,4. Естественная текстура кожи показывает тонкие веснушки на переносице, отдельные ресницы ловят свет золотого часа, проникающий через окно, залитое дождем, позади нее. Точный фокус на ее глазах, в зрачках которых можно увидеть отражение фотографа и оборудования камеры.

A comparison of five image models' ability to render photorealistic images.

И снова Imagen 4 показался нам несомненным лидером, несмотря на немного странную композицию и ненужное отражение в правом верхнем углу.

С точки зрения визуальной достоверности - гетерохромии, отражений в стекле, веснушек, глубины резкости и даже эффектов объектива камеры - Imagen оказался единственной моделью, которая убедительно передала все этих элементов.

Например, Imagen смог точно изобразить контраст между зелеными и ореховыми глазами, причем левый глаз был заметно зеленее. Flux, GPT и Recraft по умолчанию отображали глаза одинакового цвета.

В ходе других сравнений мы увидели, что Imagen лучше всех справляется с групповыми снимками, где ему удается сохранить четкость лица у группы людей.

инструкции "Не делать&quot

Мы также сравнили способность моделей следовать инструкциям "Не делать", которые исторически были сложной задачей.

Мы использовали следующую подсказку:

Детская книжная иллюстрация яркого цирка с красно-белым полосатым шатром, разноцветной крутящейся каруселью, жонглирующими мячами, застывшими в воздухе, канатом с радужными полосами, натянутым между высокими столбами, и разбросанными коробками с попкорном и сладкой ватой. Яркие основные цвета, мягкие округлые формы и причудливые детали, такие как плавающие воздушные шары, вращающиеся булавки и крошечный игрушечный поезд, кружащий вокруг шатра. НЕ включайте в сцену животных, людей или человеческие фигуры.

A comparison of five image models' ability to follow "do not" instructions in a prompt.

В данном случае победителем стал Recraft.

Он наиболее точно следовал нашим инструкциям "не делать". Например, в нем строго избегались антропоморфные и человеческие фигуры, в то время как в GPT был изображен жонглирующий человек, а в Ideogram - акробаты в воздухе.

Она даже преуспела в более тонких уловках - Imagen, Flux и GPT изображают карусельных лошадок, которые нарушают пункт "без животных". Recraft полностью обходится без карусели, соблюдая осторожность и сохраняя при этом веселье.

Диаграммы и блок-схемы

Наконец, мы проверили способность моделей отображать сложные диаграммы и блок-схемы. Мы использовали следующий запрос:

Чистая блок-схема процесса запуска SaaS-продукта с прямоугольными ячейками, соединенными стрелками, начиная с "Исследования рынка", заканчивая "Разработкой MVP", "Бета-тестированием", "Маркетинговой кампанией", "Запуском продукта" и заканчивая "Аналитикой после запуска"."Используйте цветовую схему тила и лаванды с четкими надписями, бриллиантами решений для ключевых ворот утверждения и индикаторами сроков, показывающими 3-6-месячные этапы под каждым основным этапом.

A comparison of five image models' ability to render diagrams and flowcharts.

В данном случае золото досталось GPT.

Хотя каждая модель предложила уникальную визуальную интерпретацию, GPT была единственной, кто предоставил целостную, читаемую и визуально понятную блок-схему, в которой были учтены все ключевые инструкции, содержащиеся в задании.

Поток GPT четкий и непрерывный, с последовательным использованием стрелок, что позволяет избежать двусмысленности или неправильного направления (в отличие от Flux, где есть повторяющиеся или зацикленные узлы).

Кроме того, в книге четко соблюдается баланс между иконками и текстом, а иллюстрации должным образом поддерживают сообщение.

И несмотря на пару опечаток, текст GPT полностью разборчив и семантически обоснован.

Итог

Модели искусственного интеллекта для создания изображений не просто совершенствуются - они специализируются. Каждая модель находит свои сильные стороны, а значит, правильный выбор зависит от того, чего вы хотите добиться.

В нашем использовании Image 4 Ultra превосходит фотореализм, GPT - структурированные диаграммы, а Recraft лучше всего следует предпочтениям "не делать". Такая специализация - естественная эволюция развивающейся технологии.

Шесть месяцев назад мы (и наши пользователи) справлялись с ограничениями искусственного интеллекта при создании изображений. Теперь мы ориентируемся в сильных сторонах. Это гораздо более важная проблема.

Модели быстро развиваются, и мы в Gamma наблюдаем за изменениями в режиме реального времени. В ближайшие недели мы вернемся к этим результатам и неизбежно внесем изменения в таблицу лидеров.

Состояние искусственного интеллекта в области создания изображений: Обучение на основе более миллиарда изображений

Сравнение моделей

Оперативное соблюдение

Рендеринг текста

Фотореализм

инструкции "Не делать&quot

Диаграммы и блок-схемы

Итог

Как хорошие идеи попадают во Вселенную

Продукт

Компания

Социальная

Юридическая

Скачайте приложение