Barcha postlar

Thought Leadership

July 22nd, 2025

AI tasvirini yaratish holati: milliarddan ortiq tasvirlardan o'rganish

Bir milliarddan ortiq tasvir yaratgandan so'ng va eng yuqori kunlarda kuniga 5 millionni tashkil etgandan so'ng, Gamma AI jamoasi qaysi sun'iy intellekt modellari haqiqatda taqdim etishi va ular hali ham etishmayotganligi haqida ko'p narsalarni bilib oldi.

Yuqori darajadagi ba'zi topilmalar:

Umumiy tasvir sifati professional standartlarga yetdi.
Taqqoslash orqali biz oldingi avlodlarni havaskor ko‘rinishga olib keladigan yangi standartni o‘rnatgan holda tasvirni tez tekislash, fotorealizm va matnni ko‘rsatish sifati bo‘yicha sezilarli yutuqlarni ko‘rmoqdamiz.
Matnni ko'rsatish juda yaxshilandi.
Buzilgan harflarni ishlab chiqarish uchun ishlatiladigan modellar ko'pincha pikselli belgilar, plakatlar va markali materiallarni yaratishi mumkin.
Keraksiz matn yaratish doimiy muammoga aylandi . Endi so‘ralganda matnni ko‘rsatishda ustun bo‘lgan modellar ba’zan hatto so‘rovlar matn mazmunini eslatishdan qochsa ham, keraksiz matn elementlarini qo‘shib qo‘yadi.

Gamma-da so'nggi bir yil davomida foydalanuvchilarimiz platformamiz orqali bir milliarddan ortiq tasvirlarni yaratdilar, eng yuqori kunlar 5 million avlodni tashkil etdi. Bu shunchaki muhim bosqich emas - bu sun'iy intellekt tasvir modellari haqiqiy dunyoda qanchalik yaxshi ishlashini ochib beradigan katta ma'lumotlar to'plami.

Gamma modellarni solishtirish uchun o'ziga xos tarzda joylashtirilgan, chunki biz foydalanuvchilarga modellar o'rtasida tanlash erkinligini beramiz (yoki biz ular uchun to'g'ri standartni o'rnatamiz), ularning tasvir yaratish ehtiyojlaridan kelib chiqqan holda.

Bu maʼlumotlar shuni koʻrsatadiki, sunʼiy intellekt tasvirini yaratish maydoni tez surʼatlar bilan tezlashmoqda. Bir necha oy oldin matnni asosiy renderlashda qiynalgan modellar endi professional darajadagi marketing materiallarini yaratmoqda. Ammo tez taraqqiyot bilan oldindan aytish mumkin bo'lgan qiyinchiliklar paydo bo'ladi va ba'zi eski muammolar yutuqlarga qaramay saqlanib qolmoqda.

Model bo'yicha taqqoslash

Millionlab foydalanuvchilarning o‘zaro aloqalari va fikr-mulohazalarini tahlil qilish asosida, bu yerda yetakchi modellar – Imagen 4 Ultra, Flux Kontext Max, GPT Image, Recraft v3 va Ideogram 3.0 – foydalanuvchilarning fikr-mulohazalarining eng keng tarqalgan toifalari bo‘ylab qanday jamlanadi.

(Eslatma: Biz Gamma mahsulotida mavjud boʻlgan har bir modelning eng yuqori darajadagi versiyalaridan foydalandik. Har bir taklif uchun har bir model uchun 3 ta rasm yaratdik va eng yaxshisini tanladik.)

Tez rioya qilish

Birinchi taqqoslash uchun biz modellar murakkab taklifni qanday izohlashini o'lchadik. Bunday holda men quyidagilarni so'radim:

To'rt nafar yosh mutaxassislardan iborat turli jamoa o'zgartirilgan loft maydonida rangli loyiha taxtasi atrofida aqliy hujum qiladi. Yenglari va yorqin sariq rangli krossovkalar kiygan jamoa rahbari innovatsion eskizlarga ishora qiladi, hamkasbi esa ularning umumiy qarashlariga yopishqoq eslatmalar qo'shadi. Quyosh nurlari sanoat derazalari orqali oqib, ularning ish joylarini prototip modellari, ijodiy ilhomlantiruvchi taxtalar va bir nechta g'alati stol o'simliklari bilan to'ldiradi. Kofe stakanlari va yarim iste'mol qilingan gazaklar ularning baquvvat sessiyasiga ishora qiladi. Atmosfera professionallikni ijodiy energiya bilan muvozanatlashtiradi, chunki ular o'zlarining yutuq kontseptsiyasi ustida hamkorlik qilishadi. Fotorealistik, iliq yorug'lik, tabiiy ifodalar.

A comparison of five different image models' ability to follow a complex prompt.

Bu holatda biz aniq g'olib bo'ldik.

Imagen 4 Ultra deyarli har bir tafsilot - loft sozlamalari, quyosh nuri va iliq yorug'lik, prototip modellari va "ijodiy agentlik bilan professionallik" muhitini o'z ichiga oladi.

Bundan tashqari, u boshqa modellarga nisbatan eng yaxshi fotorealizmni etkazdi, bu esa yuzning yaxlitligini yomon ko'rsatdi.

Matnni ko'rsatish

Bizning navbatdagi sinovimiz tasvir modellari uchun uzoq vaqtdan beri qiyin bo'lgan vazifani oldi: murakkab matnni to'g'ri ko'rsatish.

Biz modellarni quyidagi so'rov bilan ta'minladik:

Yorqin ko'k rangli infografika yuqori qismida katta qalin harflar bilan yozilgan "Sohildagi yong'inni hisoblash uchun 5 qadam" deb nomlangan oq matnli. Chizma to‘rda 5 raqamlangan qadamni ko‘rsatadi, 5-bosqich esa pastki qismini qamrab oladi. Har bir qadamda ko'k raqam (1-5) va unga hamroh bo'lgan belgi bo'lgan oq doira mavjud. 1-qadam: pul sumkasi belgisi, "PENSIYA HISOBLARINGIZNI QO'SHISH: 401K, 403B, IRA, va hokazo" matni. 2-qadam: kalkulyator va diagramma belgisi, matn "QO'RMA FOIZLAR KALKULYATÖRIDAN FOYDALANING: 5-7% UCHUN QANCHA KO'P YIL UCHUN pensiya". 3-qadam: Dollar belgisi belgisi bo'lgan kalkulyator, "YIL YILGA QANCHA YASHASIZ MUMKINligini KO'RISH UCHUN 4% QOIDADAN FOYDALANING: MAS. 1.500.000 X 4% = YILiga $60.000" matni. 4-qadam: plyajdagi soyabon va stul belgisi, matn "YILLIK QO'YILGAN yashovchi XARAJATLARINGIZNI HISOB QILING: 80 %-100% GA KO'PLASH". 5-qadam: pul piktogrammasi to'plami, matn "AGAR SIZNING rejalashtirilgan pensiya daromadingiz joriy yillik yashash xarajatlaringizdan oshib ketsa, siz qirg'oq yong'iniga erishdingiz!".

A comparison of five image models' ability to render complex text.

Bu erda biz Imagen, GPT va Flux o'rtasidagi bog'liqlikni baholaymiz. (Qolgan ikkita model bu oldingi o'yinchilardan ancha orqada edi.) Barcha uchta model kerakli formatni muvaffaqiyatli izohladi:

Sarlavhani katta, qalin matnda tepada joylashtirish.
Beshta alohida qadam , aniq raqamlangan (1 dan 5 gacha) koʻk doira ichida oq raqamlardan foydalaniladi.
Grid uslubidagi tartib , 5-qadam pastki qismni qamrab oladi yoki yakuniy bosqich sifatida vizual tarzda biriktiriladi.

Bu modellar nafaqat taklifni toʻgʻri tahlil qildi, balki infografik kategoriya talab qiladigan vizual ierarxiya va tashkiliy aniqlik ga ham amal qildi.

Belgilar har bir bosqichga mos keladigan izchil tarzda ishlatilgan va har bir infografika dekorativ elementlar va ma'lumot beruvchi kontent o'rtasidagi vizual muvozanatni saqlagan.

Ya'ni, bu chiqishlarning hech biri xatosiz emas edi va hech biri biz taqdim etgan matnni to'liq qamrab ololmadi. (Matematik formatlash GPT va Flux uchun ham qiyin bo'lgan.) Ammo uchta holatda ham matnning aksariyati o'qilishi mumkin va mo'ljallangan xabar bilan yaqindan mos keladi.

Fotorealizm

Keyinchalik, biz modellarni juda nozik vizual aniqlikni talab qiladigan fotorealizmni taqdim etish qobiliyatini baholashga undadik.

Biz quyidagi taklifdan foydalandik:

F/1,4 diafragmada 85 mm ob'ektiv bilan suratga olingan, quyosh nuri yoritilgan qahvaxonada o'tirgan, geteroxromiyali 35 yoshli, chap ko'zi yashil, o'ng ko'zi qora rangda bo'lgan ayolning o'ta real surati. Tabiiy teri teksturasida uning burun ko'prigi bo'ylab nozik sepkillar ko'rinadi, uning orqasidagi yomg'irli derazadan oltin soat nuri oqib kelayotgan individual kirpiklar. Uning ko'zlariga aniq e'tibor qarating, bu erda siz uning shogirdlarida fotograf va kamera jihozlarining aksini ko'rishingiz mumkin.

A comparison of five image models' ability to render photorealistic images.

Yana, Imagen 4, o'ng tomonda bir oz g'alati kompozitsiya va keraksiz aks ettirishga qaramay, bizni aniq ajralib turdi.

Vizual aniqlik nuqtai nazaridan - geterokromiya, shisha aks ettirish, sepkillar, maydon chuqurligi va hatto kamera linzalari effektlari - Imagen ushbu elementlarning barcha ishonchli tarzda taqdim etgan yagona model edi.

Misol tariqasida, Imagen yashil va jigarrang ko'zlar o'rtasidagi kontrastni aniq tasvirlay oldi, chap ko'z esa aniq yashilroq. Flux, GPT va Recraft bir xil rangdagi ko'zlar uchun odatiy holga keltirildi.

Boshqa taqqoslashlarda, biz Imagenning guruh tasvirlarida ustunligini ko'rdik, bu erda u bir guruh odamlarda yuz ravshanligini saqlab turishga qodir edi.

"Qilmang" ko'rsatmalari

Shuningdek, biz modellarning tarixan qiyin bo‘lgan “Qilmang” ko‘rsatmalariga amal qilish qobiliyatini solishtirdik.

Biz quyidagi taklifdan foydalandik:

Qizil va oq chiziqli katta chodir, rang-barang aylanayotgan karusel, havoda muzlatilgan jonglyor to'plari, baland ustunlar orasiga cho'zilgan kamalak chiziqli arqon, sochilgan popkorn qutilari va paxta konfet stendlari bilan jonli sirkning bolalar kitobi tasviri. Yorqin birlamchi ranglar, yumshoq yumaloq shakllar va suzuvchi sharlar, aylanayotgan g'ildiraklar va chodir atrofida aylanib yurgan mayda o'yinchoq poyezdi kabi injiq detallar. Voqea joyiga hayvonlar, odamlar yoki inson figuralarini qo'shmang.

A comparison of five image models' ability to follow "do not" instructions in a prompt.

Bu holatda, Recraft g'olib bo'ldi.

U bizning "qilmang" ko'rsatmalarimizga sodiqlik bilan amal qildi. Misol uchun, u antropomorf va inson figuralaridan qat'iyan qochgan, GPT esa jonglyorlik qilayotgan odamni o'z ichiga olgan va Ideogram akrobatlarni havoda ko'rsatgan.

U hatto nozikroq ushlashda ham ustunlik qildi - Imagen, Flux va GPT hammasi "hayvonsiz" bandini buzadigan quvnoq otlarni tasvirlaydi. Recraft karuselni butunlay o‘tkazib yuboradi va qiziqarli suratga olishda ehtiyotkorona xato qiladi.

Diagrammalar va sxemalar

Nihoyat, biz modellarning murakkab diagrammalar va oqim sxemalarini ko'rsatish qobiliyatini sinab ko'rdik. Biz quyidagi taklifdan foydalandik:

"Bozor tadqiqoti" dan "MVP ishlab chiqish", "Beta sinovi", "Marketing kampaniyasi", "Mahsulotni ishga tushirish" va "Ishga tushirishdan keyingi tahlillar"gacha bo'lgan strelkalar bilan bog'langan to'rtburchaklar qutilar bilan SaaS mahsulotini ishga tushirish jarayonini ko'rsatadigan toza oqim diagrammasi. Aniq yorliqlar, asosiy tasdiqlash eshiklari uchun qaror olmoslari va har bir muhim bosqich ostida 3-6 oylik bosqichlarni ko'rsatadigan vaqt jadvali ko'rsatkichlari bilan ko'k va lavanta ranglar sxemasidan foydalaning.

A comparison of five image models' ability to render diagrams and flowcharts.

Bu holatda, GPT oltinni oldi.

Har bir model o'ziga xos vizual talqinni keltirgan bo'lsa-da, GPT ko'rsatmalardagi barcha asosiy ko'rsatmalarga rioya qiladigan yagona, o'qiladigan va vizual kommunikativ oqim sxemasini taqdim etgan yagona model edi.

GPT oqimi aniq va uzluksiz bo'lib, o'qdan doimiy foydalanish bilan noaniqlik yoki noto'g'ri yo'nalishni oldini oladi (takroriy yoki aylanma tugunlarni o'z ichiga olgan Fluxdan farqli o'laroq).

Shuningdek, u piktogramma bilan matnni toza muvozanatlashtiradi va rasmlar xabarni mos ravishda qo'llab-quvvatlaydi.

Va bir nechta matn terish xatolariga qaramay, GPT matni to'liq o'qilishi mumkin va semantik jihatdan yaxshi.

Pastki qator

AI tasvir yaratish modellari nafaqat takomillashib, balki ixtisoslashgan. Har bir model o'z kuchini topmoqda, ya'ni to'g'ri tanlov butunlay nimaga erishmoqchi ekanligingizga bog'liq.

Bizning foydalanishimizda Image 4 Ultra fotorealizmda ustunlik qiladi, GPT tuzilgan diagrammalar bilan porlaydi va Recraft eng yaxshi "qilmang" afzalliklariga amal qiladi. Bu ixtisoslik etuk texnologiyaning tabiiy evolyutsiyasidir.

Olti oy oldin biz (va bizning foydalanuvchilarimiz) AI tasvirini yaratish cheklovlarini boshqardik. Endi biz kuchli tomonlarni ko'rib chiqamiz. Bu juda yaxshi muammo.

Modellar tez rivojlanmoqda va Gamma-da biz real vaqtda o'zgarishlarni ko'ramiz. Kelgusi haftalarda peshqadamlar roʻyxatida muqarrar oʻzgarishlar bilan bu topilmalarni qayta koʻrib chiqamiz.

AI tasvirini yaratish holati: milliarddan ortiq tasvirlardan o'rganish

Model bo'yicha taqqoslash

Tez rioya qilish

Matnni ko'rsatish

Fotorealizm

"Qilmang" ko'rsatmalari

Diagrammalar va sxemalar

Pastki qator

Qanday yaxshi g'oyalar koinotga kiradi

Mahsulot

Kompaniya

Ijtimoiy

Huquqiy

Ilovani yuklab oling