همه پست‌ها

Thought Leadership

22 جولای 2025

وضعیت تولید تصویر هوش مصنوعی: یادگیری از بیش از یک میلیارد تصویر

تیم هوش مصنوعی گاما پس از تولید بیش از یک میلیارد تصویر و رسیدن به ۵ میلیون تصویر در روز در روزهای اوج، چیزهای زیادی در مورد اینکه کدام مدل‌های هوش مصنوعی واقعاً عملکرد خوبی دارند و در چه مواردی هنوز کمبود دارند، آموخته است.

برخی از یافته‌های سطح بالا:

کیفیت کلی تصویر به استانداردهای حرفه‌ای رسیده است.
در کل، شاهد پیشرفت‌های چشمگیری در ترازبندی تصویر، واقع‌گرایی نوری و کیفیت رندر متن هستیم که استاندارد جدیدی را تعیین می‌کند که نسل‌های قبلی را در مقایسه با آنها آماتور جلوه می‌دهد.
رندر متن به طرز چشمگیری بهبود یافته است.
مدل‌هایی که قبلاً حروف درهم‌وبرهم تولید می‌کردند، اغلب می‌توانند تابلوها، پوسترها و مطالب برنددار را با کیفیت پیکسلی عالی تولید کنند.
تولید متن ناخواسته به یک مشکل دائمی تبدیل شده است . مدل‌هایی که در رندر کردن متن در صورت درخواست عالی هستند، اکنون گاهی اوقات عناصر متنی ناخواسته اضافه می‌کنند، حتی زمانی که درخواست‌ها صریحاً از ذکر هرگونه محتوای متنی خودداری می‌کنند.

طی یک سال گذشته در گاما، کاربران ما بیش از یک میلیارد تصویر از طریق پلتفرم ما تولید کرده‌اند که در روزهای اوج، ۵ میلیون تصویر تولید شده است. این فقط یک نقطه عطف نیست - بلکه یک مجموعه داده عظیم است که دقیقاً نشان می‌دهد مدل‌های تصویر هوش مصنوعی در دنیای واقعی چقدر خوب عمل می‌کنند.

گاما به طور منحصر به فردی برای مقایسه مدل‌ها در موقعیت مناسبی قرار دارد، زیرا ما به کاربران آزادی انتخاب بین مدل‌ها را می‌دهیم (یا مدل پیش‌فرض مناسب را برای آنها تعیین می‌کنیم) بر اساس نیازهای خاص تولید تصویر آنها.

و این چیزی است که این داده‌ها نشان می‌دهد: فضای تولید تصویر هوش مصنوعی با سرعت زیادی در حال شتاب گرفتن است. مدل‌هایی که چند ماه پیش با رندر متن اولیه مشکل داشتند، اکنون در حال ایجاد مطالب بازاریابی در سطح حرفه‌ای هستند. اما با پیشرفت سریع، چالش‌های قابل پیش‌بینی نیز به وجود می‌آیند و برخی از مشکلات قدیمی علیرغم پیشرفت‌ها همچنان پابرجا هستند.

مقایسه مدل به مدل

بر اساس تجزیه و تحلیل میلیون‌ها تعامل و بازخورد کاربر، در اینجا نحوه‌ی عملکرد مدل‌های پیشرو - Imagen 4 Ultra، Flux Kontext Max، GPT Image، Recraft v3 و Ideogram 3.0 - در رایج‌ترین دسته‌بندی‌های بازخورد کاربر ارائه شده است.

(نکته: ما از پریمیوم‌ترین نسخه‌های هر مدل موجود در محصول گاما استفاده کردیم. برای هر درخواست، ۳ تصویر برای هر مدل ایجاد کردیم و بهترین را انتخاب کردیم.)

پایبندی سریع

برای اولین مقایسه، ما نحوه تفسیر یک دستور پیچیده توسط مدل‌ها را بررسی کردیم. در این مورد، موارد زیر را درخواست کردم:

یک تیم متنوع متشکل از چهار متخصص جوان، دور یک تخته رنگارنگ پروژه در یک فضای شیروانیِ بازسازی‌شده، طوفان فکری تشکیل می‌دهند. رهبر تیم، با آستین‌های بالازده و کفش‌های کتانی زرد روشن، به طرح‌های نوآورانه اشاره می‌کند در حالی که یکی از همکارانش یادداشت‌های چسبی را به چشم‌انداز مشترک آنها اضافه می‌کند. نور خورشید از پنجره‌های صنعتی عبور می‌کند و فضای کاری آنها را که پر از مدل‌های اولیه، تخته‌های الهام‌بخش خلاقانه و چند گیاه رومیزی عجیب و غریب است، روشن می‌کند. فنجان‌های قهوه و میان وعده‌های نیم‌خورده، به جلسه پرانرژی آنها اشاره دارند. در حالی که آنها در مورد مفهوم نوآورانه خود همکاری می‌کنند، فضای جلسه، حرفه‌ای‌گری را با انرژی خلاقانه متعادل می‌کند. نورپردازی واقع‌گرایانه، گرم و بیان طبیعی.

A comparison of five different image models' ability to follow a complex prompt.

در این مورد، ما یک برنده‌ی قطعی داشتیم.

فور تقریباً تمام جزئیات مورد نظر را به خوبی رعایت کرده است - محیط اتاق زیرشیروانی، نور خورشید و نورپردازی گرم، مدل‌های نمونه اولیه و فضای «حرفه‌ای‌گری با خلاقیت».

علاوه بر این، در مقایسه با سایر مدل‌ها که یکپارچگی چهره ضعیفی را نشان می‌دادند، بهترین حالت واقع‌گرایی نوری را منتقل می‌کرد.

رندر متن

آزمایش بعدی ما یک چالش دیرینه برای مدل‌های تصویر را در بر گرفت: رندر دقیق متن پیچیده.

ما مدل‌ها را با دستور زیر تغذیه کردیم:

یک اینفوگرافیک آبی روشن با متن سفید با عنوان "5 مرحله برای محاسبه آتش‌سوزی ساحلی" با حروف بزرگ و پررنگ در بالا. طرح‌بندی، 5 مرحله شماره‌گذاری شده را در یک شبکه نشان می‌دهد که مرحله 5 در پایین قرار دارد. هر مرحله دارای یک دایره سفید با شماره آبی (1-5) و نماد همراه است. مرحله 1: نماد کیسه پول، متن "حساب‌های بازنشستگی خود را جمع کنید: 401K، 403B، IRA، و غیره". مرحله 2: نماد ماشین حساب و نمودار، متن "از یک ماشین حساب بهره مرکب استفاده کنید: 5-7٪ برای هر چند سال تا بازنشستگی". مرحله 3: ماشین حساب با نماد علامت دلار، متن "از قانون 4٪ برای دیدن اینکه سالانه چقدر می‌توانید با آن زندگی کنید استفاده کنید: مثلاً 1,500,000 دلار ضربدر 4٪ = 60,000 دلار در سال". مرحله ۴: آیکون چتر و صندلی ساحلی، متن «هزینه‌های زندگی سالانه راحت خود را محاسبه کنید: در ۸۰ %-100% ضرب کنید». مرحله ۵: آیکون دسته پول، متن «اگر درآمد بازنشستگی پیش‌بینی‌شده شما از هزینه‌های زندگی سالانه فعلی‌تان بیشتر باشد، به ساحل آتش‌سوزی رسیده‌اید!».

A comparison of five image models' ability to render complex text.

در اینجا، ما بین Imagen، GPT و Flux به طور مساوی قضاوت می‌کنیم. (دو مدل دیگر با فاصله زیادی از این مدل‌های پیشرو عقب بودند.) هر سه مدل با موفقیت فرمت مورد نیاز را تفسیر کردند:

قرار دادن عنوان در بالا با متن و پررنگ.
مرحله‌ی مجزا که با استفاده از اعداد سفید در دایره‌های آبی، به وضوح شماره‌گذاری شده‌اند (۱ تا ۵).
طرح‌بندی به سبک ، که مرحله ۵ در پایین قرار دارد یا به صورت بصری به عنوان مرحله پایانی در آن قرار گرفته است.

این مدل‌ها نه تنها متن را به طور دقیق تجزیه و تحلیل کردند، بلکه به مراتب بصری و وضوح سازمانی نیاز دسته اینفوگرافیک نیز پایبند بودند.

آیکون‌ها به شیوه‌ای ثابت و مرتبط با هر مرحله استفاده شدند و هر اینفوگرافیک تعادل بصری بین عناصر تزئینی و محتوای آموزنده ایجاد کرد.

با این اوصاف، هیچ‌کدام از این خروجی‌ها عاری از غلط املایی نبودند و هیچ‌کدام نتوانستند کل متنی را که ما ارائه دادیم، در بر بگیرند. (قالب‌بندی ریاضی نیز برای GPT و Flux یک چالش بود.) اما در هر سه مورد، بخش عمده‌ی متن خوانا است و با پیام مورد نظر هماهنگی نزدیکی دارد.

فتورئالیسم

در مرحله بعد، از مدل‌ها خواستیم تا توانایی خود را در ارائه واقع‌گرایی نوری ارزیابی کنند، که مستلزم دقت بصری بسیار بالایی است.

ما از دستور زیر استفاده کردیم:

عکس کلوزآپ فوق‌العاده واقع‌گرایانه از یک زن ۳۵ ساله مبتلا به هتروکرومی، چشم چپ سبز و چشم راست فندقی، نشسته در یک کافی‌شاپ روشن، گرفته شده با لنز ۸۵ میلی‌متری با دیافراگم f/1.4. بافت طبیعی پوست، کک و مک‌های ظریفی را روی پل بینی او نشان می‌دهد، مژه‌های تک‌تک او نور ساعت طلایی را که از پنجره‌ی باران‌خورده‌ی پشت سرش می‌تابد، جذب می‌کنند. فوکوس دقیق روی چشمان او، جایی که می‌توانید انعکاس عکاس و تجهیزات دوربین را در مردمک‌هایش ببینید.

A comparison of five image models' ability to render photorealistic images.

باز هم، تصویر شماره ۴، با وجود ترکیب‌بندی کمی عجیب و انعکاس غیرضروری در بالا سمت راست، به عنوان برجسته‌ترین تصویر به نظر ما رسید.

از نظر وفاداری بصری - هتروکرومی، بازتاب‌های شیشه‌ای، کک و مک، عمق میدان و حتی جلوه‌های لنز دوربین - ایمیجن تنها مدلی بود که این را به طور قانع‌کننده‌ای ارائه می‌داد.

به عنوان مثال، Imagen توانست تضاد بین چشم‌های سبز و فندقی را به طور دقیق به تصویر بکشد، به طوری که چشم چپ به طور واضح سبزتر بود. Flux، GPT و Recraft همگی به طور پیش‌فرض رنگ چشم‌ها را یکنواخت در نظر گرفته بودند.

در مقایسه‌های دیگر، ما شاهد برتری Imagen در تصاویر گروهی بودیم، جایی که توانست وضوح چهره را در بین گروهی از افراد حفظ کند.

دستورالعمل‌های «نکن»

ما همچنین توانایی مدل‌ها را در پیروی از دستورالعمل‌های «نکن» مقایسه کردیم، که از نظر تاریخی یک چالش بوده است.

ما از دستور زیر استفاده کردیم:

تصویرسازی کتاب کودک از یک سیرک پر جنب و جوش با چادر بزرگ راه راه قرمز و سفید، چرخ و فلک چرخان رنگارنگ، توپ‌های تردستی که در هوا منجمد شده‌اند، طناب باریک راه راه رنگین کمانی که بین تیرهای بلند کشیده شده است، و جعبه‌های پاپ کورن و پایه‌های پشمک پراکنده. رنگ‌های اصلی روشن، شکل‌های گرد ملایم و جزئیات خیال‌انگیز مانند بادکنک‌های شناور، فرفره‌های چرخان و یک قطار اسباب‌بازی کوچک که دور چادر می‌چرخد. هیچ حیوان، انسان یا پیکره انسانی را در صحنه قرار ندهید.

A comparison of five image models' ability to follow "do not" instructions in a prompt.

در این مورد، ریکرفت برنده بود.

این برنامه با نهایت وفاداری به دستورالعمل‌های «نکنید» ما عمل کرد. برای مثال، از نمایش اشکال انسان‌نما و شبه‌انسانی اکیداً خودداری می‌کرد، در حالی که GPT شامل شخصی بود که در حال شعبده‌بازی بود و Ideogram آکروبات‌بازی‌هایی را در هوا نشان می‌داد.

حتی در یک نکته‌ی ظریف‌تر هم عالی عمل کرد—Imagen، Flux و GPT همگی اسب‌های چرخ و فلک را به تصویر می‌کشند که بند «بدون حیوان» را نقض می‌کنند. Recraft به طور کامل از چرخ و فلک صرف نظر می‌کند و در عین حال که جنبه‌ی سرگرمی را به تصویر می‌کشد، جانب احتیاط را رعایت می‌کند.

نمودارها و فلوچارت‌ها

در نهایت، توانایی مدل‌ها را در رندر نمودارها و فلوچارت‌های پیچیده آزمایش کردیم. از دستور زیر استفاده کردیم:

نمودار فلوچارت تمیزی که فرآیند عرضه محصول SaaS را با کادرهای مستطیلی متصل به فلش نشان می‌دهد، که از «تحقیقات بازار» شروع می‌شود و به «توسعه MVP»، «آزمایش بتا»، «کمپین بازاریابی»، «عرضه محصول» می‌رسد و در «تحلیل پس از عرضه» پایان می‌یابد. از طرح رنگی فیروزه‌ای و بنفش کمرنگ با برچسب‌های واضح، لوزی‌های تصمیم‌گیری برای دروازه‌های تأیید کلیدی و شاخص‌های جدول زمانی که مراحل ۳ تا ۶ ماهه را در زیر هر نقطه عطف اصلی نشان می‌دهند، استفاده کنید.

A comparison of five image models' ability to render diagrams and flowcharts.

در این مورد، GPT طلا را از آن خود کرد.

در حالی که هر مدل تفسیر بصری منحصر به فردی ارائه می‌داد، GPT تنها مدلی بود که یک فلوچارت منسجم، خوانا و بصری ارائه داد که تمام دستورالعمل‌های کلیدی سوال را رعایت می‌کرد.

جریان GPT واضح و بدون وقفه است، با استفاده مداوم از فلش که از ابهام یا گمراهی جلوگیری می‌کند (برخلاف Flux که شامل گره‌های تکراری یا حلقه‌ای می‌شود).

همچنین آیکون‌ها را به طور تمیزی با متن هماهنگ می‌کند و تصاویر به طور مناسب از پیام پشتیبانی می‌کنند.

و با وجود چند غلط املایی، متن GPT کاملاً خوانا و از نظر معنایی بی‌نقص است.

نکته‌ی آخر

مدل‌های تولید تصویر هوش مصنوعی نه تنها در حال بهبود هستند، بلکه تخصصی‌تر هم می‌شوند. هر مدل در حال یافتن نقاط قوت خود است، به این معنی که انتخاب درست کاملاً به هدفی که می‌خواهید به آن برسید بستگی دارد.

در استفاده ما، Image 4 Ultra در واقع‌گرایی نوری عالی است، GPT با نمودارهای ساختاریافته می‌درخشد و Recraft به بهترین شکل از ترجیحات «انجام ندهید» پیروی می‌کند. این تخصص، تکامل طبیعی یک فناوری در حال بلوغ است.

شش ماه پیش، ما (و کاربرانمان) در حال مدیریت محدودیت‌های تولید تصویر هوش مصنوعی بودیم. اکنون در حال بررسی نقاط قوت آن هستیم. این مشکل بسیار بهتری است.

مدل‌ها به سرعت در حال تکامل هستند و در گاما، ما تغییرات را به صورت آنی مشاهده می‌کنیم. در هفته‌های آینده، با تغییرات اجتناب‌ناپذیر در جدول امتیازات، این یافته‌ها را دوباره بررسی خواهیم کرد.

وضعیت تولید تصویر هوش مصنوعی: یادگیری از بیش از یک میلیارد تصویر

مقایسه مدل به مدل

پایبندی سریع

رندر متن

فتورئالیسم

دستورالعمل‌های «نکن»

نمودارها و فلوچارت‌ها

نکته‌ی آخر

چگونه ایده‌های خوب وارد کیهان می‌شوند

محصول

شرکت

اجتماعی

قانونی

برنامه را دریافت کنید