
تیم هوش مصنوعی گاما پس از تولید بیش از یک میلیارد تصویر و رسیدن به ۵ میلیون تصویر در روز در روزهای اوج، چیزهای زیادی در مورد اینکه کدام مدلهای هوش مصنوعی واقعاً عملکرد خوبی دارند و در چه مواردی هنوز کمبود دارند، آموخته است.
برخی از یافتههای سطح بالا:
کیفیت کلی تصویر به استانداردهای حرفهای رسیده است.
در کل، شاهد پیشرفتهای چشمگیری در ترازبندی تصویر، واقعگرایی نوری و کیفیت رندر متن هستیم که استاندارد جدیدی را تعیین میکند که نسلهای قبلی را در مقایسه با آنها آماتور جلوه میدهد.
رندر متن به طرز چشمگیری بهبود یافته است.
مدلهایی که قبلاً حروف درهموبرهم تولید میکردند، اغلب میتوانند تابلوها، پوسترها و مطالب برنددار را با کیفیت پیکسلی عالی تولید کنند.
تولید متن ناخواسته به یک مشکل دائمی تبدیل شده است . مدلهایی که در رندر کردن متن در صورت درخواست عالی هستند، اکنون گاهی اوقات عناصر متنی ناخواسته اضافه میکنند، حتی زمانی که درخواستها صریحاً از ذکر هرگونه محتوای متنی خودداری میکنند.
طی یک سال گذشته در گاما، کاربران ما بیش از یک میلیارد تصویر از طریق پلتفرم ما تولید کردهاند که در روزهای اوج، ۵ میلیون تصویر تولید شده است. این فقط یک نقطه عطف نیست - بلکه یک مجموعه داده عظیم است که دقیقاً نشان میدهد مدلهای تصویر هوش مصنوعی در دنیای واقعی چقدر خوب عمل میکنند.
گاما به طور منحصر به فردی برای مقایسه مدلها در موقعیت مناسبی قرار دارد، زیرا ما به کاربران آزادی انتخاب بین مدلها را میدهیم (یا مدل پیشفرض مناسب را برای آنها تعیین میکنیم) بر اساس نیازهای خاص تولید تصویر آنها.
و این چیزی است که این دادهها نشان میدهد: فضای تولید تصویر هوش مصنوعی با سرعت زیادی در حال شتاب گرفتن است. مدلهایی که چند ماه پیش با رندر متن اولیه مشکل داشتند، اکنون در حال ایجاد مطالب بازاریابی در سطح حرفهای هستند. اما با پیشرفت سریع، چالشهای قابل پیشبینی نیز به وجود میآیند و برخی از مشکلات قدیمی علیرغم پیشرفتها همچنان پابرجا هستند.
بر اساس تجزیه و تحلیل میلیونها تعامل و بازخورد کاربر، در اینجا نحوهی عملکرد مدلهای پیشرو - Imagen 4 Ultra، Flux Kontext Max، GPT Image، Recraft v3 و Ideogram 3.0 - در رایجترین دستهبندیهای بازخورد کاربر ارائه شده است.
(نکته: ما از پریمیومترین نسخههای هر مدل موجود در محصول گاما استفاده کردیم. برای هر درخواست، ۳ تصویر برای هر مدل ایجاد کردیم و بهترین را انتخاب کردیم.)
برای اولین مقایسه، ما نحوه تفسیر یک دستور پیچیده توسط مدلها را بررسی کردیم. در این مورد، موارد زیر را درخواست کردم:
یک تیم متنوع متشکل از چهار متخصص جوان، دور یک تخته رنگارنگ پروژه در یک فضای شیروانیِ بازسازیشده، طوفان فکری تشکیل میدهند. رهبر تیم، با آستینهای بالازده و کفشهای کتانی زرد روشن، به طرحهای نوآورانه اشاره میکند در حالی که یکی از همکارانش یادداشتهای چسبی را به چشمانداز مشترک آنها اضافه میکند. نور خورشید از پنجرههای صنعتی عبور میکند و فضای کاری آنها را که پر از مدلهای اولیه، تختههای الهامبخش خلاقانه و چند گیاه رومیزی عجیب و غریب است، روشن میکند. فنجانهای قهوه و میان وعدههای نیمخورده، به جلسه پرانرژی آنها اشاره دارند. در حالی که آنها در مورد مفهوم نوآورانه خود همکاری میکنند، فضای جلسه، حرفهایگری را با انرژی خلاقانه متعادل میکند. نورپردازی واقعگرایانه، گرم و بیان طبیعی.

در این مورد، ما یک برندهی قطعی داشتیم.
فور تقریباً تمام جزئیات مورد نظر را به خوبی رعایت کرده است - محیط اتاق زیرشیروانی، نور خورشید و نورپردازی گرم، مدلهای نمونه اولیه و فضای «حرفهایگری با خلاقیت».
علاوه بر این، در مقایسه با سایر مدلها که یکپارچگی چهره ضعیفی را نشان میدادند، بهترین حالت واقعگرایی نوری را منتقل میکرد.
آزمایش بعدی ما یک چالش دیرینه برای مدلهای تصویر را در بر گرفت: رندر دقیق متن پیچیده.
ما مدلها را با دستور زیر تغذیه کردیم:
یک اینفوگرافیک آبی روشن با متن سفید با عنوان "5 مرحله برای محاسبه آتشسوزی ساحلی" با حروف بزرگ و پررنگ در بالا. طرحبندی، 5 مرحله شمارهگذاری شده را در یک شبکه نشان میدهد که مرحله 5 در پایین قرار دارد. هر مرحله دارای یک دایره سفید با شماره آبی (1-5) و نماد همراه است. مرحله 1: نماد کیسه پول، متن "حسابهای بازنشستگی خود را جمع کنید: 401K، 403B، IRA، و غیره". مرحله 2: نماد ماشین حساب و نمودار، متن "از یک ماشین حساب بهره مرکب استفاده کنید: 5-7٪ برای هر چند سال تا بازنشستگی". مرحله 3: ماشین حساب با نماد علامت دلار، متن "از قانون 4٪ برای دیدن اینکه سالانه چقدر میتوانید با آن زندگی کنید استفاده کنید: مثلاً 1,500,000 دلار ضربدر 4٪ = 60,000 دلار در سال". مرحله ۴: آیکون چتر و صندلی ساحلی، متن «هزینههای زندگی سالانه راحت خود را محاسبه کنید: در ۸۰ %-100% ضرب کنید». مرحله ۵: آیکون دسته پول، متن «اگر درآمد بازنشستگی پیشبینیشده شما از هزینههای زندگی سالانه فعلیتان بیشتر باشد، به ساحل آتشسوزی رسیدهاید!».

در اینجا، ما بین Imagen، GPT و Flux به طور مساوی قضاوت میکنیم. (دو مدل دیگر با فاصله زیادی از این مدلهای پیشرو عقب بودند.) هر سه مدل با موفقیت فرمت مورد نیاز را تفسیر کردند:
قرار دادن عنوان در بالا با متن و پررنگ.
مرحلهی مجزا که با استفاده از اعداد سفید در دایرههای آبی، به وضوح شمارهگذاری شدهاند (۱ تا ۵).
طرحبندی به سبک ، که مرحله ۵ در پایین قرار دارد یا به صورت بصری به عنوان مرحله پایانی در آن قرار گرفته است.
این مدلها نه تنها متن را به طور دقیق تجزیه و تحلیل کردند، بلکه به مراتب بصری و وضوح سازمانی نیاز دسته اینفوگرافیک نیز پایبند بودند.
آیکونها به شیوهای ثابت و مرتبط با هر مرحله استفاده شدند و هر اینفوگرافیک تعادل بصری بین عناصر تزئینی و محتوای آموزنده ایجاد کرد.
با این اوصاف، هیچکدام از این خروجیها عاری از غلط املایی نبودند و هیچکدام نتوانستند کل متنی را که ما ارائه دادیم، در بر بگیرند. (قالببندی ریاضی نیز برای GPT و Flux یک چالش بود.) اما در هر سه مورد، بخش عمدهی متن خوانا است و با پیام مورد نظر هماهنگی نزدیکی دارد.
در مرحله بعد، از مدلها خواستیم تا توانایی خود را در ارائه واقعگرایی نوری ارزیابی کنند، که مستلزم دقت بصری بسیار بالایی است.
ما از دستور زیر استفاده کردیم:
عکس کلوزآپ فوقالعاده واقعگرایانه از یک زن ۳۵ ساله مبتلا به هتروکرومی، چشم چپ سبز و چشم راست فندقی، نشسته در یک کافیشاپ روشن، گرفته شده با لنز ۸۵ میلیمتری با دیافراگم f/1.4. بافت طبیعی پوست، کک و مکهای ظریفی را روی پل بینی او نشان میدهد، مژههای تکتک او نور ساعت طلایی را که از پنجرهی بارانخوردهی پشت سرش میتابد، جذب میکنند. فوکوس دقیق روی چشمان او، جایی که میتوانید انعکاس عکاس و تجهیزات دوربین را در مردمکهایش ببینید.

باز هم، تصویر شماره ۴، با وجود ترکیببندی کمی عجیب و انعکاس غیرضروری در بالا سمت راست، به عنوان برجستهترین تصویر به نظر ما رسید.
از نظر وفاداری بصری - هتروکرومی، بازتابهای شیشهای، کک و مک، عمق میدان و حتی جلوههای لنز دوربین - ایمیجن تنها مدلی بود که این را به طور قانعکنندهای ارائه میداد.
به عنوان مثال، Imagen توانست تضاد بین چشمهای سبز و فندقی را به طور دقیق به تصویر بکشد، به طوری که چشم چپ به طور واضح سبزتر بود. Flux، GPT و Recraft همگی به طور پیشفرض رنگ چشمها را یکنواخت در نظر گرفته بودند.
در مقایسههای دیگر، ما شاهد برتری Imagen در تصاویر گروهی بودیم، جایی که توانست وضوح چهره را در بین گروهی از افراد حفظ کند.
ما همچنین توانایی مدلها را در پیروی از دستورالعملهای «نکن» مقایسه کردیم، که از نظر تاریخی یک چالش بوده است.
ما از دستور زیر استفاده کردیم:
تصویرسازی کتاب کودک از یک سیرک پر جنب و جوش با چادر بزرگ راه راه قرمز و سفید، چرخ و فلک چرخان رنگارنگ، توپهای تردستی که در هوا منجمد شدهاند، طناب باریک راه راه رنگین کمانی که بین تیرهای بلند کشیده شده است، و جعبههای پاپ کورن و پایههای پشمک پراکنده. رنگهای اصلی روشن، شکلهای گرد ملایم و جزئیات خیالانگیز مانند بادکنکهای شناور، فرفرههای چرخان و یک قطار اسباببازی کوچک که دور چادر میچرخد. هیچ حیوان، انسان یا پیکره انسانی را در صحنه قرار ندهید.

در این مورد، ریکرفت برنده بود.
این برنامه با نهایت وفاداری به دستورالعملهای «نکنید» ما عمل کرد. برای مثال، از نمایش اشکال انساننما و شبهانسانی اکیداً خودداری میکرد، در حالی که GPT شامل شخصی بود که در حال شعبدهبازی بود و Ideogram آکروباتبازیهایی را در هوا نشان میداد.
حتی در یک نکتهی ظریفتر هم عالی عمل کرد—Imagen، Flux و GPT همگی اسبهای چرخ و فلک را به تصویر میکشند که بند «بدون حیوان» را نقض میکنند. Recraft به طور کامل از چرخ و فلک صرف نظر میکند و در عین حال که جنبهی سرگرمی را به تصویر میکشد، جانب احتیاط را رعایت میکند.
در نهایت، توانایی مدلها را در رندر نمودارها و فلوچارتهای پیچیده آزمایش کردیم. از دستور زیر استفاده کردیم:
نمودار فلوچارت تمیزی که فرآیند عرضه محصول SaaS را با کادرهای مستطیلی متصل به فلش نشان میدهد، که از «تحقیقات بازار» شروع میشود و به «توسعه MVP»، «آزمایش بتا»، «کمپین بازاریابی»، «عرضه محصول» میرسد و در «تحلیل پس از عرضه» پایان مییابد. از طرح رنگی فیروزهای و بنفش کمرنگ با برچسبهای واضح، لوزیهای تصمیمگیری برای دروازههای تأیید کلیدی و شاخصهای جدول زمانی که مراحل ۳ تا ۶ ماهه را در زیر هر نقطه عطف اصلی نشان میدهند، استفاده کنید.

در این مورد، GPT طلا را از آن خود کرد.
در حالی که هر مدل تفسیر بصری منحصر به فردی ارائه میداد، GPT تنها مدلی بود که یک فلوچارت منسجم، خوانا و بصری ارائه داد که تمام دستورالعملهای کلیدی سوال را رعایت میکرد.
جریان GPT واضح و بدون وقفه است، با استفاده مداوم از فلش که از ابهام یا گمراهی جلوگیری میکند (برخلاف Flux که شامل گرههای تکراری یا حلقهای میشود).
همچنین آیکونها را به طور تمیزی با متن هماهنگ میکند و تصاویر به طور مناسب از پیام پشتیبانی میکنند.
و با وجود چند غلط املایی، متن GPT کاملاً خوانا و از نظر معنایی بینقص است.
مدلهای تولید تصویر هوش مصنوعی نه تنها در حال بهبود هستند، بلکه تخصصیتر هم میشوند. هر مدل در حال یافتن نقاط قوت خود است، به این معنی که انتخاب درست کاملاً به هدفی که میخواهید به آن برسید بستگی دارد.
در استفاده ما، Image 4 Ultra در واقعگرایی نوری عالی است، GPT با نمودارهای ساختاریافته میدرخشد و Recraft به بهترین شکل از ترجیحات «انجام ندهید» پیروی میکند. این تخصص، تکامل طبیعی یک فناوری در حال بلوغ است.
شش ماه پیش، ما (و کاربرانمان) در حال مدیریت محدودیتهای تولید تصویر هوش مصنوعی بودیم. اکنون در حال بررسی نقاط قوت آن هستیم. این مشکل بسیار بهتری است.
مدلها به سرعت در حال تکامل هستند و در گاما، ما تغییرات را به صورت آنی مشاهده میکنیم. در هفتههای آینده، با تغییرات اجتنابناپذیر در جدول امتیازات، این یافتهها را دوباره بررسی خواهیم کرد.
