جميع المنشورات

الريادة الفكرية

يوليو 22, 2025

الوضع الراهن لإنشاء الصور بالذكاء الاصطناعي: التعلم من أكثر من مليار صورة

بعد إنشاء أكثر من مليار صورة والوصول إلى 5 ملايين صورة يوميًا في أيام الذروة، تعلم فريق الذكاء الاصطناعي في Gamma خبرة الكثير عن نماذج الذكاء الاصطناعي التي تقدم نتائج فعلية — والنماذج الأخرى التي لا تزال تعاني من القصور.

بعض النتائج الرئيسية:

جودة الصورة بشكل عام وصلت إلى معايير احترافية.
بشكل عام، نلاحظ تقدمًا كبيرًا في توافق الصور مع المطالبات، وفي واقعية الصور وجودة عرض النصوص، مما يضع معيارًا جديدًا يجعل الأجيال السابقة تبدو هواة بالمقارنة.
تحسّنت جودة عرض النصوص بشكل كبير.
النماذج التي كانت تنتج في السابق حروفًا مشوشة أصبحت الآن قادرة غالبًا على إنشاء لافتات وملصقات ومواد تحمل علامات تجارية بدقة متناهية.
أصبح إنشاء النصوص غير المرغوب فيها مشكلة مستمرة. النماذج التي تتفوق في عرض النصوص عند طلبها، أصبحت أحيانًا تضيف عناصر نصية غير مرغوب فيها حتى عند تجنب الإشارة في المطالبات إلى أي محتوى نصي بشكل صريح.

على مدار العام الماضي في Gamma، أنشأ مستخدمونا أكثر من مليار صورة عبر منصتنا، مع وصول عدد عمليات الإنشاء في الأيام الذروة إلى 5 ملايين. هذا ليس مجرد إنجاز — بل هو مجموعة بيانات ضخمة تكشف بدقة مدى كفاءة نماذج إنشاء الصور بالذكاء الاصطناعي في العالم الحقيقي.

تتميز Gamma بموقع فريد يتيح لها مقارنة النماذج، لأنها تمنح المستخدمين حرية الاختيار بين النماذج (أو نقوم بتعيين النموذج الأنسب تلقائيًا) بناءً على احتياجاتهم الخاصة في إنشاء الصور.

وإليك ما تظهره هذه البيانات: مجال إنشاء الصور بالذكاء الاصطناعي يتسارع بوتيرة مذهلة. النماذج التي كانت تجد صعوبة في عرض النصوص الأساسية قبل بضعة أشهر أصبحت الآن تنتج مواد تسويقية بمستوى احترافي. لكن مع هذا التقدم السريع تظهر تحديات متوقعة، ولا تزال بعض المشكلات القديمة قائمة رغم كل هذا التطور.

مقارنة بين النماذج

استنادًا إلى تحليل ملايين تفاعلات المستخدمين وملاحظاتهم، إليك مقارنة بين النماذج الرائدة — Imagen 4 Ultra و Flux Kontext Max و GPT Image و Recraft v3 و Ideogram 3.0 — عبر أكثر الفئات شيوعًا في ملاحظات المستخدمين.

(ملاحظة: استخدمنا أفضل الإصدارات المتوفرة من كل نموذج داخل منتج Gamma. قمنا بإنشاء 3 صور من كل نموذج لكل مطالبة واخترنا الأفضل بينها.)

الالتزام بالمطالبة

في المقارنة الأولى، قمنا بقياس كيفية تفسير النماذج لمطالبة معقدة. في هذه الحالة، طلبت ما يلي:

فريق متنوع مكوّن من أربعة شباب محترفين يعقد جلسة عصف ذهني حول لوحة مشاريع ملونة في مساحة علوية تم تحويلها إلى مكان عمل. يشير قائد الفريق الذي يرتدي قميصًا بأكمام مطوية وحذاء رياضي أصفر فاقع، إلى رسومات مبتكرة بينما يضيف زميله ملاحظات لاصقة إلى رؤيتهم المشتركة. تتسلل أشعة الشمس عبر نوافذ صناعية، مضيئة مساحة عملهم المليئة بنماذج أولية، ولوحات إلهام إبداعية، وبعض النباتات المكتبية الغريبة. أكواب القهوة والوجبات الخفيفة غير المكتملة تلمح إلى حماسهم ونشاطهم. الأجواء تجمع بين الاحترافية والطاقة الإبداعية بينما يتعاونون على فكرتهم الرائدة. صورة واقعية، إضاءة دافئة، وتعبيرات طبيعية.

A comparison of five different image models' ability to follow a complex prompt.

في هذه الحالة، كان لدينا فائز واضح.

يتقن نموذج Imagen 4 Ultra كل التفاصيل المذكورة في الطلب تقريبًا — إعداد الدور العلوي، ضوء الشمس والإضاءة الدافئة، النماذج الأولية، وأجواء "الاحترافية الممزوجة مع الطاقة الإبداعية".

بالإضافة إلى ذلك، فقد قدم أفضل مستوى في واقعية الصور مقارنة بالنماذج الأخرى التي كانت مخرجاتها ضعيفة من حيث سلامة الوجوه.

جودة عرض النصوص

اختبارنا التالي تناول تحديًا طويل الأمد لنماذج إنشاء الصور: العرض الدقيق للنصوص المعقدة.

قدمنا للنماذج المطالبة التالية:

مخطط معلوماتي أزرق ساطع مع نص أبيض بعنوان "5 خطوات لحساب الوصول إلى وضع الاستقلال المالي المبكر" مكتوب بأحرف كبيرة وعريضة في الأعلى. يُظهر التخطيط 5 خطوات مرقمة في شبكة، مع امتداد الخطوة 5 على كامل الجزء السفلي. تحتوي كل خطوة على دائرة بيضاء مع رقم أزرق (1-5) وأيقونة مرافقة. الخطوة 1: أيقونة كيس نقود، النص "اجمع حسابات التقاعد الخاصة بك: 401K، 403B، IRA، إلخ". الخطوة 2: أيقونة آلة حاسبة ومخطط، النص "استخدم آلة حساب الفائدة المركبة: ٥-٧٪ لأي عدد من السنوات حتى التقاعد". الخطوة 3: أيقونة آلة حاسبة مع رمز الدولار، النص "استخدم قاعدة 4٪ لمعرفة المبلغ السنوي الذي يمكنك العيش به: مثال: 1,500,000 × 4٪ = 60,000 دولار سنوياً". الخطوة 4: أيقونة مظلة شاطئ وكرسي، النص "احسب نفقات المعيشة السنوية المريحة الخاصة بك: اضرب في 80%-100%". الخطوة 5: أيقونة رزمة نقود، النص "إذا كان الدخل التقاعدي المتوقع يتجاوز نفقات المعيشة السنوية الحالية، فقد حققت الاستقلال المالي المبكر!".

A comparison of five image models' ability to render complex text.

هنا، نعتبر أن النتيجة متعادلة بين Imagen و GPT و Flux. (أما النموذجان الآخران فكانا متأخرين كثيرًا عن النماذج المتقدمة.) جميع النماذج الثلاثة نجحت في تفسير الصيغة المطلوبة:

العنوان يتم وضعه في الأعلى بنص كبير وعريض.
خمس خطوات مميزة، مرقمة بوضوح (من 1 إلى 5) باستخدام أرقام بيضاء داخل دوائر زرقاء.
تخطيط بنمط الشبكة، مع امتداد الخطوة 5 على كامل الجزء السفلي أو إبرازها بصريًا كخطوة نهائية.

لم تكتفِ هذه النماذج بتحليل المطالبة بدقة، بل التزمت أيضًا بـالتسلسل البصري ووضوح التنظيم المطلوبين في فئة المخططات المعلوماتية.

تم استخدام الأيقونات بطريقة متسقة تتوافق مع كل خطوة، وحقق كل مخطط معلوماتي توازنًا بصريًا بين العناصر الزخرفية والمحتوى المعلوماتي.

مع ذلك، لم يكن أي من هذه النتائج خاليًا من الأخطاء الإملائية، ولم يتمكن أي منها من تضمين النص الكامل الذي قدمناه. (كان تنسيق الرياضيات أيضًا تحديًا لكل من GPT و Flux.) لكن في جميع الحالات الثلاث، كان معظم النص واضحًا ويتماشى بشكل كبير مع الرسالة المقصودة.

واقعية الصور

بعد ذلك، طلبنا من النماذج تقييم قدرتها على تحقيق واقعية الصور، والتي تتطلب دقة بصرية عالية للغاية.

استخدمنا المطالبة التالية:

صورة فوتوغرافية واقعية للغاية لامرأة تبلغ من العمر 35 عامًا تعاني من تغاير لون القزحيتين، عينها اليسرى خضراء واليمنى عسليّة، تجلس في مقهى تغمره أشعة الشمس، تم التقاطها بعدسة 85 مم بفتحة عدسة f/1.4. تُظهر بشرتها الطبيعية نمشًا خفيفًا على جسر أنفها، ورموشها الفردية تلتقط ضوء الغروب الذهبي المتسلل عبر نافذة خلفها مغطاة بآثار المطر. التركيز الدقيق على عينيها حيث يمكن رؤية انعكاس المصور ومعدات التصوير في حدقتيها.

A comparison of five image models' ability to render photorealistic images.

مرة أخرى، برز النموذج Imagen 4 كالأفضل بوضوح، رغم وجود تركيبة غريبة قليلاً وانعكاس غير ضروري في أعلى اليمين.

من حيث الدقة البصرية — تغاير لون القزحيتين، وانعكاسات الزجاج، والنمش، وعمق المجال، وحتى تأثيرات عدسة الكاميرا — كان Imagen هو النموذج الوحيد الذي قدم جميع هذه العناصر بشكل مقنع.

على سبيل المثال، تمكن Imagen من تصوير التباين بين العينين الخضراء والعسلية بدقة، حيث كانت العين اليسرى أكثر خضرة بشكل واضح. بينما اعتمد كل من Flux و GPT و Recraft على عيون موحدة اللون بشكل افتراضي.

في مقارنات أخرى، لاحظنا تفوق Imagen في الصور الجماعية، حيث تمكن من الحفاظ على وضوح الوجوه بين مجموعة من الأشخاص.

تعليمات "لا تفعل"

قمنا أيضًا بمقارنة قدرة النماذج على اتباع تعليمات "لا تفعل"، والتي كانت تمثل تحديًا تاريخيًا.

استخدمنا المطالبة التالية:

رسم توضيحي لكتاب أطفال يصوّر سيركًا نابضًا بالحياة مع خيمة كبيرة مخططة بالأحمر والأبيض، ودوامة ملونة تدور، وكرات بهلوانية معلقة في الهواء، وحبل مشدود مخطط بألوان قوس قزح يمتد بين أعمدة طويلة، وصناديق فشار وأكشاك غزل البنات متناثرة. ألوان أساسية زاهية، وأشكال ناعمة ومستديرة، وتفاصيل خيالية مثل بالونات عائمة، ودوارات تدور، وقطار لعبة صغير يدور حول الخيمة. لا تدرج أي حيوانات أو أشخاص أو أشكال بشرية في المشهد.

A comparison of five image models' ability to follow "do not" instructions in a prompt.

في هذه الحالة، كان Recraft هو الفائز.

لقد التزم أكثر من غيره بتعليمات "لا تفعل" التي وضعناها. أولاً، تجنب تمامًا كل من الأشكال البشرية والتجسيد البشري، بينما تضمن نموذج GPT شخصًا يقوم بعرض بهلواني وأظهر Ideogram لاعبي أكروبات في الهواء.

لقد تفوق أيضًا في ملاحظة أكثر دقة — إذ إن كلاً من Imagen و Flux و GPT عرضوا خيول دوارة وهو ما يخالف بند "عدم وجود حيوانات". أما Recraft فقد تجنب مشهد الدولاب الدوار تمامًا، مفضلاً جانب الحذر مع الحفاظ على عنصر المرح.

الرسوم البيانية ومخططات التدفق

أخيرًا، اختبرنا قدرة النماذج على إنشاء رسوم بيانية ومخططات تدفق معقدة. واستخدمنا المطالبة التالية:

مخطط انسيابي واضح يوضح عملية إطلاق منتج SaaS، مع مربعات مستطيلة متصلة بأسهم، تبدأ من "دراسة السوق" مرورًا بـ "تطوير النموذج الأولي (MVP)" و "الاختبار التجريبي" و "حملة التسويق" و "إطلاق المنتج"، وتنتهي عند "تحليلات ما بعد الإطلاق". استخدم نظام ألوان يجمع بين الأزرق الفيروزي والأرجواني الفاتح مع تسميات واضحة، وأشكال ماسية لثمثيل اتخاذ القرار عند نقاط الموافقة الرئيسية، ومؤشرات زمنية أسفل كل محطة رئيسية توضح مراحل تستغرق من 3 إلى 6 أشهر.

A comparison of five image models' ability to render diagrams and flowcharts.

في هذه الحالة، GPT فاز بالميدالية الذهبية.

بينما قدّم كل نموذج تفسيرًا بصريًا فريدًا، كان GPT هو الوحيد الذي أنشأ مخطط تدفق منسجمًا وقابلاً للقراءة وينقل المعلومات بصريًا، مع الالتزام بجميع التعليمات الرئيسية الواردة في المطالبة.

تدفق GPT واضح وغير متقطع، مع استخدام متسق للأسهم يجنّب الغموض أو الالتباس (على عكس Flux، الذي يتضمن عقدًا متكررة أو حلقات دائرية).

كما أنه يوازن بين الأيقونات والنص بشكل منسق، وتدعم الرسوم التوضيحية الرسالة بشكل مناسب.

وعلى الرغم من وجود بعض الأخطاء الإملائية البسيطة، فإن النص الذي أنتجه GPT كان مقروءًا بالكامل وسليمًا من حيث المعنى.

الخلاصة

نماذج إنشاء الصور بالذكاء الاصطناعي لا تتحسن فقط، بل أصبحت تتخصص أيضًا. كل نموذج يجد قوته الخاصة، ما يعني أن اختيار النموذج المناسب يعتمد كليًا على ما تحاول تحقيقه.

في تجربتنا، يتفوق Image 4 Ultra في واقعية الصور، بينما يبرع GPT في المخططات المنظمة، وكان Recraft هو الأفضل في اتباع تفضيلات "لا تفعل". هذا التخصص هو التطور الطبيعي لتكنولوجيا تنضج باستمرار.

قبل ستة أشهر، كنا نحن (ومستخدمونا) نتعامل مع قيود إنشاء الصور بالذكاء الاصطناعي. الآن نحن نستكشف نقاط القوة. وهذا تحدٍ أفضل بكثير لنواجهه.

النماذج تتطور بوتيرة سريعة، وفي Gamma نلاحظ هذه التغييرات في الوقت الفعلي. سنعيد النظر في هذه النتائج خلال الأسابيع القادمة، مع تغييرات حتمية على ترتيب النماذج الأفضل أداءً.

الوضع الراهن لإنشاء الصور بالذكاء الاصطناعي: التعلم من أكثر من مليار صورة

مقارنة بين النماذج

الالتزام بالمطالبة

جودة عرض النصوص

واقعية الصور

تعليمات "لا تفعل"

الرسوم البيانية ومخططات التدفق

الخلاصة

كيف تنتشر الأفكار الجيدة حول العالم

منتج

شركة

وسائل التواصل الاجتماعي

قانوني

حمِّل التطبيق