
לאחר שיצרו למעלה ממיליארד תמונות והגיעו ל-5 מיליון תמונות ביום בימי שיא, צוות הבינה המלאכותית של גמא למד הרבה על אילו מודלים של בינה מלאכותית באמת מספקים את התוצאות - והיכן הם עדיין לוקים בחסר.
כמה ממצאים ברמה העליונה:
איכות התמונה הכוללת הגיעה לסטנדרטים מקצועיים.
באופן כללי, אנו רואים התקדמות משמעותית ביישור תמונה, פוטוריאליזם ואיכות עיבוד טקסט, וקובעים סטנדרט חדש שגורם לדורות קודמים להיראות חובבניים בהשוואה.
עיבוד הטקסט השתפר באופן משמעותי.
מודלים שהיו רגילים לייצר אותיות משובשות יכולים לעתים קרובות ליצור שילוט, פוסטרים וחומרים ממותגים מושלמים לפיקסלים.
יצירת טקסט לא רצוי הפכה לבעיה מתמשכת . מודלים שמצטיינים בעיבוד טקסט כאשר מתבקשים, מוסיפים כיום לעיתים רכיבי טקסט לא רצויים גם כאשר הנחיות במפורש נמנעות מאזכור תוכן טקסט כלשהו.
במהלך השנה האחרונה ב-Gamma, המשתמשים שלנו יצרו יותר ממיליארד תמונות דרך הפלטפורמה שלנו, כאשר ימי השיא הגיעו ל-5 מיליון דורות. זה לא רק אבן דרך - זהו מערך נתונים עצום שחושף בדיוק עד כמה מודלים של תמונות מבוססות בינה מלאכותית מתפקדים בעולם האמיתי.
גמא ממוצבת באופן ייחודי להשוואת מודלים, משום שאנו נותנים למשתמשים את החופש לבחור בין מודלים (או שאנו מגדירים את ברירת המחדל המתאימה להם) בהתבסס על צרכי יצירת התמונות הספציפיים שלהם.
והנה מה שהנתונים מראים: תחום יצירת התמונות באמצעות בינה מלאכותית מואץ בקצב מהיר. מודלים שהתקשו עם עיבוד טקסט בסיסי רק לפני חודשים יוצרים כעת חומרי שיווק ברמה מקצועית. אבל עם ההתקדמות המהירה מגיעים אתגרים צפויים, וכמה בעיות ישנות נמשכות למרות ההתקדמות.
בהתבסס על ניתוח מיליוני אינטראקציות ומשובים של משתמשים, כך מוצגים הדגמים המובילים - Imagen 4 Ultra, Flux Kontext Max, GPT Image, Recraft v3 ו-Ideogram 3.0 - בקטגוריות הנפוצות ביותר של משוב משתמשים.
(הערה: השתמשנו בגרסאות הפרימיום ביותר של כל דגם הזמינות במוצר Gamma. יצרנו 3 תמונות לכל דגם עבור כל הנחיה ובחרנו את הטובה ביותר.)
עבור ההשוואה הראשונה, מדדנו כיצד המודלים מפרשים הנחיה מורכבת. במקרה זה, ביקשתי את הדברים הבאים:
צוות מגוון של ארבעה אנשי מקצוע צעירים מנהלים סיעור מוחות סביב לוח פרויקטים צבעוני בחלל לופט שהוסב. ראש הצוות, לבוש שרוולים מקופלים ונעלי ספורט צהובות בהירות, מצביע על סקיצות חדשניות בעוד עמית מוסיף פתקים דביקים לחזון המשותף שלהם. אור שמש זורם דרך חלונות תעשייתיים, מאיר את סביבת העבודה שלהם המלאה במודלים של אבות טיפוס, לוחות השראה יצירתיים וכמה צמחי שולחן ייחודיים. כוסות קפה וחטיפים חצי נאכלים מרמזים על הפגישה האנרגטית שלהם. האווירה מאזנת מקצועיות עם אנרגיה יצירתית כשהם משתפים פעולה על הקונספט פורץ הדרך שלהם. תאורה פוטוריאליסטית וחמה, הבעות טבעיות.

במקרה הזה, היה לנו מנצח ברור.
Imagen 4 Ultra מצליחה לשקף כמעט כל פרט ופרט בהנחיה - סביבת הלופט, אור השמש והתאורה החמה, דגמי האבטיפוס ואווירת ה"מקצועיות עם סוכנות יצירתית".
בנוסף, הוא הציג את הפוטוריאליזם הטוב ביותר בהשוואה לדגמים אחרים, אשר הציגו שלמות פנים ירודה.
המבחן הבא שלנו התמודד עם אתגר ארוך שנים עבור מודלים של תמונות: עיבוד מדויק של טקסט מורכב.
הזנו למודלים את ההנחיה הבאה:
אינפוגרפיקה כחולה בהירה עם טקסט לבן שכותרתה "5 שלבים לחישוב שריפות חוף" באותיות גדולות ומודגשות בחלק העליון. הפריסה מציגה 5 שלבים ממוספרים ברשת כאשר שלב 5 משתרע על פני התחתית. לכל שלב יש עיגול לבן עם מספר כחול (1-5) וסמל נלווה. שלב 1: סמל שק כסף, טקסט "סכום חשבונות הפרישה שלך: 401K, 403B, IRA, וכו'". שלב 2: סמל מחשבון ותרשים, טקסט "השתמש במחשבון ריבית דריבית: 5-7% למספר השנים עד לפרישה". שלב 3: סמל מחשבון עם סימן דולר, טקסט "השתמש בכלל 4% כדי לראות כמה אתה יכול לחיות מדי שנה: לדוגמה: $1,500,000 X 4% = $60,000 לשנה". שלב 4: סמל של שמשיה וכיסא חוף, הטקסט "חשב את הוצאות המחיה השנתיות הנוחות שלך: הכפל ב-80 %-100% ". שלב 5: סמל של ערימת כסף, הטקסט "אם הכנסת הפרישה הצפויה שלך עולה על הוצאות המחיה השנתיות הנוכחיות שלך, השגת את COAST FIRE!".

כאן, אנו שופטים תיקו בין Imagen, GPT ו-Flux. (שני המודלים האחרים היו הרחק מאחורי המובילים הללו.) שלושת המודלים פירשו בהצלחה את הפורמט הנדרש:
מיקום כותרת בחלק העליון בטקסט גדול ומודגש.
חמישה שלבים , ממוספרים בבירור (1 5) באמצעות מספרים לבנים בעיגולים כחולים.
פריסה בסגנון רשת , כאשר שלב 5 משתרע על פני החלק התחתון או מעוגן ויזואלית כשלב מסכם.
מודלים אלה לא רק ניתחו את ההנחיה במדויק, אלא גם עמדו ב היררכיה החזותית ובבהירות הארגונית הנדרשות על ידי קטגוריית האינפוגרפיקה.
אייקונים שימשו באופן עקבי שתאם לכל שלב, וכל אינפוגרפיקה יצרה איזון חזותי בין אלמנטים דקורטיביים לתוכן אינפורמטיבי.
עם זאת, אף אחת מהפלטים הללו לא הייתה נקייה משגיאות הקלדה, ואף אחת מהן לא הצליחה לכלול את מלוא הטקסט שסיפקנו. (גם עיצוב מתמטי היווה אתגר עבור GPT ו-Flux.) אבל בשלושת המקרים, רוב הטקסט קריא ומתאים היטב למסר המיועד.
לאחר מכן, ביקשנו מהמודלים להעריך את יכולתם לספק פוטוריאליזם, הדורש דיוק חזותי מעולה.
השתמשנו בהנחיה הבאה:
תצלום תקריב אולטרה-ריאליסטי של אישה בת 35 עם הטרוכרומיה, עין שמאל ירוקה, עין ימין בצבע לוז, יושבת בבית קפה שטוף שמש, צולם בעדשת 85 מ"מ בצמצם f/1.4. מרקם העור הטבעי מראה נמשים עדינים על גשר האף שלה, ריסים בודדים לוכדים את אור שעת הזהב הזורם דרך החלון המכוסה גשם מאחוריה. מיקוד מדויק על עיניה, שם ניתן לראות את השתקפות הצלם וציוד המצלמה באישונים שלה.

שוב, Imagen 4 בלטה בנו באופן מובהק, למרות קומפוזיציה קצת מוזרה והשתקפות מיותרת בחלק הימני העליון.
מבחינת דיוק חזותי - הטרוכרומיה, השתקפויות זכוכית, נמשים, עומק שדה ואפילו אפקטים של עדשת המצלמה - Imagen היה הדגם היחיד שסיפק את כל האלמנטים הללו בצורה משכנעת.
לדוגמה, Imagen הצליח לתאר במדויק את הניגוד בין עיניים ירוקות לגוון-אגוז, כאשר העין השמאלית הייתה ירוקה יותר באופן מובהק. Flux, GPT ו-Recraft כברירת מחדל הציגו עיניים בצבע אחיד.
בהשוואות אחרות, ראינו ש-Imagen מצטיינת בתמונות קבוצתיות, שם היא הצליחה לשמור על בהירות פנים על פני קבוצת אנשים.
כמו כן, השווינו את יכולתם של המודלים לבצע הוראות "נא לא לעשות", שהיו אתגר היסטורי.
השתמשנו בהנחיה הבאה:
איור לספר ילדים של קרקס תוסס עם אוהל גדול מפוספס באדום ולבן, קרוסלה מסתובבת צבעונית, כדורי ג'אגלינג קפואים באוויר, חבל דק מפוספס בקשת בענן נמתח בין עמודים גבוהים, קופסאות פופקורן מפוזרות ודוכני צמר גפן מתוק. צבעי יסוד בהירים, צורות מעוגלות רכות ופרטים גחמניים כמו בלונים צפים, גלגלי רוח מסתובבים ורכבת צעצוע זעירה המקיפה את האוהל. אין לכלול בעלי חיים, אנשים או דמויות אנושיות בסצנה.

במקרה הזה, Recraft היה המנצח.
היא דבקה בנאמנות רבה ביותר בהוראות ה"נא לא לעשות" שלנו. לדוגמה, היא נמנעה לחלוטין מדמויות אנושיות ודמויות אנתרופומורפיות, בעוד ש-GPT כללה אדם שמלהטט ואידיאוגרמה הציגה אקרובטים באוויר.
זה אפילו הצטיין בתפיסה עדינה יותר - Imagen, Flux ו-GPT כולם מתארים קרוסלות, שמפרות את סעיף "אין חיות". Recraft מדלג לחלוטין על הקרוסלה, נוקט בזהירות ועדיין לוכד את הכיף.
לבסוף, בדקנו את יכולתם של המודלים להציג דיאגרמות ותרשימי זרימה מורכבים. השתמשנו בהנחיה הבאה:
תרשים זרימה נקי המציג את תהליך השקת מוצר SaaS עם תיבות מלבניות המחוברות באמצעות חצים, החל מ"מחקר שוק" דרך "פיתוח MVP", "בדיקות בטא", "קמפיין שיווקי", "השקת מוצר" וכלה ב"ניתוח לאחר השקה". השתמשו בערכת צבעים בצבעי טורקיז ולבנדר עם תוויות ברורות, יהלומי החלטה עבור שערי אישור מרכזיים, ומדדי ציר זמן המציגים שלבים של 3-6 חודשים מתחת לכל אבן דרך מרכזית.

במקרה הזה, זכתה .
בעוד שכל מודל הביא פרשנות חזותית ייחודית, GPT הייתה היחידה שסיפקה תרשים זרימה קוהרנטי, קריא ותקשורתי חזותית, אשר כיבד את כל ההוראות המרכזיות מההנחיה.
הזרימה של GPT ברורה ובלתי מופרעת, עם שימוש עקבי בחצים המונע עמימות או הטעיה (בניגוד ל-Flux, הכולל צמתים חוזרים או בלולאות).
זה גם מאזן בצורה נקייה בין אייקונים לטקסט, והאיורים תומכים במסר כראוי.
ולמרות כמה שגיאות כתיב, הטקסט של GPT קריא לחלוטין ותקין מבחינה סמנטית.
מודלי יצירת התמונות של בינה מלאכותית לא רק משתפרים - הם מתמחים. כל מודל מוצא את החוזק שלו, מה שאומר שהבחירה הנכונה תלויה לחלוטין במה שאתם מנסים להשיג.
בשימוש שלנו, Image 4 Ultra מצטיין בפוטוריאליזם, GPT זורח בדיאגרמות מובנות, ו-Recraft פעל בצורה הטובה ביותר לפי העדפות "אל תעשה". התמחות זו היא האבולוציה הטבעית של טכנולוגיה מתבגרת.
לפני שישה חודשים, אנחנו (והמשתמשים שלנו) התמודדנו עם המגבלות של יצירת תמונות באמצעות בינה מלאכותית. עכשיו אנחנו מנווטים בין היתרונות. זו בעיה הרבה יותר טובה.
המודלים מתפתחים במהירות, וב-Gamma אנו רואים את השינויים בזמן אמת. נבחן מחדש את הממצאים הללו בשבועות הקרובים, עם שינויים בלתי נמנעים בטבלת המובילים.
