Tüm gönderiler

Thought Leadership

July 22nd, 2025

Yapay zeka görüntü üretiminin durumu: Bir milyardan fazla görüntüden öğrenme

Bir milyardan fazla görüntü ürettikten ve yoğun günlerde günde 5 milyona ulaştıktan sonra, Gamma'nın yapay zeka ekibi hangi yapay zeka modellerinin gerçekten başarılı olduğu ve nerede yetersiz kaldığı hakkında çok şey öğrendi.

Bazı üst düzey bulgular:

Genel görüntü kalitesi profesyonel standartlara ulaşmıştır.
Genel olarak, görüntü-somut hizalama, fotogerçekçilik ve metin oluşturma kalitesinde önemli ilerlemeler görüyoruz ve önceki nesillerin karşılaştırıldığında amatör görünmesini sağlayan yeni bir standart belirliyoruz.
Metin işleme son derece gelişmiştir.
Eskiden bozuk harfler üreten modeller genellikle piksel mükemmelliğinde tabelalar, posterler ve markalı materyaller oluşturabilir.
İstenmeyen metin oluşturma, sürekli bir sorun haline gelmiştir. Talep edildiğinde metin oluşturma konusunda mükemmel olan modeller, artık istemler herhangi bir metin içeriğinden açıkça bahsetmekten kaçınsa bile bazen istenmeyen metin öğeleri ekliyor.

Gamma'da geçtiğimiz yıl boyunca kullanıcılarımız platformumuz aracılığıyla bir milyardan fazla görüntü üretti ve en yoğun günlerde 5 milyon nesle ulaştı. Bu sadece bir kilometre taşı değil, yapay zeka görüntü modellerinin gerçek dünyada ne kadar iyi performans gösterdiğini ortaya koyan devasa bir veri kümesi.

Gamma, modelleri karşılaştırmak için benzersiz bir konuma sahiptir, çünkü kullanıcılara özel görüntü oluşturma ihtiyaçlarına göre modeller arasında seçim yapma özgürlüğü veriyoruz (veya onlar için doğru varsayılanı ayarlıyoruz).

Ve işte bu verilerin gösterdiği şey: YZ görüntü oluşturma alanı büyük bir hızla gelişiyor. Sadece birkaç ay önce temel metin oluşturmada zorlanan modeller artık profesyonel düzeyde pazarlama materyalleri oluşturuyor. Ancak hızlı ilerleme öngörülebilir zorlukları da beraberinde getiriyor ve bazı eski sorunlar ilerlemelere rağmen devam ediyor.

Model model karşılaştırma

Milyonlarca kullanıcı etkileşimi ve geri bildiriminin analizine dayanarak, önde gelen modellerin - Imagen 4 Ultra, Flux Kontext Max, GPT Image, Recraft v3 ve Ideogram 3.0 - en yaygın kullanıcı geri bildirimi kategorilerimizde nasıl sıralandığını aşağıda bulabilirsiniz.

(Not: Gamma ürününde bulunan her modelin en premium versiyonlarını kullandık. Her istem için model başına 3 görüntü oluşturduk ve en iyisini seçtik)

Hızlı bağlılık

İlk karşılaştırma için modellerin karmaşık bir soruyu nasıl yorumladığını ölçtük. Bu durumda, aşağıdakileri sordum:

Dört genç profesyonelden oluşan farklı bir ekip, dönüştürülmüş bir çatı katında renkli bir proje panosu etrafında beyin fırtınası yapıyor. Kolları kıvrılmış ve parlak sarı spor ayakkabılar giyen ekip lideri yenilikçi eskizlere işaret ederken bir meslektaşı da ortak vizyonlarına yapışkan notlar ekliyor. Endüstriyel pencerelerden süzülen güneş ışığı, prototip modeller, yaratıcı ilham panoları ve birkaç ilginç masa bitkisiyle dolu çalışma alanlarını aydınlatıyor. Kahve fincanları ve yarısı yenmiş atıştırmalıklar enerjik oturumlarına işaret ediyor. Atmosfer, çığır açan konseptleri üzerinde işbirliği yaparken profesyonellik ile yaratıcı enerjiyi dengeliyor. Fotogerçekçi, sıcak aydınlatma, doğal ifadeler.

A comparison of five different image models' ability to follow a complex prompt.

Bu durumda, net bir kazananımız vardı.

Imagen 4 Ultra, çatı katı ortamı, güneş ışığı ve sıcak aydınlatma, prototip modeller ve "yaratıcı ajans ile profesyonellik" atmosferi gibi neredeyse her ayrıntıyı yakalıyor.

Ayrıca, yüz bütünlüğü zayıf olan diğer modellere kıyasla en iyi fotogerçekçiliği aktarmıştır.

Metin oluşturma

Bir sonraki testimiz, görüntü modelleri için uzun süredir devam eden bir zorluğu ele aldı: karmaşık metinlerin doğru şekilde oluşturulması.

Modellere aşağıdaki komutu verdik:

Üst kısmında büyük ve kalın harflerle "KIYI ATEŞİNİ HESAPLAMAK İÇİN 5 ADIM" başlıklı beyaz metin bulunan parlak mavi bir infografik. Düzen, en altta 5. adım olmak üzere bir ızgara içinde 5 numaralı adımı göstermektedir. Her adımda mavi rakamlı (1-5) beyaz bir daire ve ona eşlik eden bir simge vardır. 1. Adım: para çantası simgesi, metin "EMEKLİLİK HESAPLARINIZI EKLEYİN: 401K, 403B, IRA, VB". 2. Adım: hesap makinesi ve grafik simgesi, "BİR BİLEŞİK FAİZ HESAPLAYICI KULLANIN: EMEKLİLİĞE KADAR KAÇ YIL İÇİN %5-7" metni. 3. Adım: dolar işareti simgeli hesap makinesi, metin "YILLIK NE KADARLA YAŞAYABİLECEĞİNİZİ GÖRMEK İÇİN %4 KURALINI KULLANIN: ÖRN. 1.500.000 $ X %4 = YILLIK 60.000 $". Adım 4: plaj şemsiyesi ve sandalye simgesi, metin "RAHAT YILLIK YAŞAM GİDERLERİNİZİ HESAPLAYIN : 80 ILE ÇARPIN%-100%". Adım 5: para yığını simgesi, metin "ÖNGÖRÜLEN EMEKLİLİK GELİRİNİZ MEVCUT YILLIK YAŞAM GİDERLERİNİZİ AŞIYORSA, SAHİL ATEŞİNE ULAŞTINIZ!".

A comparison of five image models' ability to render complex text.

Burada Imagen, GPT ve Flux arasında bir eşitlik olduğunu değerlendiriyoruz. (Diğer iki model bu öncülerin çok gerisinde kaldı.) Her üç model de gerekli formatı başarıyla yorumladı:

Başlık üstte büyük, kalın metin olarak yerleştirilir.
Beş farklı adım, mavi daireler içinde beyaz sayılar kullanılarak açıkça numaralandırılmıştır (1'den 5'e kadar).
Izgara tarzı düzen, Adım 5 alt kısma yayılır veya son adım olarak görsel olarak sabitlenir.

Bu modeller yalnızca soruyu doğru bir şekilde ayrıştırmakla kalmadı, aynı zamanda infografik kategorisinin gerektirdiği görsel hiyerarşi ve organizasyonel netliğe de bağlı kaldı.

Simgeler her adıma karşılık gelecek şekilde tutarlı bir şekilde kullanıldı ve her infografikte dekoratif unsurlar ile bilgilendirici içerik arasında görsel bir denge sağlandı.

Bununla birlikte, bu çıktıların hiçbiri yazım hatası içermiyordu ve hiçbiri sağladığımız metnin tamamını içermiyordu. (Matematik formatlama GPT ve Flux için de bir zorluktu.) Ancak her üç durumda da metnin çoğunluğu okunaklı ve amaçlanan mesajla yakından uyumlu.

Fotogerçekçilik

Ardından, modellerden son derece ince görsel doğruluk gerektiren fotogerçekçiliği sunma yeteneklerini değerlendirmelerini istedik.

Aşağıdaki soruyu kullandık:

Sol gözü yeşil, sağ gözü ela olan 35 yaşındaki heterokromi hastası bir kadının güneşli bir kafede otururken 85mm lensle f/1.4 diyafram açıklığında çekilmiş ultra gerçekçi yakın çekim fotoğrafı. Doğal cilt dokusu, burun köprüsü boyunca ince çiller gösteriyor, tek tek kirpikler arkasındaki yağmur damlalı pencereden akan altın saat ışığını yakalıyor. Fotoğrafçının ve kamera ekipmanının yansımasını göz bebeklerinde görebileceğiniz gözlerine tam odaklanılmış.

A comparison of five image models' ability to render photorealistic images.

Yine, biraz tuhaf bir kompozisyon ve sağ üstteki gereksiz yansımaya rağmen, Imagen 4 açık ara öne çıkan fotoğraf oldu.

Görsel sadakat açısından -heterokromi, cam yansımaları, çiller, alan derinliği ve hatta kamera lensi efektleri- Imagen bu unsurların tümünü ikna edici bir şekilde sunan tek modeldi.

Örnek olarak, Imagen yeşil ve ela gözler arasındaki kontrastı doğru bir şekilde tasvir edebilmiş ve sol göz belirgin bir şekilde daha yeşil olmuştur. Flux, GPT ve Recraft ise varsayılan olarak aynı renkte gözlere sahipti.

Diğer karşılaştırmalarda, Imagen'in bir grup insan arasında yüz netliğini koruyabildiği grup görüntülerinde mükemmel olduğunu gördük.

"Yapmayın" talimatları

Ayrıca modellerin, tarihsel olarak zorlu bir süreç olan "Yapma" talimatlarını takip etme becerilerini de karşılaştırdık.

Aşağıdaki soruyu kullandık:

Kırmızı ve beyaz çizgili büyük çadırı, renkli dönen atlıkarıncası, havada donmuş hokkabaz topları, uzun direkler arasında uzanan gökkuşağı çizgili ipi ve dağınık patlamış mısır kutuları ve pamuk şeker standları ile canlı bir sirk çocuk kitabı illüstrasyonu. Parlak ana renkler, yumuşak yuvarlak şekiller ve yüzen balonlar, dönen fırıldaklar ve çadırın etrafında dönen minik bir oyuncak tren gibi tuhaf detaylar. Sahneye herhangi bir hayvan, insan veya insan figürü dahil ETMEYİN.

A comparison of five image models' ability to follow "do not" instructions in a prompt.

Bu durumda, Recraft kazanan oldu.

"Yapmayın" talimatlarımıza en sadık şekilde bağlı kaldı. Örneğin, hem antropomorfik hem de insan figürlerinden kesinlikle kaçınırken, GPT hokkabazlık yapan bir kişiyi ve Ideogram havada akrobatları gösterdi.

Hatta daha ince bir yakalamada bile başarılı oldu - Imagen, Flux ve GPT'nin hepsi "hayvan yok" maddesini ihlal eden atlıkarınca atlarını tasvir ediyor. Recraft atlıkarıncayı tamamen atlıyor ve eğlenceyi yakalamaya devam ederken ihtiyatlı davranıyor.

Diyagramlar ve akış şemaları

Son olarak, modellerin karmaşık diyagramları ve akış şemalarını oluşturma becerilerini test ettik. Aşağıdaki komut istemini kullandık:

SaaS ürün lansman sürecini, "Pazar Araştırması "ndan başlayarak "MVP Geliştirme", "Beta Testi", "Pazarlama Kampanyası", "Ürün Lansmanı" ve "Lansman Sonrası Analitik" ile biten, oklarla birbirine bağlanmış dikdörtgen kutularla gösteren temiz akış şeması." Açık etiketler, önemli onay kapıları için karar elmasları ve her önemli kilometre taşının altında 3-6 aylık aşamaları gösteren zaman çizelgesi göstergeleri ile deniz mavisi ve lavanta rengi şemasını kullanın.

A comparison of five image models' ability to render diagrams and flowcharts.

Bu durumda, GPT altını aldı.

Her model benzersiz bir görsel yorum getirmiş olsa da, GPT, istemdeki tüm temel talimatları yerine getiren uyumlu, okunabilir ve görsel olarak iletişimsel bir akış şeması sunan tek modeldi.

GPT'nin akışı net ve kesintisizdir, tutarlı ok kullanımıyla belirsizlik veya yanlış yönlendirme önlenir (tekrarlanan veya döngüsel düğümler içeren Flux'un aksine).

Ayrıca simgeler ile metin arasında temiz bir denge kuruyor ve illüstrasyonlar mesajı uygun şekilde destekliyor.

Birkaç yazım hatasına rağmen GPT'nin metni tamamen okunaklı ve anlamsal olarak sağlam.

Alt satır

Yapay zeka görüntü oluşturma modelleri sadece gelişmekle kalmıyor, aynı zamanda uzmanlaşıyor. Her model kendi gücünü buluyor, bu da doğru seçimin tamamen neyi başarmaya çalıştığınıza bağlı olduğu anlamına geliyor.

Bizim kullanımımızda Image 4 Ultra fotogerçekçilikte öne çıkarken, GPT yapılandırılmış diyagramlarla parlıyor ve Recraft "yapma" tercihlerini en iyi şekilde takip ediyor. Bu uzmanlaşma, olgunlaşan bir teknolojinin doğal evrimidir.

Altı ay önce, biz (ve kullanıcılarımız) yapay zeka görüntü üretiminin sınırlamalarını yönetiyorduk. Şimdi ise güçlü yönlerini keşfediyoruz. Bu sahip olmak için çok daha iyi bir sorun.

Modeller hızla gelişiyor ve Gamma'da değişiklikleri gerçek zamanlı olarak görüyoruz. Önümüzdeki haftalarda bu bulguları tekrar gözden geçireceğiz ve liderlik tablosunda kaçınılmaz değişiklikler yapacağız.

Yapay zeka görüntü üretiminin durumu: Bir milyardan fazla görüntüden öğrenme

Model model karşılaştırma

Hızlı bağlılık

Metin oluşturma

Fotogerçekçilik

"Yapmayın" talimatları

Diyagramlar ve akış şemaları

Alt satır

İyi fikirler evrene nasıl ulaşır?

Ürün

Şirket

Sosyal

Yasal

Uygulamayı indirin