Semua posting

Thought Leadership

July 22nd, 2025

Keadaan pembuatan gambar AI: Belajar dari lebih dari satu miliar gambar

Setelah menghasilkan lebih dari satu miliar gambar dan mencapai 5 juta gambar per hari pada hari-hari puncak, tim AI Gamma telah belajar banyak tentang model AI mana yang benar-benar memberikan hasil yang baik-dan di mana model AI tersebut masih gagal.

Beberapa temuan tingkat atas:

Secara keseluruhan, kualitas gambar sudah mencapai standar profesional.
Secara keseluruhan, kami melihat kemajuan yang signifikan dalam penyelarasan gambar, fotorealisme, dan kualitas rendering teks, menetapkan standar baru yang membuat generasi sebelumnya terlihat amatir jika dibandingkan.
Rendering teks sudah sangat meningkat.
Model yang digunakan untuk menghasilkan huruf yang kacau, sering kali dapat membuat papan nama, poster, dan materi bermerek yang sempurna secara piksel.
Pembuatan teks yang tidak diminta telah menjadi masalah yang terus berlanjut. Model yang unggul dalam merender teks ketika diminta sekarang terkadang menambahkan elemen teks yang tidak diinginkan bahkan ketika permintaan secara eksplisit menghindari menyebutkan konten teks apa pun.

Selama setahun terakhir di Gamma, pengguna kami telah menghasilkan lebih dari satu miliar gambar melalui platform kami, dengan hari puncak mencapai 5 juta generasi. Ini bukan hanya sebuah tonggak sejarah-ini adalah kumpulan data yang sangat besar yang menunjukkan dengan tepat seberapa baik kinerja model gambar AI di dunia nyata.

Gamma memiliki posisi yang unik untuk membandingkan model, karena kami memberikan kebebasan kepada pengguna untuk memilih di antara berbagai model (atau kami menetapkan standar yang tepat untuk mereka) berdasarkan kebutuhan pembuatan gambar yang spesifik.

Dan inilah yang ditunjukkan oleh data tersebut: ruang pembuatan gambar AI berakselerasi dengan sangat cepat. Model yang beberapa bulan lalu masih kesulitan dengan rendering teks dasar, sekarang sudah bisa menciptakan materi pemasaran tingkat profesional. Tetapi dengan kemajuan yang pesat, muncul tantangan yang dapat diprediksi, dan beberapa masalah lama tetap ada meskipun ada kemajuan.

Perbandingan model demi model

Berdasarkan analisis terhadap jutaan interaksi dan umpan balik pengguna, berikut ini adalah model-model terkemuka - Imagen 4 Ultra, Flux Kontext Max, GPT Image, Recraft v3, dan Ideogram 3.0 - yang berada dalam kategori umpan balik pengguna yang paling umum.

(Catatan: Kami menggunakan versi paling premium dari setiap model yang tersedia dalam produk Gamma. Kami menghasilkan 3 gambar per model untuk setiap prompt dan memilih yang terbaik)

Kepatuhan yang cepat

Untuk perbandingan pertama, kami mengukur bagaimana model menafsirkan prompt yang kompleks. Dalam hal ini, saya meminta yang berikut ini:

Sebuah tim yang terdiri dari empat profesional muda bertukar pikiran di sekitar papan proyek yang berwarna-warni di ruang loteng yang telah diubah. Pemimpin tim, yang mengenakan baju lengan gulung dan sepatu kets kuning cerah, menunjuk ke sketsa inovatif sementara seorang rekannya menambahkan catatan tempel ke visi bersama mereka. Sinar matahari masuk melalui jendela-jendela industrial, menerangi ruang kerja mereka yang dipenuhi dengan model-model prototipe, papan inspirasi kreatif, dan beberapa tanaman unik di atas meja. Cangkir kopi dan makanan ringan yang sudah setengah dimakan mengisyaratkan sesi kerja mereka yang penuh energi. Suasana tersebut menyeimbangkan profesionalisme dengan energi kreatif saat mereka berkolaborasi dalam konsep terobosan mereka. Fotorealistik, pencahayaan yang hangat, ekspresi yang alami.

A comparison of five different image models' ability to follow a complex prompt.

Dalam hal ini, kami memiliki pemenang yang jelas.

Imagen 4 Ultra menangkap hampir semua detail dalam prompt - pengaturan loteng, sinar matahari dan pencahayaan yang hangat, model purwarupa, dan suasana "profesionalisme dengan agensi kreatif".

Selain itu, kamera ini menghasilkan fotorealisme terbaik dibandingkan model lainnya, yang menghasilkan integritas wajah yang buruk.

Perenderan teks

Pengujian kami berikutnya mengambil tantangan yang sudah lama ada pada model gambar: rendering teks yang rumit secara akurat.

Kami memberikan perintah berikut ini kepada model:

Infografis berwarna biru cerah dengan teks putih berjudul "5 LANGKAH MENGHITUNG KEBAKARAN PANTAI" dengan huruf tebal di bagian atas. Tata letak menunjukkan 5 langkah bernomor dalam kisi-kisi dengan langkah ke-5 membentang di bagian bawah. Setiap langkah memiliki lingkaran putih dengan angka biru (1-5) dan ikon yang menyertainya. Langkah 1: ikon kantong uang, teks "TAMBAHKAN REKENING PENSIUN ANDA: 401K, 403B, IRA, DLL". Langkah 2: ikon kalkulator dan grafik, teks "GUNAKAN PENGHITUNG BUNGA RUPIAH: 5-7% UNTUK BERAPA TAHUN SAMPAI PENSIUN". Langkah 3: kalkulator dengan ikon tanda dolar, teks "GUNAKAN ATURAN 4% UNTUK MELIHAT BERAPA BANYAK YANG DAPAT ANDA HIDUPKAN SETIAP TAHUN: CONTOH. rP 1.500.000 X 4% = RP 60.000.000 PER TAHUN". Langkah 4: ikon payung pantai dan kursi, teks "HITUNG BIAYA HIDUP TAHUNAN YANG NYAMAN: KALIKAN DENGAN 80%-100%". Langkah 5: ikon tumpukan uang, teks "JIKA PROYEKSI PENDAPATAN PENSIUN ANDA MELEBIHI BIAYA HIDUP TAHUNAN ANDA SAAT INI, ANDA TELAH MENCAPAI COAST FIRE!".

A comparison of five image models' ability to render complex text.

Di sini, kami menilai seri antara Imagen, GPT, dan Flux. (Dua model lainnya berada jauh di belakang para pelari terdepan ini.) Ketiga model ini berhasil menafsirkan format yang dipersyaratkan:

Judul ditempatkan di bagian atas dengan teks yang besar dan tebal.
Lima langkah yang berbeda, diberi nomor dengan jelas (1 hingga 5) menggunakan angka putih dalam lingkaran biru.
Tata letak bergaya kisi-kisi, dengan Langkah 5 yang membentang di bagian bawah atau secara visual berlabuh sebagai langkah penutup.

Model-model ini tidak hanya menguraikan prompt secara akurat, tetapi juga mengikuti hirarki visual dan kejelasan organisasi yang dituntut oleh kategori infografis.

Ikon digunakan dengan cara yang konsisten yang sesuai dengan setiap langkah, dan setiap infografis memberikan keseimbangan visual antara elemen dekoratif dan konten informatif.

Meskipun demikian, tidak ada satu pun dari output ini yang bebas dari kesalahan ketik, dan tidak ada yang dapat menyertakan keseluruhan teks yang kami sediakan. (Pemformatan matematika juga menjadi tantangan bagi GPT dan Flux.) Tetapi dalam ketiga kasus, sebagian besar teks dapat terbaca dan selaras dengan pesan yang dimaksudkan.

Fotorealisme

Berikutnya, kami meminta para model untuk menilai kemampuan mereka dalam menghasilkan fotorealisme, yang menuntut ketepatan visual yang sangat halus.

Kami menggunakan prompt berikut ini:

Foto close-up ultra-realistis dari seorang wanita berusia 35 tahun dengan heterochromia, mata kiri berwarna hijau, mata kanan berwarna cokelat, duduk di sebuah kedai kopi yang disinari matahari, dibidik dengan lensa 85mm pada bukaan f/1.4. Tekstur kulit alami menunjukkan bintik-bintik halus di batang hidungnya, bulu mata individu menangkap cahaya keemasan yang mengalir melalui jendela yang terkena hujan di belakangnya. Fokus yang tepat pada matanya di mana Anda dapat melihat pantulan fotografer dan peralatan kamera pada pupil matanya.

A comparison of five image models' ability to render photorealistic images.

Sekali lagi, Imagen 4 menurut kami sangat menonjol, meskipun komposisinya agak ganjil dan pantulan yang tidak perlu di bagian kanan atas.

Dari segi ketepatan visual-heterokromia, pantulan kaca, bintik-bintik, depth of field, dan bahkan efek lensa kamera-Imagen merupakan satu-satunya model yang menghasilkan semua elemen ini secara meyakinkan.

Sebagai contoh, Imagen mampu secara akurat menggambarkan kontras antara mata hijau dan cokelat, dengan mata kiri terlihat lebih hijau. Flux, GPT, dan Recraft, semuanya secara default menghasilkan warna mata yang seragam.

Dalam perbandingan lainnya, kami melihat Imagen unggul pada gambar kelompok, di mana kamera ini mampu mempertahankan kejernihan wajah pada sekelompok orang.

instruksi "Jangan&quot

Kami juga membandingkan kemampuan para model untuk mengikuti instruksi "Jangan", yang secara historis menjadi tantangan tersendiri.

Kami menggunakan prompt berikut ini:

Ilustrasi buku anak-anak tentang sirkus yang semarak dengan tenda besar bergaris merah dan putih, komidi putar yang berputar warna-warni, bola-bola yang menyulap yang membeku di udara, tali bergaris pelangi yang membentang di antara tiang-tiang tinggi, serta kotak-kotak berondong jagung dan tempat gulali yang berserakan. Warna-warna primer yang cerah, bentuk bulat yang lembut, dan detail-detail unik seperti balon mengambang, kincir yang berputar, dan kereta mainan kecil yang mengitari tenda. JANGAN sertakan hewan, orang, atau figur manusia dalam adegan tersebut.

A comparison of five image models' ability to follow "do not" instructions in a prompt.

Dalam hal ini, Recraft adalah pemenangnya.

Ia sangat patuh pada instruksi "jangan" dari kami. Sebagai contoh, ia secara ketat menghindari figur antropomorfis dan manusia, sementara GPT menyertakan orang yang sedang melakukan juggling dan Ideogram menunjukkan akrobat di udara.

Bahkan unggul dalam tangkapan yang lebih halus-Imagen, Flux, dan GPT, semuanya menggambarkan kuda komidi putar, yang melanggar klausul "tidak ada hewan". Recraft melewatkan komidi putar sama sekali, dengan tetap berhati-hati, namun tetap menangkap kegembiraan.

Diagram dan diagram alir

Terakhir, kami menguji kemampuan model untuk membuat diagram dan diagram alir yang kompleks. Kami menggunakan perintah berikut ini:

Diagram diagram alir yang jelas yang menunjukkan proses peluncuran produk SaaS dengan kotak persegi panjang yang dihubungkan dengan panah, mulai dari "Riset Pasar" hingga "Pengembangan MVP", "Pengujian Beta", "Kampanye Pemasaran", "Peluncuran Produk", dan diakhiri dengan "Analisis Pasca-Peluncuran"." Gunakan skema warna teal dan lavender dengan label yang jelas, berlian keputusan untuk gerbang persetujuan utama, dan indikator garis waktu yang menunjukkan fase 3-6 bulan di bawah setiap tonggak utama.

A comparison of five image models' ability to render diagrams and flowcharts.

Dalam hal ini, GPT meraih medali emas.

Meskipun setiap model membawa interpretasi visual yang unik, GPT adalah satu-satunya yang memberikan diagram alir yang kohesif, mudah dibaca, dan komunikatif secara visual yang menghormati semua instruksi utama dari prompt.

Alur GPT jelas dan tidak terputus, dengan penggunaan panah yang konsisten yang menghindari ambiguitas atau salah arah (tidak seperti Flux, yang memiliki node berulang atau perulangan).

Aplikasi ini juga menyeimbangkan ikon dengan teks secara rapi, dan ilustrasinya mendukung pesan dengan tepat.

Dan meskipun ada beberapa kesalahan ketik, teks GPT sepenuhnya terbaca dan secara semantik baik.

Intinya

Model-model pembangkitan gambar AI tidak hanya semakin membaik-mereka memiliki spesialisasi. Masing-masing model menemukan kekuatannya, yang berarti pilihan yang tepat bergantung sepenuhnya pada apa yang ingin Anda capai.

Dalam penggunaan kami, Image 4 Ultra unggul dalam fotorealisme, GPT bersinar dengan diagram terstruktur, dan Recraft mengikuti preferensi "jangan" dengan sebaik-baiknya. Spesialisasi ini merupakan evolusi alami dari teknologi yang semakin matang.

Enam bulan yang lalu, kami (dan para pengguna kami) mengelola keterbatasan pembuatan gambar AI. Sekarang, kami menavigasi kekuatannya. Itu adalah masalah yang jauh lebih baik.

Model-model ini berkembang dengan cepat, dan di Gamma, kami melihat perubahannya secara real time. Kami akan meninjau kembali temuan ini dalam beberapa minggu mendatang, dengan perubahan yang tak terelakkan pada papan peringkat.

Keadaan pembuatan gambar AI: Belajar dari lebih dari satu miliar gambar

Perbandingan model demi model

Kepatuhan yang cepat

Perenderan teks

Fotorealisme

instruksi "Jangan&quot

Diagram dan diagram alir

Intinya

Bagaimana ide-ide bagus masuk ke alam semesta

Produk

Perusahaan

Sosial

Hukum

Unduh aplikasinya