Tất cả các bài viết

Thought Leadership

July 22nd, 2025

Tình trạng tạo hình ảnh AI: Học hỏi từ hơn một tỷ hình ảnh

Sau khi tạo ra hơn một tỷ hình ảnh và đạt 5 triệu hình ảnh mỗi ngày vào những ngày cao điểm, nhóm AI của Gamma đã học được rất nhiều điều về những mô hình AI thực sự mang lại hiệu quả và những điểm chúng còn thiếu sót.

Một số phát hiện cấp cao:

Chất lượng hình ảnh tổng thể đã đạt tiêu chuẩn chuyên nghiệp.
Nhìn chung, chúng ta thấy những tiến bộ đáng kể trong việc căn chỉnh hình ảnh, tính chân thực của ảnh và chất lượng hiển thị văn bản, thiết lập một tiêu chuẩn mới khiến các thế hệ trước trông có vẻ nghiệp dư khi so sánh.
Khả năng hiển thị văn bản đã được cải thiện đáng kể.
Các mô hình từng tạo ra các chữ cái lộn xộn thường có thể tạo ra biển báo, áp phích và tài liệu có thương hiệu hoàn hảo đến từng pixel.
Việc tạo văn bản không mong muốn đã trở thành một vấn đề dai dẳng . Các mô hình có khả năng hiển thị văn bản khi được yêu cầu hiện nay đôi khi vẫn thêm các thành phần văn bản không mong muốn ngay cả khi lời nhắc rõ ràng là tránh đề cập đến bất kỳ nội dung văn bản nào.

Trong năm qua tại Gamma, người dùng của chúng tôi đã tạo ra hơn một tỷ hình ảnh thông qua nền tảng, với những ngày cao điểm đạt tới 5 triệu thế hệ. Đây không chỉ là một cột mốc quan trọng, mà còn là một tập dữ liệu khổng lồ, cho thấy chính xác hiệu suất hoạt động của các mô hình hình ảnh AI trong thế giới thực.

Gamma có vị trí độc đáo để so sánh các mô hình, vì chúng tôi cho phép người dùng tự do lựa chọn giữa các mô hình (hoặc chúng tôi đặt mặc định phù hợp cho họ) dựa trên nhu cầu tạo hình ảnh cụ thể của họ.

Và đây là những gì dữ liệu cho thấy: không gian tạo hình ảnh AI đang tăng tốc với tốc độ chóng mặt. Các mô hình từng chật vật với việc hiển thị văn bản cơ bản chỉ vài tháng trước giờ đây đang tạo ra các tài liệu tiếp thị chuyên nghiệp. Nhưng cùng với sự tiến bộ nhanh chóng là những thách thức dễ lường trước, và một số vấn đề cũ vẫn tồn tại bất chấp những tiến bộ.

So sánh từng mô hình

Dựa trên việc phân tích hàng triệu tương tác và phản hồi của người dùng, sau đây là cách các mô hình hàng đầu — Imagen 4 Ultra, Flux Kontext Max, GPT Image, Recraft v3 và Ideogram 3.0 — xếp hạng trên các danh mục phản hồi phổ biến nhất của người dùng.

(Lưu ý: Chúng tôi đã sử dụng phiên bản cao cấp nhất của từng mô hình có trong sản phẩm Gamma. Chúng tôi tạo ra 3 hình ảnh cho mỗi mô hình cho mỗi lời nhắc và chọn ra hình ảnh đẹp nhất.)

Tuân thủ nhanh chóng

Trong lần so sánh đầu tiên, chúng tôi đã đo lường cách các mô hình diễn giải một lời nhắc phức tạp. Trong trường hợp này, tôi đã yêu cầu những điều sau:

Một nhóm bốn chuyên gia trẻ đa dạng đang cùng nhau động não quanh một bảng dự án đầy màu sắc trong một không gian gác xép được cải tạo. Trưởng nhóm, mặc áo tay xắn và giày thể thao vàng rực, chỉ vào những bản phác thảo sáng tạo trong khi một đồng nghiệp ghi chú lại tầm nhìn chung của họ. Ánh nắng xuyên qua cửa sổ công nghiệp, chiếu sáng không gian làm việc của họ với đầy những mô hình nguyên mẫu, bảng cảm hứng sáng tạo và một vài chậu cây cảnh độc đáo. Những tách cà phê và đồ ăn vặt ăn dở cho thấy buổi làm việc tràn đầy năng lượng của họ. Bầu không khí cân bằng giữa tính chuyên nghiệp và năng lượng sáng tạo khi họ cùng nhau thực hiện ý tưởng đột phá. Ánh sáng ấm áp, chân thực, biểu cảm tự nhiên.

A comparison of five different image models' ability to follow a complex prompt.

Trong trường hợp này, chúng ta đã có người chiến thắng rõ ràng.

Imagen 4 Ultra gần như đáp ứng mọi chi tiết trong lời nhắc — bối cảnh gác xép, ánh sáng mặt trời và ánh sáng ấm áp, mô hình nguyên mẫu và bầu không khí "chuyên nghiệp với sự sáng tạo".

Ngoài ra, nó truyền tải tính chân thực tốt nhất so với các mô hình khác, vốn cho ra tính toàn vẹn khuôn mặt kém.

Hiển thị văn bản

Bài kiểm tra tiếp theo của chúng tôi đã giải quyết một thách thức lâu dài đối với các mô hình hình ảnh: hiển thị chính xác văn bản phức tạp.

Chúng tôi đã đưa ra lời nhắc sau cho các mô hình:

Đồ họa thông tin màu xanh lam sáng với dòng chữ trắng có tiêu đề "5 BƯỚC TÍNH TOÁN CHÁY BỜ BIỂN" bằng chữ in đậm lớn ở phía trên. Bố cục hiển thị 5 bước được đánh số theo dạng lưới, với bước 5 nằm ở phía dưới. Mỗi bước có một vòng tròn màu trắng với số màu xanh lam (1-5) và biểu tượng đi kèm. Bước 1: biểu tượng túi tiền, dòng chữ "CỘNG TÀI KHOẢN HƯU TRÍ CỦA BẠN: 401K, 403B, IRA, V.V.". Bước 2: biểu tượng máy tính và biểu đồ, dòng chữ "SỬ DỤNG MÁY TÍNH LÃI SUẤT KÉP: 5-7% CHO BẤT KỲ NĂM NÀO ĐẾN KHI NGHỈ HƯU". Bước 3: biểu tượng máy tính với dấu đô la, dòng chữ "SỬ DỤNG QUY TẮC 4% ĐỂ XEM SỐ TIỀN BẠN CÓ THỂ SỐNG ĐƯỢC HÀNG NĂM: VÍ DỤ: 1.500.000 ĐÔ LA X 4% = 60.000 ĐÔ LA MỖI NĂM". Bước 4: biểu tượng ô dù và ghế trên bãi biển, dòng chữ "TÍNH CHI PHÍ SINH HOẠT HÀNG NĂM THOẢI MÁI CỦA BẠN: NHÂN VỚI 80 %-100% ". Bước 5: biểu tượng chồng tiền, dòng chữ "NẾU THU NHẬP DỰ KIẾN KHI NGHỈ HƯU CỦA BẠN VƯỢT QUÁ CHI PHÍ SINH HOẠT HÀNG NĂM HIỆN TẠI, BẠN ĐÃ ĐẠT ĐƯỢC MỨC TIÊU CỰC RỠ!".

A comparison of five image models' ability to render complex text.

Ở đây, chúng tôi đánh giá mức độ ngang bằng giữa Imagen, GPT và Flux. (Hai mô hình còn lại kém xa những mô hình dẫn đầu này.) Cả ba mô hình đều diễn giải thành công định dạng yêu cầu:

Vị trí đặt ở đầu trang bằng chữ in đậm, cỡ lớn.
Năm bước riêng biệt , được đánh số rõ ràng (từ 1 đến 5) bằng số màu trắng trong vòng tròn màu xanh.
Bố cục theo kiểu lưới , với Bước 5 trải dài ở phía dưới hoặc được neo trực quan như bước kết thúc.

Các mô hình này không chỉ phân tích lời nhắc một cách chính xác mà còn tuân thủ hệ thống phân cấp trực quan và tính rõ ràng về mặt tổ chức theo yêu cầu của thể loại đồ họa thông tin.

Các biểu tượng được sử dụng theo cách nhất quán tương ứng với từng bước và mỗi đồ họa thông tin đều đạt được sự cân bằng về mặt hình ảnh giữa các yếu tố trang trí và nội dung thông tin.

Tuy nhiên, không có kết quả nào trong số này là không có lỗi chính tả, và không có kết quả nào có thể bao gồm toàn bộ văn bản chúng tôi cung cấp. (Định dạng toán học cũng là một thách thức đối với GPT và Flux.) Nhưng trong cả ba trường hợp, phần lớn văn bản đều dễ đọc và phù hợp chặt chẽ với thông điệp mong muốn.

Chủ nghĩa hiện thực

Tiếp theo, chúng tôi nhắc nhở các mô hình đánh giá khả năng mang lại tính chân thực của ảnh, đòi hỏi độ trung thực hình ảnh cực kỳ cao.

Chúng tôi đã sử dụng lời nhắc sau:

Bức ảnh cận cảnh siêu thực chụp một người phụ nữ 35 tuổi bị loạn sắc tố mắt, mắt trái màu xanh lá cây, mắt phải màu nâu hạt dẻ, đang ngồi trong một quán cà phê ngập nắng, chụp bằng ống kính 85mm, khẩu độ f/1.4. Kết cấu da tự nhiên cho thấy những đốm tàn nhang mờ nhạt trên sống mũi, từng sợi mi đón ánh sáng vàng xuyên qua ô cửa sổ loang lổ mưa phía sau. Lấy nét chính xác vào đôi mắt, nơi bạn có thể thấy hình ảnh phản chiếu của nhiếp ảnh gia và thiết bị máy ảnh trong con ngươi.

A comparison of five image models' ability to render photorealistic images.

Một lần nữa, Imagen 4 lại gây ấn tượng với chúng tôi là tác phẩm nổi bật nhất, mặc dù bố cục hơi kỳ lạ và hình ảnh phản chiếu không cần thiết ở góc trên bên phải.

Xét về độ trung thực của hình ảnh—hiện tượng loạn sắc tố, phản chiếu của kính, tàn nhang, độ sâu trường ảnh và thậm chí cả hiệu ứng ống kính máy ảnh—Imagen là mẫu máy duy nhất truyền tải tất cả các yếu tố này một cách thuyết phục.

Ví dụ, Imagen có thể mô tả chính xác độ tương phản giữa mắt xanh lá cây và mắt nâu hạt dẻ, với mắt trái rõ ràng xanh hơn. Flux, GPT và Recraft đều mặc định mắt có màu đồng nhất.

Trong các so sánh khác, chúng tôi thấy Imagen tỏ ra vượt trội trong việc chụp ảnh nhóm, khi có thể duy trì độ rõ nét khuôn mặt của cả một nhóm người.

Hướng dẫn "Không"

Chúng tôi cũng so sánh khả năng tuân theo hướng dẫn "Không được" của các mô hình, vốn trước đây là một thách thức.

Chúng tôi đã sử dụng lời nhắc sau:

Minh họa sách thiếu nhi về một rạp xiếc sôi động với lều bạt lớn sọc đỏ trắng, vòng xoay ngựa gỗ đầy màu sắc, những quả bóng tung hứng lơ lửng giữa không trung, dây thừng sọc cầu vồng căng giữa những cây cột cao, rải rác hộp bỏng ngô và quầy kẹo bông gòn. Màu sắc tươi sáng, hình khối tròn mềm mại, cùng các chi tiết kỳ quặc như bóng bay lơ lửng, chong chóng quay tròn, và một đoàn tàu đồ chơi nhỏ xíu chạy vòng quanh lều. KHÔNG đưa bất kỳ động vật, người hoặc hình người nào vào cảnh này.

A comparison of five image models' ability to follow "do not" instructions in a prompt.

Trong trường hợp này, Recraft là người chiến thắng.

Nó tuân thủ rất nghiêm ngặt hướng dẫn "không được" của chúng tôi. Ví dụ, nó hoàn toàn tránh cả hình người và hình người, trong khi GPT lại có hình người đang tung hứng và Ideogram lại hiển thị hình người nhào lộn trên không trung.

Nó thậm chí còn xuất sắc ở một điểm tinh tế hơn—Imagen, Flux và GPT đều mô tả hình ảnh những chú ngựa gỗ, vi phạm điều khoản "cấm động vật". Recraft hoàn toàn bỏ qua vòng xoay ngựa gỗ, thiên về sự thận trọng nhưng vẫn ghi lại được sự vui nhộn.

Sơ đồ và biểu đồ luồng

Cuối cùng, chúng tôi đã kiểm tra khả năng hiển thị các sơ đồ và biểu đồ phức tạp của mô hình. Chúng tôi đã sử dụng lời nhắc sau:

Sơ đồ luồng công việc rõ ràng thể hiện quy trình ra mắt sản phẩm SaaS với các ô chữ nhật được kết nối bằng mũi tên, bắt đầu từ "Nghiên cứu thị trường" đến "Phát triển MVP", "Thử nghiệm beta", "Chiến dịch tiếp thị", "Ra mắt sản phẩm" và kết thúc tại "Phân tích sau khi ra mắt". Sử dụng tông màu xanh ngọc lam và tím nhạt với nhãn rõ ràng, hình thoi quyết định cho các cổng phê duyệt chính và chỉ báo mốc thời gian hiển thị các giai đoạn 3-6 tháng bên dưới mỗi cột mốc quan trọng.

A comparison of five image models' ability to render diagrams and flowcharts.

Trong trường hợp này, GPT đã giành được vàng.

Trong khi mỗi mô hình mang đến cách diễn giải trực quan riêng, GPT là mô hình duy nhất cung cấp sơ đồ luồng mạch lạc, dễ đọc và truyền đạt trực quan, tôn trọng tất cả các hướng dẫn chính từ lời nhắc.

Luồng của GPT rõ ràng và không bị gián đoạn, với việc sử dụng mũi tên nhất quán giúp tránh sự mơ hồ hoặc sai hướng (không giống như Flux, bao gồm các nút lặp lại hoặc vòng lặp).

Nó cũng cân bằng các biểu tượng với văn bản một cách rõ ràng và hình ảnh minh họa hỗ trợ thông điệp một cách phù hợp.

Và mặc dù có một vài lỗi đánh máy, văn bản của GPT hoàn toàn dễ đọc và có ngữ nghĩa hợp lý.

Dòng cuối cùng

Các mô hình tạo hình ảnh AI không chỉ đang cải thiện mà còn chuyên biệt hóa. Mỗi mô hình đang tìm ra điểm mạnh của mình, nghĩa là lựa chọn đúng đắn hoàn toàn phụ thuộc vào mục tiêu bạn đang hướng đến.

Trong cách sử dụng của chúng tôi, Image 4 Ultra nổi trội về tính chân thực, GPT nổi bật với các sơ đồ có cấu trúc, và Recraft tuân thủ tốt nhất các tùy chọn "không nên". Sự chuyên môn hóa này là bước phát triển tự nhiên của một công nghệ đang trưởng thành.

Sáu tháng trước, chúng tôi (và người dùng) đang phải đối mặt với những hạn chế của việc tạo hình ảnh bằng AI. Giờ đây, chúng tôi đang khai thác những điểm mạnh. Đó là một vấn đề tốt hơn nhiều.

Các mô hình đang phát triển nhanh chóng, và tại Gamma, chúng tôi thấy những thay đổi theo thời gian thực. Chúng tôi sẽ xem xét lại những phát hiện này trong những tuần tới, với những thay đổi không thể tránh khỏi trên bảng xếp hạng.

Tình trạng tạo hình ảnh AI: Học hỏi từ hơn một tỷ hình ảnh

So sánh từng mô hình

Tuân thủ nhanh chóng

Hiển thị văn bản

Chủ nghĩa hiện thực

Hướng dẫn "Không"

Sơ đồ và biểu đồ luồng

Dòng cuối cùng

Những ý tưởng tốt đẹp đến với vũ trụ như thế nào

Sản phẩm

Công ty

Xã hội

Hợp pháp

Tải ứng dụng