所有貼文

思維領導力

2025年7月22日

AI 圖片生成的現狀：從 10 億張圖片中學習

在生成超過 10 億張圖片，且在高峰期間每日達 500 萬張的情況下，Gamma 的 AI 團隊已學到很多關於哪些 AI 模型真正有效 — 以及其仍然不足的地方。

主要發現如下：

整體圖片品質已達到專業標準。
整體而言，我們觀察到在符合圖片提示、照片真實感和文字渲染品質方面都有顯著進步，並樹立了新標準，使先前世代相較之下看起來像業餘水準。
文字渲染已有極大的改善。
過去經常產生亂碼的模型，如今能夠建立完美的招牌、海報和品牌內容。
未經要求而生成的文字已成為持續存在的問題。擅長在收到要求時渲染文字的模型，如今有時會加入不需要的文字元素，即使提示已明確說明避免出現任何文字內容。

在過去一年中，Gamma 的使用者透過我們的平台生成超過 10 億張圖片，高峰期間每天生成 500 萬張。這不僅是一個里程碑 — 這是一個龐大的數據集，揭示 AI 圖片模型在現實世界中的確切表現。

Gamma 身處獨特的位置來比較這些模型，因為我們讓使用者可以根據其特定的圖片生成需求來自由選擇不同模型（或由我們為其設定適當的預設值）。

而這些數據顯示：AI 圖片生成領域正以極快速度加速發展。幾個月前還在基本文字渲染上掙扎的模型，現在已能生成專業行銷素材。然而，隨著快速進步而來的是可預見的挑戰，儘管有所進展，一些舊問題仍然存在。

逐模型比較

根據對數百萬次使用者互動和回饋的分析，以下是主流模型 — Imagen 4 Ultra、Flux Kontext Max、GPT Image、Recraft v3 和 Ideogram 3.0 在最常見的使用者回饋類別中的表現比較。

（備註：我們在 Gamma 產品中使用每個模型現有的最高級版本。我們為每個提示使用各模型生成 3 張圖片，並選擇表現最好的一張。）

指令遵循度

在第一個比較中，我們測量這些模型如何解讀複雜的提示。在此案例中，我提出了下列要求：

一組由四位年輕專業人士組成的多元團隊，在改建的閣樓空間中圍繞著一塊色彩繽紛的專案看板進行腦力激盪。團隊領導者捲起袖子，穿著亮黃色運動鞋，指著一些創新的草圖，而其中一位同事則在他們共同的願景上貼上便條紙。陽光透過工業風格的大窗戶灑入，照亮了充滿原型模型、創意靈感板和幾株趣味盆栽的工作空間。咖啡杯和吃到一半的點心暗示著他們充滿活力的工作時段。整體氛圍在專業與創意能量之間取得平衡，展現出他們攜手打造突破性概念的合作精神。寫實風格、溫暖光線、自然表情。

A comparison of five different image models' ability to follow a complex prompt.

在此案例中，我們有一個明確的贏家。

Imagen 4 Ultra 完美呈現提示中的每個細節 — 閣樓環境、陽光和溫暖照明、原型模型，以及「專業創意機構」的氛圍。

此外，它呈現最佳寫實度。與其相比，其他模型輸出的臉部完整度不佳。

文字渲染

我們的下一個測試挑戰圖片模型長期以來的難題：準確呈現複雜文字。

我們向模型提供了以下指令：

一張亮藍色背景、白色文字的資訊圖表，標題以大寫粗體字寫著「計算 COAST FIRE 的 5 個步驟」，位於頂部。版面設計為 5 個編號步驟的方格排列，其中第 5 步橫跨底部。每個步驟都有一個白色圓圈，內含藍色數字（1 至 5）及對應圖示。第 1 步：錢袋圖示，文字為「加總您的退休帳戶：401K、403B、IRA 等」；第 2 步：計算機與圖表圖示，文字為「使用複利計算機：以 5–7% 的報酬率計算至退休的年份」；第 3 步：附有美元符號的計算機圖示，文字為「使用 4% 法則計算每年可動用金額：例如 $1,500,000 x 4% = 每年 $60,000」；第 4 步：沙灘陽傘與躺椅圖示，文字為「計算您理想的每年生活開銷：乘以 80%-100%」；第 5 步：鈔票堆圖示，文字為「如果您的預估退休收入高於目前每年生活開銷，恭喜您已達成 COAST FIRE！」

A comparison of five image models' ability to render complex text.

在這個領域，我們判斷 Imagen、GPT 和 Flux 之間不分軒輊。（其他兩個模型則遠遠落後於這些領先者。）這三個模型都成功地解讀所需的格式：

標題在頂部，以大型粗體文字呈現。
五個明確步驟，使用藍色圓圈中的白色數字清楚地編號（1 至 5）。
網格式排版，第 5 步橫跨底部，或在視覺上作為結論步驟的錨點。

這些模型不僅準確地解析提示，亦遵循資訊圖表類別所要求的視覺層次和組織清晰度。

以一致的方式使用圖示，與每個步驟相對應，且每個資訊圖表在裝飾元素和資訊內容之間取得視覺平衡。

話雖如此，這些輸出結果並非完全沒有錯字，且都無法包含我們提供的全部文字內容，而數學格式對 GPT 和 Flux 來說也是一個挑戰。但在三種情況下，大部分文字皆清晰可讀，且與預期的訊息非常接近。

照片寫實風格

接下來，我們要求模型評估其提供如照片般真實感的能力，這需要極高的視覺精確度。

我們使用以下指令：

超寫實特寫照片，一位 35 歲異色瞳女性坐在陽光灑落的咖啡廳內，左眼為綠色，右眼為琥珀色。使用 85mm 鏡頭、光圈 f/1.4 拍攝。自然的膚質呈現鼻樑上的些許雀斑，根根分明的睫毛捕捉著透過帶雨痕窗戶灑入的黃金時刻光線。對焦精準地落在她的雙眼，在瞳孔中可清楚看到攝影師和攝影器材的倒影。

A comparison of five image models' ability to render photorealistic images.

Imagen 4 再次令我們留下深刻印象，儘管構圖略顯奇特，且右上角有非必要的反光。

在視覺逼真度方面 — 異色瞳、玻璃反射、雀斑、景深，甚至相機鏡頭效果 — Imagen 是唯一能全部令人信服地呈現這些元素的模型。

舉例來說，Imagen 能夠準確描繪綠色和淺褐色眼睛之間的對比，左眼明顯更綠。Flux、GPT 和 Recraft 則都預設為統一顏色的眼睛。

在其他比較中，我們看到 Imagen 在群組圖片方面表現出色，它能夠在一群人中保持每個人臉部的清晰度。

「請勿」指示

我們也比較了各模型遵循「請勿」指令的能力，這在過去一直是一個挑戰。

我們使用以下指令：

童書風格插圖，描繪一個充滿活力的馬戲團場景：紅白條紋的大型帳篷、色彩繽紛的旋轉木馬、空中定格的雜耍球、在高桿間延伸的彩虹條紋鋼索，以及散落的爆米花盒和棉花糖攤位。整體採用明亮的三原色、柔和圓潤的造型，並加入奇幻細節，如漂浮的氣球、旋轉的風車，以及繞著帳篷行駛的小火車。畫面中請勿出現任何動物、人或人形角色。

A comparison of five image models' ability to follow "do not" instructions in a prompt.

在這個案例中，Recraft 是贏家。

它最忠實地遵守了我們的「請勿」指示，它嚴格地避免顯示擬人化和人物形象，在此同時 GPT 呈現一個正在雜耍的人，而 Ideogram 則展示身處空中的雜技演員。

它甚至在更微妙的陷阱中表現出色 — Imagen、Flux 和 GPT 都呈現旋轉木馬，而這違反了「不要動物」的指示。Recraft 則完全跳過旋轉木馬，在謹慎行事的同時仍然捕捉到了樂趣。

圖表和流程圖

最後，我們測試模型繪製複雜圖表和流程圖的能力。我們使用了以下指令：

乾淨清晰的流程圖，展示 SaaS 產品發佈流程，使用矩形方框並以箭頭連接，起始於「市場調查」，依序經過「最小可行產品 (MVP) 開發」、「測試版試用」、「行銷活動」、「產品發佈」，最後至「發佈後分析」。整體配色採青綠色與薰衣草色，標籤清晰可辨。關鍵審核關卡使用菱形決策框表示，並在每個主要里程碑下方加上時間軸指標，顯示每階段為 3 至 6 個月。

A comparison of five image models' ability to render diagrams and flowcharts.

在這個案例中，GPT 拿下冠軍。

雖然每個模型都帶來獨特的視覺詮釋，但 GPT 是唯一能夠提供連貫、易讀且視覺上具溝通性的流程圖，同時遵循提示中所有關鍵指示的模型。

GPT 的流程清晰且不間斷，箭頭使用一致，避免歧義或誤導（不像 Flux，包含重複或循環的節點）。

它亦能乾淨地平衡圖示與文字，且插圖適當地支援訊息內容。

儘管有幾個錯字，GPT 的文字仍然完全可讀且語意清晰。

底線

AI 圖片生成模型不僅正在進步 — 它們還邁向專業化。每個模型都在找到自己的優勢，這意味著正確的選擇取決於你想達成的目標。

在我們的使用經驗中，Image 4 Ultra 在呈現如照片般真實的圖片方面表現卓越，而 GPT 在結構化圖表方面表現出色，而 Recraft 則最能遵循「請勿」的偏好設定。這種專業化是一項成熟技術自然演進的結果。

六個月前，我們（和我們的使用者）還在設法克服 AI 影像生成的限制。如今，我們正學習掌握其優勢，而這無疑是個更好的難題。

這些模型正在快速演進，而在 Gamma，我們能即時看到這些變化。我們將在未來幾週重新檢視這些發現，而排行榜將不可避免地出現名次變動。