关于定价
登录免费开始

所有帖子

  • 思想领导力

2025年7月22日

人工智能图像生成的现状:在多达十亿张图像中学习

人工智能图像生成的现状:在多达十亿张图像中学习

Gamma 的 AI 团队生成了超过 10 亿张图片,高峰期每天会生成 500 万张图片,他们已经了解到 AI 模型的实际效果和不足之处。

一些重要发现:

  • 整体图像质量已达到专业水准。

    总体而言,我们看到图像提示对齐、照片级真实感和文本渲染质量方面取得了显著进步,树立了新标准,相比之下,前几代产品显得有些业余。

  • 文本渲染得到了极大改善。

    过去产生乱码字符的模型,现在可以制作出像素完美的标牌、海报和品牌材料。

  • 未经请求的文本生成已成为一个长期存在的问题 。 即使提示明确避免提及任何文本内容,那些擅长根据要求生成文本的模型有时也会添加不需要的文本元素。

在过去的一年里,Gamma 用户通过我们的平台生成了超过十亿张图像,高峰期每天达到500万次生成。这不仅仅是一个里程碑——这是一个庞大的数据集,它准确地揭示了AI图像模型在现实世界中的表现。

Gamma 在比较模型方面具有独特的优势,因为我们让用户根据他们特定的图像生成需求自由选择模型(或者我们为他们设置合适的默认值)。

这些数据表明:AI 图像生成领域正在飞速发展。几个月前还在为基本文本渲染苦苦挣扎的模型,现在已经能制作出专业级的营销材料。快速的进步也带来了可预见的挑战,尽管取得了进展,但一些老问题依然存在。

逐个模型比较

根据对数百万用户交互和反馈的分析,以下是领先模型(Imagen 4 Ultra、Flux Kontext Max、GPT Image、Recraft v3 和 Ideogram 3.0)在我们最常见的用户反馈类别中的排名情况。

(注意:我们使用了 Gamma 产品中每个模型的最高级版本。我们针对每个提示词为每个模型生成了 3 张图像,并选择最好的那一张。)

提示词遵循度

在第一次比较中,我们测量了模型如何诠释一个复杂的提示词。在这种情况下,我提出了以下要求:

在一间由阁楼改造而成的空间里,一支由四位年轻的专业人士组成的多元化团队正围绕着一块色彩缤纷的项目板进行头脑风暴。团队负责人卷起袖子,脚踩亮黄色运动鞋,手指着创新的草稿图,而一位同事则在便利贴上写下他们共同的愿景。阳光透过工业风的窗户倾泻而下,照亮了摆满原型模型、创意灵感板和几盆奇形怪状的办公桌植物的工作空间。咖啡杯和吃了一半的零食透露着他们充满活力的讨论氛围。在他们共同探讨突破性概念的过程中,这里的氛围兼顾了专业精神与创造力。图像要逼真,温暖的灯光,自然的表情。

A comparison of five different image models' ability to follow a complex prompt.

在这种情况下,我们有一个明确的赢家。

Imagen 4 Ultra 几乎抓住了提示中的每个细节— —阁楼环境、阳光和温暖的灯光、原型模型和“专业程度堪比创意机构”的氛围。

此外,与其他面部完整性较差的模型相比,该模型的逼真度最高。

文本渲染

我们的下一项测试是对图像模型的长期挑战:复杂文本的准确呈现。

我们向模型提供了以下提示词:

一张亮蓝色的信息图,顶部用白色粗体字写着“计算 COAST FIRE 的五个步骤”。版面以网格形式显示了 5 个带编号的步骤,步骤 5 位于底部。每个步骤都有一个白色圆圈,圆圈内带有蓝色数字(1-5)和相应的图标。步骤 1:钱包图标,文字为“您的退休账户总计:401K、403B、IRA 等等”。步骤 2:计算器和图表图标,文字为“使用复利计算器:5-7% 的利率,多少年后能退休”。步骤 3:带有美元符号图标的计算器,文字为“使用 4% 规则计算您每年可以维持多少生活:例如,150 万美元 x 4% = 每年 6 万美元”。步骤 4:沙滩伞和椅子图标,文字为“计算您舒适的年度生活支出:乘以80 %-100% ”。步骤 5:一叠钱的图标,文字为“如果您预计的退休收入超过您目前的年度生活支出,那么您就实现了COAST FIRE!”。

A comparison of five image models' ability to render complex text.

在此,我们判定 Imagen、GPT 和 Flux 之间打成平手(其他两个模型远远落后于这些领先者)。这三个模型都成功地解释了所需的格式:

  • 标题使用大号粗体字置于顶部。

  • 五个不同的步骤 ,使用蓝色圆圈中的白色数字清楚地编号(1 至 5)。

  • 网格样式布局 ,其中第 5 步横跨底部或在视觉上锚定作为结束步骤。

这些模型不仅准确地解析了提示词,而且还遵循了信息图表类别所要求的视觉层次结构和组织清晰度

图标的使用与每个步骤一致,每张信息图表都在装饰元素和信息内容之间取得了视觉平衡。

话虽如此,这些输出并非没有拼写错误,也未能包含我们提供的全部文本。(数学格式对 GPT 和 Flux 来说也是一个挑战)。不过,在这三种情况下,大部分文本都清晰易读,并与预期信息高度一致。

逼真度

接下来,我们对这些模型进行了评估,以确定它们是否有能力实现逼真的视觉效果,这需要极其精细的视觉保真度。

我们使用了以下提示词:

超写实特写照片,拍摄一位患有虹膜异色症的 35 岁女性,左眼绿色,右眼淡褐色,坐在阳光照耀下的咖啡店里,用 85mm 镜头,f/1.4 光圈拍摄。自然的皮肤纹理,她的鼻梁上有细微的雀斑,睫毛捕捉着透过身后雨水斑驳的窗户射入的金色阳光。精确对焦在她的眼睛上,可以看到摄影师和摄影设备在她瞳孔中的倒影。

A comparison of five image models' ability to render photorealistic images.

尽管构图略显怪异,右上方也有不必要的倒影,但 Imagen 4 还是让我们眼前一亮。

在视觉保真度方面,异色、玻璃反光、雀斑、景深,甚至相机镜头效果,Imagen 是唯一一个能令人信服地提供所有这些元素的模型。

例如,Imagen 能够准确地描绘出绿色和淡褐色眼睛之间的对比,左眼明显更绿。而 Flux、GPT 和 Recraft 都默认将眼睛颜色统一。

在其他比较中,我们发现 Imagen 在群体图像方面表现出色,它能够保持一群人的面部清晰度。

“请勿”指示

我们还比较了模型遵循“请勿”指令的能力,这在历史上一直是个挑战。

我们使用了以下提示词:

儿童书籍插图,展示一个充满活力的马戏团,有红白相间条纹的大顶篷帐篷,色彩缤纷的旋转木马,悬浮在空中的杂耍球,在高杆之间延伸的彩虹条纹钢丝绳,散落的爆米花盒和棉花糖摊位。明亮的基本色,柔和的圆形形状,还有充满奇思妙想的细节,如漂浮的气球,旋转的风车和围绕帐篷行驶的小玩具火车。请勿在场景中包含任何动物、人或人物形象。

A comparison of five image models' ability to follow "do not" instructions in a prompt.

在这种情况下,Recraft 是赢家。

它严格遵守了我们的“请勿”指示。例如,它严格避免使用拟人和人物形象,而 GPT 中包含一个玩杂耍的人,Ideogram 中展示了空中杂技演员。

它甚至擅长更微妙的捕捉——Imagen、Flux 和 GPT 都描绘了旋转木马上的马,这违反了 “禁止动物”的指令。Recraft 完全跳过了旋转木马,既谨慎又不失趣味。

图表和流程图

最后,我们测试了模型渲染复杂图表和流程图的能力。我们使用了以下提示词:

简洁的流程图展示了 SaaS 产品发布流程,矩形框之间用箭头连接,从“市场调研”开始,经过“MVP 开发”、“Beta 测试”、“市场营销活动”、“产品发布”,最后到“发布后分析”。使用蓝绿色和淡紫色配色方案,并配有清晰的标签,决策菱形表示关键审批环节,在每个主要里程碑下显示 3-6 个月阶段的时间表指标。

A comparison of five image models' ability to render diagrams and flowcharts.

在这种情况下,GPT 摘得桂冠。

虽然每个模型都带来了独特的视觉诠释,但 GPT 是唯一一个能够提供具有凝聚力、可读性和视觉交流性的流程图,并遵守提示中的所有关键指示的模型。

GPT 的流程清晰且不间断,使用一致的箭头可以避免歧义或误导(与包含重复或循环节点的 Flux 不同)。

它还巧妙地平衡了图标和文本,插图对信息的支持也恰到好处。

尽管存在一些拼写错误,GPT 的文本仍然完全清晰易读且语义合理。

底线

AI 图像生成模型不仅在不断改进,而且还在不断专业化。每种模型都在探索自己的优势,这意味着正确的选择完全取决于你想要实现的目标。

在我们的使用中,Image 4 Ultra 擅长生成逼真图像,GPT 擅长结构图,而 Recraft 最符合满足“请勿”指令的偏好。这种专业化是技术日趋成熟的自然演进。

六个月前,我们(和我们的用户)还在应对 AI 图像生成的局限性。现在我们正在探索它的优势。这是一个更值得探究的问题。

这些模型正在快速发展,在 Gamma,我们实时见证着这些变化。我们将在未来几周重新审视这些发现,排行榜也将不可避免地发生变化。

好的想法是如何进入宇宙的

免费开始
Footer Logo Gradient

产品

  • 定价
  • 灵感
  • 教育
  • 提示词指南
  • 洞察
  • 模板
  • 探索
  • 集成
  • 辅助功能

Get the app

Download on the App Store
Get it on Google Play

© 2026 Gamma Tech, Inc.