すべての投稿

ソートリーダーシップ

2025年7月22日

AI画像生成の現状：10億枚以上の画像から学べること

10億枚以上の画像を生成し、ピーク時には1日あたり500万枚に達した経験から、GammaのAIチームは、実際にどのAIモデルが成果を出しているかや改善の余地がある領域などについて、多くのことを学びました。

主な考察結果：

全体的な画像品質がプロの水準に。
画像プロンプトの整合性、フォトリアリズム、テキストレンダリングの品質において全体的に大きな進歩が見られ、前世代がアマチュアによる作品に見えるほどの新たな基準を打ち立てています。
テキストレンダリングが大幅に改善。
以前は文字化けを起こしていたモデルでも、今ではピクセル単位で完璧な看板やポスター、ブランド資料を作成できるようになりました。
不要なテキスト生成が継続的な課題に。テキストレンダリングに優れたモデルは、プロンプトがテキストコンテンツへの言及を明示的に避けている場合でも、意図しないテキスト要素を追加してしまうことがあります。

この1年間でGammaユーザーは、プラットフォームを通じて10億枚以上の画像を生成してきました。ピーク時には1日で500万回の生成に達しています。これは単なるマイルストーンではなく、AI画像モデルが実際の世界でどれほど優れたパフォーマンスを発揮しているかを示す膨大なデータセットでもあります。

Gammaは、ユーザーがそれぞれの画像生成ニーズに応じてモデルを選択できたり、最適なデフォルトを設定したりできるため、モデルを比較する上で他には類を見ない強みを有しています。

さらに、AI画像生成分野が急速に進化を遂げているということがデータからも明らかになっています。ほんの数か月前まで基本的なテキストレンダリングに苦戦していたモデルが、今ではプロレベルのマーケティング資料作成を実現しています。しかし、急速な進歩に伴い予測可能な課題も生まれ、進化にもかかわらず一部の従来の問題は依然として残っています。

モデルごとの比較

数百万のユーザーインタラクションとフィードバックの分析に基づいた、もっとも一般的なユーザーフィードバックのカテゴリーにおける主要モデル（Imagen 4 Ultra、Flux Kontext Max、GPT Image、Recraft v3、Ideogram 3.0）の比較をご紹介します。

（注：Gamma製品内で利用可能な、各モデルのもっとも高性能なバージョンを使用しました。各プロンプトごとにそれぞれのモデルで3枚の画像を生成し、最良のものを選びました。）

プロンプトの遵守

最初の比較では、モデルが複雑なプロンプトをどのように解釈するかを測定しました。尋ねた内容は次のとおりです。

多様なバックグラウンドを持つ4人の若手プロフェッショナルが、リノベーションされたロフトスペースでカラフルなプロジェクトボードを囲みながらアイデアを出し合っています。袖をまくり、鮮やかな黄色のスニーカーを履いたリーダーは、革新的なスケッチを指し示し、チームメンバーは、共有ビジョンに付箋を追加しています。工業的な窓から差し込む日差しが、プロトタイプモデルやクリエイティブなインスピレーションボード、ユニークな卓上観葉植物が並ぶワークスペースを明るく照らします。コーヒーカップや食べかけのスナックが、彼らの活気的なミーティングの様子を物語っています。プロフェッショナルさとクリエイティブなエネルギーが絶妙に調和した雰囲気の中、チームは革新的なコンセプトに一丸となって取り組んでいます。フォトリアリスティックで温かみのある照明、自然な表情が特徴的です。

A comparison of five different image models' ability to follow a complex prompt.

この比較の結果は明確でした。

Imagen 4 Ultraは、ロフトの環境、日差しと温かみのある照明、プロトタイプモデル、そして「プロフェッショナルでありながら創造性に溢れる」雰囲気など、プロンプトのほぼすべての詳細を見事に再現しました。

さらに、他のモデルでは顔の整合性に欠ける出力結果となった中、このモデルではもっとも優れたフォトリアリズムを実現しました。

テキストレンダリング

次のテストでは、画像モデルにとって長年の課題である「複雑なテキストの正確なレンダリング」を測りました。

モデルに入力したプロンプトは次のとおりです。

鮮やかな青色のインフォグラフィックに、「コーストFIREを算出するための5つのステップ」というタイトルが大きな白い太字で上部に表示されています。5つの番号が付いたステップがグリッド状に配置され、ステップ5が下部に表示されるレイアウトになっています。各ステップには、青い数字（1～5）が入った白い円と、それぞれのアイコンが添えられています。ステップ1：お金の袋のアイコン、「退職金口座の合計額を計算：401K、403B、IRAなど」のテキスト。ステップ2：電卓とグラフのアイコン、「複利計算機を使用：退職までの年数分、5～7%で計算」のテキスト。ステップ3：ドル記号付き電卓のアイコン、「4%ルールを使って年間どのくらいのお金で生活できるかを確認：例）$1,500,000 × 4% = $60,000/年」のテキスト。ステップ4：ビーチパラソルと椅子のアイコン、「無理のない年間生活費を計算：80を掛ける%-100%」のテキスト。ステップ5：お札の山のアイコン、「予想される退職後の収入が現在の年間生活費を上回っている場合、コーストFIRE達成！」のテキスト。

A comparison of five image models' ability to render complex text.

このテストでは、Imagen、GPT、Fluxの3つが同点と判断しました（他の2つのモデルは、これらのモデルに大きく遅れをとっていました）。この3つのモデルはすべて、必要なフォーマットを正しく解釈していました。

タイトルが大きな太字で上部に配置されています。
5つの異なるステップが、青い円の中に白い数字（1〜5）で明確に番号付けされています。
グリッドスタイルのレイアウトで、ステップ5が下部に表示されるか、最後のステップとして視覚的に強調されています。

これらのモデルはプロンプトを正確に解析しただけでなく、インフォグラフィックカテゴリで求められる、視覚的な階層構造と整理された明瞭さにも従っていました。

アイコンは各ステップに対応する形で一貫して使用されており、それぞれのインフォグラフィックは、装飾要素、そして情報コンテンツとしてビジュアルのバランスが取れていました。

一方で、どの出力結果にも誤字は見られ、入力したすべてのテキストを含めることができたモデルはありませんでした。（数式のフォーマットもGPTやFluxにとっては課題となりました。）しかし、いずれのモデルにおいても、テキストの大部分は読みやすく、意図したメッセージとほぼ一致していました。

フォトリアリズム

次に、非常に高い視覚的忠実度が求められる「フォトリアリズム」を実現できるかどうかモデルを評価しました。

使用したプロンプトは次のとおりです。

虹彩異色症を持つ35歳の女性の超現実的なクローズアップ写真。左目は緑色、右目はヘーゼル色。太陽の光が差し込むカフェに座っており、85mmレンズ・f/1.4の絞りで撮影。自然な肌のテクスチャーには鼻筋にかすかなそばかすが見え、一本一本のまつ毛が、雨で濡れた窓越しに差し込む夕陽を受けて輝いています。ピントは正確に彼女の瞳に合っており、瞳の中にはカメラマンと撮影機材の反射が映り込んでいます。

A comparison of five image models' ability to render photorealistic images.

やや不自然な構図や右上の不要な反射があったものの、このテストでもImagen 4が明らかに際立っていました。

ビジュアルの忠実度という点では、虹彩異色症、ガラスの反射、そばかす、被写界深度、さらにはカメラレンズ効果まで、Imagenだけがすべての要素をしっかりと表現していました。

たとえば、Imagenでは、緑色とヘーゼル色の目のコントラストを正確に描写しており、左目が右目よりも明らかに緑がかっていました。Flux、GPT、Recraftでは、いずれも目の色が均一になっていました。

他の比較では、Imagenはグループ写真において優れており、複数人の顔の鮮明さを保つことができていました。

「〜しないでください」という指示

また、従来の課題である「〜しないでください」という指示にどれだけ各モデルが従えるかも比較しました。

使用したプロンプトは次のとおりです。

赤と白のストライプが鮮やかな大きなトップテント、回転するカラフルなメリーゴーランド、空中で動きを止めたジャグリングボール、高いポールの間に張られた虹色の綱、ポップコーンの箱や綿あめの屋台が点在する、活気あふれるサーカスの子ども向け絵本のイラスト。鮮やかな原色、やわらかな丸みを帯びた形、浮かぶ風船や回る風車、テントの周りを走る小さなおもちゃの列車など、遊び心あふれるディテールが描かれています。動物や人間、人物は一切登場させないでください。

A comparison of five image models' ability to follow "do not" instructions in a prompt.

このテストでもっとも優れていたのは、Recraftでした。

「〜しないでください」という指示にもっとも忠実に従っており、擬人化や人間の描写を徹底的に避けていました。GPTは、ジャグリングをする人物を含んでおり、Ideogramは、空中で曲芸をする人物を描写していました。

さらに細やかな点でも優れていました。Imagen、Flux、GPTはいずれもメリーゴーランドの馬を描いており、これは「動物禁止」の指示に反しています。Recraftでは、メリーゴーランド自体を完全に避け、慎重さを優先しつつも楽しさをしっかり表現しています。

図とフローチャート

最後に、モデルが複雑な図やフローチャートを描画できるかどうかをテストしました。使用したプロンプトは次のとおりです。

SaaS製品のローンチプロセスを示す明確なフローチャート図。長方形のボックスが矢印でつながれ、「市場調査」から始まり、「MVP開発」、「ベータテスト」、「マーケティングキャンペーン」、「製品ローンチ」を経て、「ローンチ後分析」で終わります。ティールとラベンダーのカラーパレットを使用し、ラベルを明確にしてください。主要な承認ポイントには意思決定を表すダイヤモンド型を配置し、それぞれの主要マイルストーンの下には、3～6か月間のフェーズを示すタイムライン指標を加えてください。

A comparison of five image models' ability to render diagrams and flowcharts.

この比較においては、GPTがもっとも優れていました。

それぞれのモデルが独自の視覚表現を生成しましたが、プロンプトのすべての重要な指示を守りつつ、一貫性があり読みやすく、視覚的に伝わるフローチャートを作成できたのは、GPTだけでした。

GPTのフローは明確で途切れがなく、一貫した矢印の使用によって曖昧さや誤解を防いでいました（Fluxのような繰り返しやループするノードは含まれていませんでした）。

また、アイコンとテキストのバランスが良く、イラストがメッセージを適切に補完していました。

いくつかの誤字脱字はあるものの、GPTのテキストは十分に読みやすく、意味的にも正確でした。

要点

AI画像生成モデルは、ただ進化を遂げているだけでなく、専門化も進んでいます。それぞれのモデルが得意分野を持つようになってきており、どのモデルが適切かは、達成したいことによって完全に異なります。

Gammaの比較においては、Image 4 Ultraはフォトリアリズムに優れ、GPTは構造化された図表で際立ち、Recraftは「〜しないでください」の指示にもっとも従う結果となりました。このような専門性の分化は、成長を続ける技術の自然な進化です。

6か月前、Gamma（そしてユーザー）は、AI画像生成の限界と向き合っていましたが、今ではその強みを活かす方法を模索しています。これは、はるかに良い状況と言えます。

モデルは急速に進化しており、Gammaではその変化をリアルタイムで実感しています。今後数週間でこれらの結果を再検討する予定です。その結果、ランキングにも当然ながら変化が生じてくるでしょう。

AI画像生成の現状：10億枚以上の画像から学べること

モデルごとの比較

プロンプトの遵守

テキストレンダリング

フォトリアリズム

「〜しないでください」という指示

図とフローチャート

要点

良いアイデアを世界に届ける方法

製品

会社

ソーシャル

法的情報

アプリをダウンロード