โพสต์ทั้งหมด

Thought Leadership

July 22nd, 2025

สถานะการสร้างภาพ AI: การเรียนรู้จากภาพมากกว่าพันล้านภาพ

หลังจากสร้างภาพได้มากกว่าหนึ่งพันล้านภาพและแตะระดับ 5 ล้านภาพต่อวันในช่วงที่มีการใช้งานสูงสุด ทีม AI ของ Gamma ได้เรียนรู้มากมายเกี่ยวกับโมเดล AI ที่มีประสิทธิภาพจริง และจุดที่ยังมีข้อบกพร่อง

ผลการค้นพบระดับสูงสุดบางประการ:

คุณภาพภาพโดยรวมได้มาตรฐานระดับมืออาชีพ
เมื่อมองโดยรวม เราจะเห็นความก้าวหน้าที่สำคัญในการจัดตำแหน่งตามภาพ ความสมจริงของภาพ และคุณภาพการแสดงผลข้อความ ซึ่งสร้างมาตรฐานใหม่ที่ทำให้รุ่นก่อนๆ ดูไม่เป็นมือใหม่เมื่อเปรียบเทียบกัน
การแสดงผลข้อความได้รับการปรับปรุงดีขึ้นอย่างมาก
โมเดลที่เคยสร้างตัวอักษรที่ไม่ชัดเจน มักจะสามารถสร้างป้าย โปสเตอร์ และวัสดุที่มีตราสินค้าได้อย่างสมบูรณ์แบบ
การสร้างข้อความที่ไม่ได้ร้องขอกลายเป็นปัญหาเรื้อรัง โมเดลที่เก่งในการแสดงข้อความเมื่อมีการร้องขอ บางครั้งกลับเพิ่มองค์ประกอบข้อความที่ไม่ต้องการ แม้ว่าคำเตือนจะหลีกเลี่ยงการกล่าวถึงเนื้อหาข้อความใดๆ อย่างชัดเจนก็ตาม

ในปีที่ผ่านมา Gamma ผู้ใช้ของเราได้สร้างภาพมากกว่าหนึ่งพันล้านภาพผ่านแพลตฟอร์มของเรา โดยมีวันที่มีการใช้งานสูงสุดแตะ 5 ล้านครั้ง นั่นไม่ใช่แค่เหตุการณ์สำคัญ แต่เป็นชุดข้อมูลขนาดใหญ่ที่เผยให้เห็นว่าแบบจำลองภาพ AI มีประสิทธิภาพดีเพียงใดในโลกแห่งความเป็นจริง

Gamma มีตำแหน่งที่เป็นเอกลักษณ์ในการเปรียบเทียบโมเดลต่างๆ เนื่องจากเราให้ผู้ใช้มีอิสระในการเลือกระหว่างโมเดลต่างๆ (หรือเราตั้งค่าเริ่มต้นที่ถูกต้องให้กับพวกเขา) ตามความต้องการในการสร้างภาพที่เฉพาะเจาะจงของพวกเขา

และนี่คือสิ่งที่ข้อมูลนั้นแสดงให้เห็น: พื้นที่การสร้างภาพด้วย AI กำลังเติบโตอย่างรวดเร็ว โมเดลที่ประสบปัญหาในการเรนเดอร์ข้อความพื้นฐานเมื่อไม่กี่เดือนก่อน กำลังสร้างสื่อการตลาดระดับมืออาชีพ แต่ด้วยความก้าวหน้าอย่างรวดเร็ว ย่อมมาพร้อมกับความท้าทายที่คาดเดาได้ และปัญหาเดิมๆ บางอย่างก็ยังคงมีอยู่ แม้จะมีความก้าวหน้าเกิดขึ้นก็ตาม

การเปรียบเทียบแบบโมเดลต่อโมเดล

จากการวิเคราะห์การโต้ตอบและข้อเสนอแนะของผู้ใช้นับล้านราย เราพบว่าโมเดลชั้นนำ ได้แก่ Imagen 4 Ultra, Flux Kontext Max, GPT Image, Recraft v3 และ Ideogram 3.0 จัดอันดับอยู่ในหมวดหมู่ข้อเสนอแนะของผู้ใช้ที่พบบ่อยที่สุดของเรา

(หมายเหตุ: เราใช้เวอร์ชันพรีเมียมที่สุดของแต่ละโมเดลที่มีอยู่ในผลิตภัณฑ์ Gamma เราสร้างรูปภาพ 3 รูปต่อโมเดลสำหรับแต่ละพรอมต์และเลือกรูปที่ดีที่สุด)

การปฏิบัติตามอย่างรวดเร็ว

สำหรับการเปรียบเทียบครั้งแรก เราได้วัดว่าโมเดลตีความพรอมต์ที่ซับซ้อนอย่างไร ในกรณีนี้ ผมขอถามดังนี้:

ทีมผู้เชี่ยวชาญรุ่นใหม่สี่คนจากหลากหลายวงการระดมความคิดกันอย่างขะมักเขม้นบนกระดานโปรเจกต์สีสันสดใสในพื้นที่ลอฟต์ที่ถูกดัดแปลง หัวหน้าทีมสวมแขนเสื้อพับและรองเท้าผ้าใบสีเหลืองสดใส ชี้ไปที่ภาพร่างที่สร้างสรรค์ ขณะที่เพื่อนร่วมงานกำลังติดโน้ตแปะลงบนวิสัยทัศน์ร่วมกัน แสงแดดสาดส่องผ่านหน้าต่างสไตล์อินดัสเทรียล ส่องสว่างพื้นที่ทำงานของพวกเขาที่เต็มไปด้วยโมเดลต้นแบบ กระดานแรงบันดาลใจสร้างสรรค์ และต้นไม้ประดับโต๊ะทำงานแปลกตา ถ้วยกาแฟและขนมที่กินไปครึ่งหนึ่งบ่งบอกถึงช่วงเวลาทำงานที่เปี่ยมพลัง บรรยากาศผสานความเป็นมืออาชีพเข้ากับพลังสร้างสรรค์ ขณะที่พวกเขาร่วมกันสร้างสรรค์แนวคิดที่ก้าวล้ำ แสงไฟที่เหมือนจริง อบอุ่น และการแสดงออกที่เป็นธรรมชาติ

A comparison of five different image models' ability to follow a complex prompt.

ในกรณีนี้เรามีผู้ชนะที่ชัดเจน

Imagen 4 Ultra โดดเด่นแทบทุกรายละเอียดในข้อความ ไม่ว่าจะเป็นฉากในห้องใต้หลังคา แสงแดดและแสงไฟอันอบอุ่น โมเดลต้นแบบ และบรรยากาศของ "ความเป็นมืออาชีพพร้อมความคิดสร้างสรรค์"

นอกจากนี้ ยังถ่ายทอดภาพที่มีความสมจริงดีที่สุดเมื่อเทียบกับรุ่นอื่นๆ ซึ่งทำให้ภาพมีความสมบูรณ์ของใบหน้าไม่ดี

การเรนเดอร์ข้อความ

การทดสอบครั้งต่อไปของเราถือเป็นความท้าทายที่ยาวนานสำหรับโมเดลภาพ: การแสดงผลข้อความที่ซับซ้อนอย่างแม่นยำ

เราป้อนคำสั่งต่อไปนี้ให้กับโมเดล:

อินโฟกราฟิกสีฟ้าสดใสพร้อมข้อความสีขาวชื่อ "5 ขั้นตอนในการคำนวณไฟป่าชายฝั่ง" ตัวหนาขนาดใหญ่ที่ด้านบน เค้าโครงแสดง 5 ขั้นตอนพร้อมหมายเลขกำกับในตาราง โดยขั้นตอนที่ 5 อยู่ด้านล่าง แต่ละขั้นตอนมีวงกลมสีขาวพร้อมตัวเลขสีน้ำเงิน (1-5) และไอคอนประกอบ ขั้นตอนที่ 1: ไอคอนถุงเงิน พร้อมข้อความ "บวกบัญชีเกษียณอายุของคุณ: 401K, 403B, IRA, ฯลฯ" ขั้นตอนที่ 2: ไอคอนเครื่องคิดเลขและแผนภูมิ พร้อมข้อความ "ใช้เครื่องคำนวณดอกเบี้ยทบต้น: 5-7% จนกว่าจะเกษียณอายุ" ขั้นตอนที่ 3: ไอคอนเครื่องคิดเลขพร้อมสัญลักษณ์ดอลลาร์ พร้อมข้อความ "ใช้กฎ 4% เพื่อดูว่าคุณสามารถใช้ชีวิตได้เท่าไรต่อปี เช่น 1,500,000 ดอลลาร์ x 4% = 60,000 ดอลลาร์ต่อปี" ขั้นตอนที่ 4: ไอคอนร่มชายหาดและเก้าอี้ พร้อมข้อความ "คำนวณค่าครองชีพประจำปีที่สุขสบายของคุณ: คูณด้วย 80 %-100% " ขั้นตอนที่ 5: ไอคอนกองเงิน พร้อมข้อความ "หากรายได้หลังเกษียณที่คาดการณ์ไว้ของคุณสูงกว่าค่าครองชีพประจำปีปัจจุบัน คุณประสบเหตุไฟไหม้ชายฝั่ง!"

A comparison of five image models' ability to render complex text.

ที่นี่ เราจะตัดสินผลเสมอกันระหว่าง Imagen, GPT และ Flux (โมเดลอีกสองโมเดลตามหลังคู่แข่งอยู่ไกลมาก) โมเดลทั้งสามสามารถตีความรูปแบบที่ต้องการได้สำเร็จ:

ตำแหน่ง ชื่อเรื่อง อยู่ด้านบนเป็นข้อความตัวหนาขนาดใหญ่
ห้าขั้นตอนที่แตกต่างกัน มีการกำหนดหมายเลขอย่างชัดเจน (1 ถึง 5) โดยใช้ตัวเลขสีขาวในวงกลมสีน้ำเงิน
เค้าโครงสไตล์กริด โดยมีขั้นตอนที่ 5 ขยายไปด้านล่างหรือยึดด้วยสายตาเป็นขั้นตอนสุดท้าย

โมเดลเหล่านี้ไม่เพียงแต่วิเคราะห์คำกระตุ้นอย่างแม่นยำเท่านั้น แต่ยังยึดตาม ลำดับชั้นภาพและความชัดเจนในการจัดระเบียบ ตามที่หมวดหมู่อินโฟกราฟิกต้องการอีกด้วย

ไอคอนถูกใช้ในลักษณะที่สอดคล้องกันซึ่งสอดคล้องกับแต่ละขั้นตอน และอินโฟกราฟิกแต่ละอันก็มีความสมดุลทางภาพระหว่างองค์ประกอบตกแต่งและเนื้อหาที่ให้ข้อมูล

กล่าวได้ว่าผลลัพธ์เหล่านี้ไม่มีการพิมพ์ผิด และไม่มีผลลัพธ์ใดที่สามารถรวมข้อความทั้งหมดที่เราให้ไว้ได้ (การจัดรูปแบบทางคณิตศาสตร์ยังเป็นความท้าทายสำหรับ GPT และ Flux) แต่ในทั้งสามกรณี ข้อความส่วนใหญ่สามารถอ่านได้และสอดคล้องอย่างใกล้ชิดกับข้อความที่ต้องการ

ความสมจริงของภาพถ่าย

จากนั้น เราขอให้โมเดลประเมินความสามารถในการแสดงภาพที่สมจริง ซึ่งต้องใช้ความเที่ยงตรงของภาพที่ดีเยี่ยม

เราใช้คำเตือนดังต่อไปนี้:

ภาพถ่ายระยะใกล้ที่สมจริงอย่างยิ่งของหญิงวัย 35 ปี ผู้มีภาวะตาสองสี ตาซ้ายสีเขียว ตาขวาสีน้ำตาลแดง กำลังนั่งอยู่ในร้านกาแฟที่แดดส่อง ถ่ายด้วยเลนส์ 85 มม. ที่รูรับแสง f/1.4 ผิวที่เป็นธรรมชาติเผยให้เห็นฝ้ากระจางๆ บนสันจมูก ขนตาแต่ละเส้นรับแสงสีทองอร่ามผ่านหน้าต่างที่เปียกฝนด้านหลัง โฟกัสที่ดวงตาของเธออย่างแม่นยำ ซึ่งคุณสามารถเห็นเงาสะท้อนของช่างภาพและอุปกรณ์กล้องในรูม่านตาของเธอ

A comparison of five image models' ability to render photorealistic images.

Imagen 4 ทำให้เราเห็นว่าเป็นภาพที่โดดเด่นชัดเจน แม้จะมีองค์ประกอบที่แปลกเล็กน้อยและการสะท้อนที่ไม่จำเป็นที่มุมขวาบนก็ตาม

หากพิจารณาถึงความเที่ยงตรงของภาพ ไม่ว่าจะเป็นสีที่ต่างกัน การสะท้อนของกระจก ฝ้า ระยะชัดลึก และแม้แต่เอฟเฟกต์เลนส์กล้อง Imagen ถือเป็นรุ่นเดียวเท่านั้นที่สามารถถ่ายทอดองค์ประกอบเหล่านี้ได้อย่างน่าเชื่อถือ ทั้งหมด

ยกตัวอย่างเช่น Imagen สามารถแสดงความแตกต่างระหว่างดวงตาสีเขียวและสีน้ำตาลแดงได้อย่างแม่นยำ โดยดวงตาข้างซ้ายมีสีเขียวกว่าอย่างเห็นได้ชัด Flux, GPT และ Recraft ล้วนตั้งค่าเริ่มต้นเป็นดวงตาที่มีสีเดียวกัน

จากการเปรียบเทียบอื่นๆ เราพบว่า Imagen โดดเด่นในเรื่องภาพถ่ายกลุ่ม ซึ่งสามารถรักษาความชัดเจนของใบหน้าในกลุ่มคนได้

คำแนะนำ "อย่า"

นอกจากนี้ เรายังเปรียบเทียบความสามารถของโมเดลในการปฏิบัติตามคำแนะนำ "ห้าม" ซึ่งในอดีตถือเป็นความท้าทาย

เราใช้คำเตือนดังต่อไปนี้:

ภาพประกอบหนังสือเด็กเกี่ยวกับคณะละครสัตว์สีสันสดใส เต็นท์ขนาดใหญ่ลายทางสีแดงและสีขาว ม้าหมุนสีสันสดใสหมุนได้ ลูกบอลเล่นกลที่แข็งค้างอยู่กลางอากาศ เชือกเส้นเล็กลายรุ้งที่ขึงอยู่ระหว่างเสาสูง กล่องป๊อปคอร์นและแผงขายสายไหมที่กระจัดกระจาย สีสันสดใส รูปทรงโค้งมนอ่อนช้อย และรายละเอียดแปลกตา เช่น ลูกโป่งลอยน้ำ กังหันลมหมุน และรถไฟของเล่นขนาดเล็กที่หมุนวนรอบเต็นท์ ห้ามใช้สัตว์ คน หรือรูปคนใดๆ ในฉาก

A comparison of five image models' ability to follow "do not" instructions in a prompt.

ในกรณีนี้ Recraft เป็นผู้ชนะ

มันปฏิบัติตามคำแนะนำ "ห้าม" ของเราอย่างเคร่งครัดที่สุด ยกตัวอย่างเช่น มันหลีกเลี่ยงทั้งรูปร่างมนุษย์และรูปร่างมนุษย์อย่างเคร่งครัด ในขณะที่ GPT มีรูปคนกำลังเล่นกล และ Ideogram แสดงภาพนักกายกรรมกลางอากาศ

แม้แต่การจับจังหวะที่เฉียบคมก็ยังโดดเด่นกว่าด้วยซ้ำ Imagen, Flux และ GPT ล้วนวาดภาพม้าหมุน ซึ่งละเมิดข้อกำหนด "ห้ามสัตว์" ส่วน Recraft ข้ามส่วนม้าหมุนไปเลย โดยเลือกที่จะระมัดระวังไว้ก่อน แต่ยังคงรักษาความสนุกเอาไว้ได้

แผนภาพและผังงาน

สุดท้าย เราได้ทดสอบความสามารถของแบบจำลองในการแสดงไดอะแกรมและผังงานที่ซับซ้อน โดยใช้คำสั่งต่อไปนี้:

แผนภาพผังงานที่ชัดเจนแสดงขั้นตอนการเปิดตัวผลิตภัณฑ์ SaaS พร้อมกล่องสี่เหลี่ยมเชื่อมต่อกันด้วยลูกศร เริ่มจาก "การวิจัยตลาด" ไปจนถึง "การพัฒนา MVP" "การทดสอบเบต้า" "แคมเปญการตลาด" "การเปิดตัวผลิตภัณฑ์" และสิ้นสุดที่ "การวิเคราะห์หลังการเปิดตัว" ใช้โทนสีน้ำเงินอมเขียวและลาเวนเดอร์ พร้อมป้ายกำกับที่ชัดเจน เครื่องหมายเพชรสำหรับการตัดสินใจสำหรับเกณฑ์การอนุมัติหลัก และตัวบ่งชี้ระยะเวลาที่แสดงช่วงเวลา 3-6 เดือนใต้แต่ละเหตุการณ์สำคัญ

A comparison of five image models' ability to render diagrams and flowcharts.

ในกรณีนี้ GPT ได้รับรางวัลทองคำ

แม้ว่าโมเดลแต่ละแบบจะมีการตีความภาพที่เป็นเอกลักษณ์ แต่ GPT เป็นเพียงโมเดลเดียวเท่านั้นที่สามารถส่งมอบผังงานที่เชื่อมโยง อ่านได้ และสื่อสารทางภาพได้ ซึ่งปฏิบัติตามคำแนะนำสำคัญทั้งหมดจากคำแนะนำ

การไหลของ GPT มีความชัดเจนและไม่หยุดชะงัก โดยมีการใช้ลูกศรสม่ำเสมอเพื่อหลีกเลี่ยงความคลุมเครือหรือการส่งทิศทางผิด (ไม่เหมือนกับ Flux ซึ่งรวมถึงโหนดที่เกิดซ้ำหรือวนซ้ำ)

นอกจากนี้ยังสร้างสมดุลระหว่างไอคอนกับข้อความได้อย่างชัดเจน และภาพประกอบยังช่วยสนับสนุนข้อความได้อย่างเหมาะสม

และถึงแม้จะมีการพิมพ์ผิดสองสามครั้ง แต่ข้อความของ GPT ก็สามารถอ่านได้ชัดเจนและถูกต้องตามความหมาย

บรรทัดล่าง

โมเดลการสร้างภาพ AI ไม่เพียงแต่พัฒนาขึ้นเท่านั้น แต่ยังมีความเชี่ยวชาญเฉพาะด้านอีกด้วย แต่ละโมเดลกำลังค้นพบจุดแข็งของตัวเอง ซึ่งหมายความว่าการเลือกที่ถูกต้องขึ้นอยู่กับสิ่งที่คุณกำลังพยายามทำให้สำเร็จ

ในการใช้งานของเรา Image 4 Ultra โดดเด่นในด้านความสมจริงของภาพ GPT โดดเด่นด้วยไดอะแกรมที่มีโครงสร้าง และ Recraft ปฏิบัติตามการตั้งค่า "ห้าม" ได้ดีที่สุด ความเชี่ยวชาญนี้ถือเป็นวิวัฒนาการตามธรรมชาติของเทคโนโลยีที่กำลังเติบโต

หกเดือนที่แล้ว เรา (และผู้ใช้ของเรา) กำลังจัดการกับข้อจำกัดของการสร้างภาพ AI แต่ตอนนี้เรากำลังสำรวจจุดแข็ง ซึ่งถือเป็นปัญหาที่ดีกว่ามาก

โมเดลกำลังพัฒนาอย่างรวดเร็ว และที่ Gamma เรามองเห็นการเปลี่ยนแปลงแบบเรียลไทม์ เราจะกลับมาตรวจสอบผลการวิจัยเหล่านี้อีกครั้งในอีกไม่กี่สัปดาห์ข้างหน้า พร้อมกับการเปลี่ยนแปลงที่หลีกเลี่ยงไม่ได้ในตารางคะแนน

สถานะการสร้างภาพ AI: การเรียนรู้จากภาพมากกว่าพันล้านภาพ

การเปรียบเทียบแบบโมเดลต่อโมเดล

การปฏิบัติตามอย่างรวดเร็ว

การเรนเดอร์ข้อความ

ความสมจริงของภาพถ่าย

คำแนะนำ "อย่า"

แผนภาพและผังงาน

บรรทัดล่าง

ไอเดียดีๆ เข้าสู่จักรวาลได้อย่างไร

ผลิตภัณฑ์

บริษัท

ทางสังคม

ถูกกฎหมาย

ดาวน์โหลดแอป