소개가격
로그인무료로 시작하기

전체 게시물

  • 사고 리더십

2025년 7월 22일

AI 이미지 생성의 현황: 10억 개 이상의 이미지에서 배우기

AI 이미지 생성의 현황: 10억 개 이상의 이미지에서 배우기

10억 개 이상의 이미지를 생성하고, 하루에 최대 500만 개에 달하는 이미지를 만들어내기도 한 Gamma의 AI 팀은 어떤 AI 모델이 실제로 성과를 내는지, 그리고 아직 부족한 점이 무엇인지에 대해 많은 것을 배웠습니다.

일부 주요 결과:

  • 전체 이미지 품질이 전문적인 수준에 도달했습니다.

    전반적으로 이미지 프롬프트 일치도, 포토리얼리즘, 텍스트 렌더링 품질에서 큰 발전이 이루어져 새로운 기준을 제시하며, 이전 세대와 비교했을 때 과거 모델들이 아마추어처럼 보이게 만듭니다.

  • 텍스트 렌더링이 크게 향상되었습니다.

    예전에는 글자가 깨져 보였던 모델들이 이제는 픽셀 단위로 완벽한 간판, 포스터, 브랜드 자료를 생성할 수도 있습니다.

  • 원치 않는 텍스트 생성이 지속적인 문제로 떠오르고 있습니다. 텍스트 렌더링에 뛰어난 모델들이 요청을 받으면 프롬프트에서 텍스트 콘텐츠를 명시적으로 언급하는 것을 피하더라도 원하지 않는 텍스트 요소를 추가하는 경우가 있습니다.

지난 1년 동안 Gamma의 사용자들은 플랫폼을 통해 10억 개가 넘는 이미지를 생성했습니다. 하루에 최대 500만 번의 생성이 이루어진 날도 있었습니다. 이건 단순한 이정표가 아니라, AI 이미지 모델이 실제 환경에서 얼마나 잘 작동하는지 정확히 보여주는 방대한 데이터세트입니다.

Gamma는 사용자의 특정 이미지 생성 요구에 따라 모델을 선택할 자유를 사용자에게 제공하거나 적절한 기본값을 설정해 주기 때문에, 모델을 비교할 수 있는 독보적인 위치에 있습니다.

그리고 해당 데이터가 보여주는 것은 다음과 같습니다. 바로 AI 이미지 생성 분야가 빠른 속도로 가속화되고 있다는 것입니다. 불과 몇 달 전만 해도 기본적인 텍스트 렌더링에 어려움을 겪던 모델들이 이제는 전문가 수준의 마케팅 자료를 만들어내고 있습니다. 하지만 빠른 발전과 함께 예측 가능한 도전 과제들도 따라오며, 몇몇 오래된 문제들은 발전에도 불구하고 여전히 남아 있습니다.

모델별 비교

수백만 건의 사용자 상호작용과 피드백을 분석한 결과, 주요 모델인 Imagen 4 Ultra, Flux Kontext Max, GPT Image, Recraft v3, Ideogram 3.0이 가장 일반적인 사용자 피드백 카테고리에서 어떻게 비교되는지 정리했습니다.

(참고: Gamma 제품 내에서 이용 가능한 각 모델의 가장 프리미엄인 버전을 사용했습니다. 각 프롬프트마다 모델별로 이미지를 3개씩 생성하고, 그중 가장 좋은 것을 선택했습니다.)

프롬프트 준수

첫 번째 비교에서는 모델들이 복잡한 프롬프트를 어떻게 해석하는지 측정했습니다. 이 경우, 저는 다음과 같이 요청했습니다.

네 명의 다양한 젊은 전문가 팀이 개조된 로프트 공간에서 다채로운 프로젝트 보드 주변에 모여 브레인스토밍을 합니다. 팀 리더는 소매를 걷고 밝은 노란색 스니커즈를 신은 채 혁신적인 스케치를 가리키고 있으며, 한 동료는 팀의 비전을 담은 보드에 포스트잇을 추가하고 있습니다. 산업적인 스타일의 창문을 통해 햇살이 쏟아져 들어오며, 프로토타입 모델, 창의적인 영감 보드, 몇 가지 개성 있는 책상 식물들로 가득한 작업 공간을 비춥니다. 커피잔과 반쯤 먹다 남은 간식들이 에너지 넘치는 회의라는 것을 보여줍니다. 전문성과 창의적인 에너지가 조화를 이루는 분위기 속에서, 이들은 획기적인 아이디어를 함께 만들어가고 있습니다. 포토리얼리즘, 따뜻한 조명, 자연스러운 표정.

A comparison of five different image models' ability to follow a complex prompt.

이 경우에는 확실한 승자가 있었습니다.

Imagen 4 Ultra는 프롬프트의 거의 모든 디테일을 완벽하게 구현합니다. 로프트 배경, 햇빛과 따뜻한 조명, 프로토타입 모델, 그리고 "창의적 힘을 지닌 전문성" 분위기까지 모두 담아냅니다.

또한 다른 모델들이 얼굴의 완성도가 떨어지는 결과물을 내는 반면, 이 모델은 최고의 포토리얼리즘을 제공했습니다.

텍스트 렌더링

다음 테스트에서는 이미지 모델의 오랜 도전 과제인 "복잡한 텍스트의 정확한 렌더링"에 도전했습니다.

모델에 다음 프롬프트를 제공했습니다.

밝은 파란색 인포그래픽에 흰색 텍스트로 "COAST FIRE 계산을 위한 5단계"라는 제목이 상단에 크고 굵게 적혀 있습니다. 레이아웃은 5개의 번호가 매겨진 단계별 그리드로 구성되어 있으며, 5단계는 하단 전체를 차지합니다. 각 단계에는 파란색 숫자(1~5)가 들어간 흰색 원과 해당 아이콘이 있습니다. 1단계: 돈 자루 아이콘, 텍스트 "은퇴 계좌 합산하기: 401K, 403B, IRA 등". 2단계: 계산기와 차트 아이콘, 텍스트 "복리 계산기 사용하기: 은퇴까지 남은 연수에 5~7% 적용". 3단계: 달러 기호가 있는 계산기 아이콘, 텍스트 "4% 룰을 사용하여 연간 생활 가능 금액 확인하기: 예시 $1,500,000X4%=$60,000/년". 4단계: 해변 파라솔과 의자 아이콘, 텍스트 "편안한 연간 생활비 계산하기: 80%-100% 곱하기". 5단계: 돈뭉치 아이콘, 텍스트 "예상 은퇴 소득이 현재 연간 생활비를 초과한다면, COAST FIRE를 달성한 것입니다!".

A comparison of five image models' ability to render complex text.

여기서 Gamma는 Imagen, GPT, Flux가 동점이라고 판단했습니다. (나머지 두 모델은 이 선두 그룹에 한참 뒤처졌습니다.) 세 모델 모두 요구된 포맷을 성공적으로 해석했습니다.

  • 제목을 상단에 크고 굵은 텍스트로 배치합니다.

  • 다섯 가지의 별개 단계로, 파란색 원 안에 흰색 숫자로 명확하게 번호(1~5)가 매겨져 있습니다.

  • 그리드 스타일 레이아웃으로, 5단계가 하단 전체를 가로지르거나 시각적으로 마지막 단계로 고정되어 있습니다.

이 모델들은 프롬프트를 정확하게 분석했을 뿐만 아니라, 인포그래픽 카테고리에서 요구되는 시각적 계층 구조와 조직적 명확성도 잘 지켰습니다.

아이콘은 각 단계별에 맞게 일관되게 사용되었으며, 각 인포그래픽은 장식 요소와 정보 콘텐츠 간의 시각적 균형을 이루었습니다.

그렇다고 해도, 이 결과물들 중 어느 것도 오타가 없지는 않았으며, 제공된 전체 텍스트를 모두 포함하지도 못했습니다. (수학 포맷팅도 GPT와 Flux 모두에게 도전 과제였습니다.) 하지만 세 경우 모두, 텍스트의 대부분은 읽을 수 있었으며, 의도된 메시지와도 거의 일치했습니다.

포토리얼리즘

다음으로, 모델들에게 매우 정밀한 시각적 충실도가 요구되는 포토리얼리즘을 구현할 수 있는 능력을 평가하도록 요청했습니다.

다음 프롬프트를 사용했습니다.

왼쪽 눈은 녹색, 오른쪽 눈은 헤이즐 색인 오드아이를 가진 35세 여성이 햇살이 비치는 카페에 앉아 있는 초현실적인 클로즈업 사진(85mm 렌즈, f/1.4 조리개로 촬영됨). 자연스러운 피부 질감에는 콧등을 따라 은은하게 주근깨가 보이며, 그녀의 뒤에 빗방울이 맺힌 창문을 통해 들어오는 골든아워의 빛이 각각의 속눈썹을 비춥니다. 초점은 정확히 그녀의 눈에 맞춰져 있어서 동공 속에 사진작가와 카메라 장비가 반사되어 보입니다.

A comparison of five image models' ability to render photorealistic images.

다시 한번, 약간 어색한 구도와 오른쪽 상단의 불필요한 반사가 있음에도 불구하고 Imagen 4가 단연 돋보였습니다.

오드아이, 유리 반사, 주근깨, 피사계 심도, 심지어 카메라 렌즈 효과까지 시각적 충실도 측면에서 Imagen만이 이러한 모든 요소를 완벽하게 구현해냈습니다.

예를 들어, Imagen은 왼쪽 눈 색깔이 확연히 더 초록빛인 녹색과 헤이즐 눈동자의 대비를 정확하게 묘사할 수 있었습니다. Flux, GPT, Recraft는 모든 눈 색깔이 균일하게 표현되도록 기본 설정되었습니다.

다른 비교에서는 Imagen이 그룹 이미지에서 뛰어난 성능을 보였으며, 여러 사람의 얼굴을 모두 선명하게 유지할 수 있었습니다.

"하지 말 것" 지침

또한 모델들의 "하지 말 것" 지침을 따를 수 있는 능력도 비교했는데, 이는 그동안 어려운 도전 과제였습니다.

다음 프롬프트를 사용했습니다.

아이들을 위한 책 일러스트로, 빨간색과 흰색 줄무늬의 대형 서커스 텐트, 돌고 있는 알록달록한 회전목마, 공중에 멈춰 있는 저글링 공들, 높은 기둥 사이에 팽팽히 묶여 있는 무지개 줄무늬의 줄타기 줄, 여기저기 흩어진 팝콘 상자와 솜사탕 가판대가 있는 활기찬 서커스 장면입니다. 밝은 원색, 부드럽고 둥근 형태, 그리고 공중에 떠 있는 풍선, 돌아가는 바람개비, 텐트 주위를 도는 작은 장난감 기차 같은 기발한 디테일이 더해집니다. 이 장면에는 동물, 사람, 또는 인간 형상이 전혀 포함되지 않아야 합니다.

A comparison of five image models' ability to follow "do not" instructions in a prompt.

이 경우, Recraft가 승자였습니다.

가장 충실하게 "하지 말 것" 지침을 따랐습니다. 예를 들어, GPT가 저글링하는 사람을 포함시키고 Ideogram이 공중에서 곡예를 하는 사람들을 보여준 반면, 이 모델은 의인화된 형태와 인간 형상은 모두 철저히 피했습니다.

더 미묘한 부분에서도 뛰어났습니다. Imagen, Flux, GPT는 모두 회전목마의 말을 묘사했는데, 이는 "동물 금지" 조항을 위반한 것입니다. Recraft는 아예 회전목마 자체를 생략하여 신중함을 택하면서도 여전히 재미를 잘 담아냈습니다.

다이어그램 및 순서도

마지막으로, 모델들의 복잡한 다이어그램 및 순서도를 렌더링할 수 있는 능력을 테스트했습니다. 다음 프롬프트를 사용했습니다.

SaaS 제품 출시 과정을 보여주는 깔끔한 순서도 다이어그램입니다. 직사각형 상자가 화살표로 연결되어 있으며, "시장 조사"에서 시작하여 "MVP 개발", "베타 테스트", "마케팅 캠페인", "제품 출시"를 거쳐 "출시 후 분석"으로 마무리됩니다. 명확한 라벨이 있는 청록색과 라벤더 색상 조합, 핵심 승인 게이트에는 결정 다이아몬드, 각 주요 이정표 아래에는 3~6개월의 단계를 보여주는 타임라인 표시기를 사용합니다.

A comparison of five image models' ability to render diagrams and flowcharts.

이 경우, GPT가 1위를 차지했습니다.

각 모델이 고유한 시각적 해석을 보여주었지만, GPT만이 프롬프트의 모든 핵심 지침을 반영한 일관성 있고 읽기 쉬우며 시각적으로 소통이 가능한 순서도를 제공했습니다.

GPT의 흐름은 명확하고 끊김이 없으며, 일관된 화살표 사용으로 혼동이나 오해의 소지가 없습니다(반면 Flux는 반복되거나 순환하는 노드가 포함되어 있습니다).

또한 아이콘과 텍스트의 균형이 깔끔하게 맞춰져 있으며, 일러스트가 메시지를 적절하게 뒷받침합니다.

몇 가지 오타가 있음에도 불구하고, GPT의 텍스트를 완전히 읽을 수 있고 의미적으로도 정확합니다.

결론

AI 이미지 생성 모델은 단순히 발전하는 것에 그치지 않고, 점점 더 전문화되고 있습니다. 각 모델마다 강점이 다르기 때문에, 올바른 선택은 전적으로 자신이 이루고자 하는 목표에 달려 있습니다.

저희의 사용 경험에 따르면, Image 4 Ultra는 포토리얼리즘에 뛰어나고, GPT는 구조화된 다이어그램에 강점을 보이며, Recraft는 "하지 말 것" 환경설정을 가장 잘 따랐습니다. 이러한 전문화는 성숙해져가는 기술의 자연스러운 진화를 보여줍니다.

6개월 전만 해도, Gamma(그리고 사용자들)는 AI 이미지 생성의 한계 사항을 관리하고 있었습니다. 이제는 그 강점을 활용하고 있습니다. 훨씬 나은 고민입니다.

모델은 빠르게 진화하고 있으며, Gamma에서는 이러한 변화를 실시간으로 확인하고 있습니다. 앞으로 몇 주 내에 이 결과를 다시 살펴볼 예정이며, 순위표에도 불가피한 변화가 있을 것입니다.

좋은 아이디어가 세상에 나오는 방법

무료로 시작하기
Footer Logo Gradient

제품

  • 가격
  • 영감
  • 교육
  • 프롬프트 가이드
  • 인사이트
  • 템플릿
  • 둘러보기
  • 연동
  • 접근성

© 2026 Gamma Tech, Inc.