AI 이미지/AI 기타

대표 이미지 생성형 AI 서비스 비교

하늘이푸른오늘 2025. 4. 3. 01:46

2025년 4월 3일 현재, 현재 Text to Image Model Leaderboard에 나타난 순위는 아래와 같습니다. GPT-4o가 등장한지 겨우 1주일만에 1등을 차지했고, 그 바람에 Recraft AI는 2 등으로,  Reve(Halfmoon)는 1등을 차지한지 한달도 못채우고 3등으로 밀려나고, 구글의 Imagen 3는 5등으로, BFL의 FLUX1.1은 6등이 되었네요. 그 사이로 새로 Ideogram 3.0이 끼어들었구요. 완전 엎치락 뒤치락하고 있네요.

이 시점에서 이들 서비스의 이미지 생성 품질을 비교해보려고 합니다. 물론 위의 이미지 리더보드는 수많은 사람들이 평가한 결과이기 때문에 이 결과를 뛰어넘을 수는 없겠지만, 그래도 제 나름대로의 기준으로 한번 비교해 보려고요.

테스트 방식은 아래와 같은 다섯가지 프롬프트에 대해 4장씩 생성해서 그중 좋다고 생각하는 것을 선택하고, 요구하는 내용이 올바르게 반영하지 못한 것들을 1-2점씩 감점하는 방식으로 진행했습니다. 

1. 간단하게 서술된 이미지 생성 프롬프트 : 여성의 르네상스 초상화
2. 인물 묘사 : 이집트 파라오 여왕
3. 여러가지 물체들의 구도 : 북유럽풍 실내 인테리어
4. 여러 사람이 등장하는 장면 : 탁구장의 모습
5. 텍스트 표현: 레스토랑 묘사
6. 복잡하고 긴 프롬프트: 오방색

참고로, GPT-4o와 구글의 경우에는 한글 프롬프트를 입력하여 이미지를 생성하였고, 나머지는 영어로 번역한 프롬프트를 입력하였습니다. 영어 프롬프트의 경우, 한글 프롬프트를 그냥 DeepL을 이용해서 영어로 번역하여 사용했습니다.

또한 생성한 사이트는 다음과 같습니다.

  • GPT-4o - ChatGPT 무료 계정으로 생성하였습니다. 필요하다면 약간씩 수정해서 계속 만들었습니다.
  • Reve - Reve Image 사이트에서 생성하였습니다. 기본 4장이 생성됩니다.
  • Recraft AI - Recraft AI 사이트에서 생성하였습니다. 기본 2장이 생성됩니다.
  • Ideogram 3.0 - Ideogram 사이트에서 생성하였습니다. 기본 4장이 생성됩니다.
  • Google Imagen 3 - ImageFX 사이트에서 생성하였습니다. 기본 4장이 생성됩니다.
  • Flux1.1 Pro - 그냥 제 GTX 3070에서 Flux.1 dev로 생성하였습니다. 기본 4장을 생성하였습니다. 

간단한 이미지 생성 프롬프트

먼저 간단한 프롬프트부터 시험해 보겠습니다. 요즘 이미지 생성기는 대체로 사실적인 이미지는 잘 표현하는데, 그림쪽을 잘 표현하지 못하는 경향이 있어, 함께 시험해 봤습니다.

한글 프롬프트: 스팀펑크 스타일 기차의 객실에 있는 여성의 르네상스 스타일의 그림
영어 프롬프트: Renaissance-style painting of a woman in a steampunk-style train cabin

GPT-4o

흠... 완벽합니다. 처음 생성했을 때는 이미지 종횡비를 16:9로 명시했는데도 3:2로 생성했고, 실내 장식에서 스팀펑크 스타일이 잘 안나타서 약간 보완시켰습니다. 그래도 종횡비가 계속 3:2로 유지되네요. 그것빼고는 완벽입니다. 1점 감점

Reve

스팀펑크 스타일의 기차 객실이 잘 표현되어 있습니다. 여성의 모습도 괜찮고요. 다만, painting으로 명시했는데도 사실적인 이미지가 생성되었네요. 감점 -2 입니다. 

Recraft AI

흠... 2장중에 하나를 골랐는데도 객실의 모습이 약간 잘못 표현된 것 같습니다. 그리고 여기도 그림이 아니라 사진 스타일로 만들어졌고요. 3점을 감점하겠습니다.

Ideogram 3.0

최대한 열차 객실이 표현된 것을 찾았는데, 아래가 최선이네요. 르네상스 회화스타일은 잘 표현된 듯 한데, 열차객실 표현이 미흡하고, 스팀펑크 스타일은 약간 덜 표현된듯 싶습니다. (감점 -2)

Imagen 3

괜찮기는 합니다. 객실이 너무 좌우로 커서 현실감이 좀 떨어지는 것 빼고요. 그리고 그림이라기보다는 사진스타일입니다. 감점 3점입니다.

FLUX1. dev

이 이미지에는 스팀펑크스타일이 거의 표현되지 않았습니다. 회화스타일이 아닌 건 당연한건가요. 4점 감점하겠습니다.

스팀펑크 기차, 여성, 르네상스 스타일의 그림을 그리라는 간단한 명령에 대한  최종 채점 결과는 아래와 같습니다.

GPT-4 Reve RecraftAI Ideogram 3.0 Imagen 3 Flux.1 
9 8 7 8 7 6

인물 묘사

요즘 나오는 생성형 이미지의 경우, 인체 표현에는 거의 문제가 없습니다. 하지만 참고삼아 비교해보겠습니다.

한글 프롬프트: 60대 이집트 파라오 여왕의 클로즈업 사진. 머리에는 황금관을 쓰고 있고, 화려하고 빛나는 보석 귀고리를 차고 있다. 한 손으로 턱을 받치고 있다. 온화한 미소와 잔 주름살이 그녀의 위엄을 보여준다.
영문 프롬프트: Close-up photo of an Egyptian pharaoh queen in her 60s. She wears a golden crown on her head and colorful, shining jeweled earrings. She is supporting her chin with one hand. Her gentle smile and fine wrinkles show her majesty.

GPT-4o

흠... 이집트인이 아니고 유럽인 인듯해서 아쉽네요. 감점 1점입니다.

Reve

완전히 괜찮게 나왔네요. 다른 사진들도 GPT-4o보다 중동쪽 얼굴이 더 많이 보입니다.

Recraft AI

흠... 잘 표현되었네요.

Ideogram 3.0

최대한 열차 객실이 표현된 것을 찾았는데, 아래가 최선이네요. 르네상스 회화스타일은 잘 표현된 듯하고, 열차객실 표현이 미흡하고, 스팀펑크 스타일은 약간 덜 표현된듯 싶습니다. (감점 -2)

---- 다시 그려야 함

Imagen 3

모두 잘표현되었는데... 중동인 느낌은 좀 없는 듯 하네요. 감점 1점입니다.

FLUX1.1 Pro

괜찮게 생성되었는데 유럽인 느낌은 여전하네요. 감점 1점입니다.

인물 생성에 대한  최종 채점 결과는 아래와 같습니다.

GPT-4 Reve RecraftAI Ideogram 3.0 Imagen 3 Flux.1 
9 10 10 - 9 9

여러가지 물체들의 구도

여기에서는 프롬프트의 이해도를 평가하기 위해 지정한 물체의 상호관계를 잘 표현하는지를 살펴봅니다. 

한글 프롬프트: 북유럽 스타일의 거실 풍경의 Photorealistic 이미지. 벽면 가운데에 흰색 커버를 씌운 긴 소파가 있고, 그 오른쪽에 초록색 톤의 가죽 1인용 소파가 옆에 있다. 소파 왼쪽엔 선이 가는 나무수형을 잘 살린 화분이 놓여져 있다. 소파 위쪽 벽에는 포스터가 들어있는 그림액자가 있다.
영문 프롬프트: Photorealistic image of a Nordic-style living room scene. A long white covered sofa sits in the center of the wall, flanked by a green leather one-seater sofa to its right. To the left of the sofa is a potted plant with thin tall tree. On the wall above the sofa is a picture frame with a poster.

GPT-4o

흠... 완벽합니다. 배치관계가 완벽하고, 무엇보다 소파 뒤쪽의 포스터가 마음에 드네요. Norway가 아니라 Norvay가 되었지만, 이건 주문에 있는 건 아니니 감점하지 않습니다. 

Reve

아주 잘 표현되었습니다. 딱 배치하고자 하는대로 배치되었네요. 여기도 특별히 감점할 게 없네요.

Recraft AI

아주 잘 표현되었는데, 소파의 위치가 오른쪽이어야 하는데, 왼쪽으로 나왔네요. 프롬프트가 이상한가 싶어서 약간 수정해서 생성해도 소파가 왼쪽으로 나오네요. 벽면도 북유럽스타일은 아닌것 같고요. 2점 감점합니다.

Ideogram 3.0

최대한 열차 객실이 표현된 것을 찾았는데, 아래가 최선이네요. 르네상스 회화스타일은 잘 표현된 듯하고, 열차객실 표현이 미흡하고, 스팀펑크 스타일은 약간 덜 표현된듯 싶습니다. (감점 -2)

---- 새로 생성해야 함.

Imagen 3

여기도 잘 생성되네요. 전체적인 분위기가 마음에 듭니다. ㅎ

FLUX1 dev

위치관계는 잘 표현되었는데... 아쉽게도 4장 모두 포스터 액자가 표현되지 않았습니다. 1점 감점합니다.

북유럽 스타일의 거실 이미지에 대한  최종 채점 결과는 아래와 같습니다.

GPT-4 Reve RecraftAI Ideogram 3.0 Imagen 3 Flux.1 
10 10 8 - 10 9

여러 사람들이 등장하는 장면

여기에서는 기본적으로 4명의 인물이 정말 자연스럽게 표현되는지를 살펴봅니다.

한글 프롬프트: 실내 탁구장에서 남녀가 탁구를 치는 장면의 Photorealistic 이미지.
남자는 서브를 넣으려고 공을 띄우고 쳐다보고 있고, 여자는 반대편에서 맞받아칠 준비를 하고있다. 네트 중간에 친구 2명이 하이파이브를 하며 응원하고 있다. 뒤쪽으로는 다른 팀들이 탁구를 치고 있고, 주변에 있는 소파에 쉬면서 잡담하는 사람들이 있다.
영어 프롬프트: Photorealistic image of a man and woman playing table tennis on an indoor table tennis court.
The man is looking at the ball with his serve in the air, while the woman is preparing to return it from the other side. In the middle of the net, two friends are high-fiving and cheering them on. In the background, other teams are playing table tennis, and people are relaxing and chatting on nearby couches.

GPT-4o

흠... 서브를 넣는 남자의 공 위치가 이상하고, 응원하는 남녀의 뒤에 이상한 손이 튀어나와 있습니다. 한 두어번 수정했는데도 깔끔하지는 못하네요. 2점 감점합니다.

Reve

흠... 서브넣는 폼이 약간 아쉽네요. 그리고 응원하는 남녀의 얼굴이 약간 찌그러진 듯하고요. 감점 1점 정도.  

Recraft AI

흠... 4장을 생성했는데, 경기하려는 모습은 전혀 안보입니다. 감점 5점

Ideogram 3.0

최대한 열차 객실이 표현된 것을 찾았는데, 아래가 최선이네요. 르네상스 회화스타일은 잘 표현된 듯하고, 열차객실 표현이 미흡하고, 스팀펑크 스타일은 약간 덜 표현된듯 싶습니다. (감점 -2)

---- 다시 그려야 함

Imagen 3

여러장 중에서 괜찮은 걸 뽑은 건데, 탁구하는 남녀의 자세가 제대로 표현된게 하나도 없었습니다. 아래 사진도 코트 방향이 다르고 공도 이상한데 있구요. 감점 3점

FLUX1.1 Pro

제일 배치가 엉망입니다. 4장을 뽑아도 제대로 자세가 보이는게 하나도 없고, 남녀가 시합을 해야 하는데, 그렇게 표현된 것도 안보이고요. 감점 4점 

탁구치는 모습을 그리라는 명령에 대한  최종 채점 결과는 아래와 같습니다.

GPT-4 Reve RecraftAI Ideogram 3.0 Imagen 3 Flux.1 
8 9 5 - 7 6

텍스트 표현

여기에서는 여러군데 텍스트가 쓰여질 때 어떻게 표현되는지를 비교해보겠습니다.

한글 프롬프트: 번화한 거리에 있는 레스토랑의 사실적 이미지
레스토랑의 정면은 통유리로 되어 있고, 한 옆에 유리문이 있다. 통유리에는 Restaurant 라고 쓰여져 있다. 정면 위쪽에는 간판이 있다. 간판에는 큰 글씨로 WarmLight이라고 쓰여져 있고, 그 아래로 Italian restaurant, Tel:013-666-4433 리라고 쓰여져 있다. 가게 앞에는 메뉴판이 올려져 있는 이젤이 놓여져 있다.
영어 프롬프트: Realistic image of a restaurant on a busy street.
The front of the restaurant is made of glass, with a glass door on one side. The word Restaurant is written on the glass. At the top of the facade is a sign. The sign says WarmLight in large letters, and below that it says Italian restaurant, Tel:013-666-4433. In front of the store is an easel with a menu on it.

GPT-4o

흠... 주변상황이나... 이런 건 좀 마음에 안들지만, 글씨는 원하는대로 잘 표현되네요. 그런데 이젤이 아니고 샌드위치 형태의 안내판이네요. 감점 1점입니다. 

Reve

마음에 드네요. 주변 분위기나, 유리에 비친 모습이나... 모두 마음에 듭니다. 

Recraft AI

흠... 유럽 고시가지 한쪽에 있을만한 레스토랑인데... 글씨가 일부 미흡합니다. 그리고 샌드위치 패널이 있구요. 감점 -2점입니다. 

Ideogram 3.0

최대한 열차 객실이 표현된 것을 찾았는데, 아래가 최선이네요. 르네상스 회화스타일은 잘 표현된 듯하고, 열차객실 표현이 미흡하고, 스팀펑크 스타일은 약간 덜 표현된듯 싶습니다. (감점 -2)

---- 다시 그려야 함

Imagen 3

그린다고 그렸는데, 잘 살펴보면 여러가지 간판에 쓰여진 글씨가 제대로 표현되지 못했습니다. 철자도 틀린 것도 있고요. 감점 2점.

FLUX1.1 Pro

분위기는 괜찮네요. 그런데 텍스트만 보면 많이 부실합니다. 전화번호는 아얘 없고요. 감점 3점

텍스트 표현 명령에 대한  최종 채점 결과는 아래와 같습니다.

GPT-4 Reve RecraftAI Ideogram 3.0 Imagen 3 Flux.1 
9 10 8 - 8 7

복잡하고 긴 프롬프트

여기에서는 아주 길고 복잡한 프롬프트를 얼마나 잘 이해하고 표현하는지를 비교해 보겠습니다. 

한글 프롬프트: 
이미지는 전체적으로 위, 아래, 오른쪽, 왼쪽, 가운데 등 5 구역으로 나누어진다. 구역간의 경계는 명확하지 않고 부드럽게 섞여 있다.
위쪽은 물결과 파도를 배경으로 검은 색으로 '水'라고 쓰여져 있다.
아래쪽은 화톳불이 타오르고 있는 배경에 빨간색으로 '火'라고 쓰여져 있다.
왼쪽은 금속 구조물을 배경으로 흰색으로 '金'이라고 쓰여져 있다.
오른쪽은 나무와 숲과 들판을 배경으로 파란색으로 '木'이라고 쓰여져 있다.
가운데는 지구의 모습을 배경으로 노란색으로 '土'라고 쓰여져 있다.

영어 프롬프트: 
The image as a whole is divided into five sections: top, bottom, right, left, and center. The boundaries between the zones are not clear, but blend together smoothly.
The top has the word “Water” written in black against a background of water and waves.
The bottom has the word “Fire” written in red against a background of burning braziers. 
On the left, the word “Iron” is written in white against a background of metal structures.
On the right, the word “Wood” is written in blue against a background of trees, forests, and fields.
In the center, “Earth” is written in yellow against a background of the planet earth. 

GPT-4o

완벽합니다. 위의 프롬프트와 어느 하나 어긋난 것이 없습니다.

Reve

마찬가지로 아주 잘 표현되었습니다. 경계가 스무스하게 연결되면 좀 더 좋았을텐데... 싶기는 하네요. 감점 1점입니다.

ReCraft

GPT-4o와 비교하면 참담한 수준입니다. 위치와 방향, 글씨 색등 모든것이 부합하지 않습니다. 적어도 글씨와 배경은 일치해야 할 것 같은데, 그것도 하나도 맞지않네요. 아... 나무숲 사진에 FiRE와 WOOD가 있으니 0.5점을 줘야 할까요? 감점 5점입니다. 

Ideogram 3.0

 

Google Imagen 3

흠... 아래는 한글 프롬프트로 생성한 이미지 입니다. 5 부분으로 나오지 않았다. 다만 배경은 5개중의 4개가 올바르다.  글씨가 엉망이고 글씨에 색이 반영되어있지 않다.... 총체적 난국이네요. 여기도 감점 4점입니다.

그래서 영어 프롬프트로 다시 시도해봤습니다. 이것도 별로긴 마찬가지네요. 위에서 지적한 것과 거의 똑같은 지적을 할 수 밖에 없을 것 같습니다.

Flux.1 dev

흠... 여기도 가운데 지구가 들어가 있기는 한데, 구역이 상하좌우가 아니고 십자형태로 갈라져서 동서남북이 표현이 안되네요. 글자들도 명확하지는 않고 글자의 색은 안들어 있구요. 감점 3점

 

GPT-4 Reve RecraftAI Ideogram 3.0 Imagen 3 Flux.1 
10 9 5 - 6 7

총평

이상의 점수를 모두 합치면 아래와 같습니다.

구분 GPT-4 Reve RecraftAI Ideogram 3.0 Imagen 3 Flux.1 
간단 9 8 7 8 7 6
인물 9 10 10 - 9 9
구도 10 10 8 - 10 9
사람 8 9 5 - 7 6
텍스트 9 10 8 - 8 7
복잡 10 9 5 - 6 7
합계 55 56 43 - 47 44

GPT-4o와 Reve가 압도적으로 1,2위를 차지했네요. 나머지는 그냥그냥 비슷한 정도입니다. Ideogram의 경우엔 하루에 무료로 사용할 수 있는 양이 너무 적어서(2~4장 정도?), 이것까지 생각하면 가장 사용성이 떨어지는게 아닐까 싶습니다. 

제가 평상시에 생성하면서 느낀 것과 비슷한 결과가 나왔는데, 앞으로도 GPT-4o와 Flux.1 dev를 주로 사용할 것 같네요.

아... 아래는 오방색 그림을 그리다가, 사신도와 합쳐서 표현한 겁니다. 방향이 잘못되어서 45도를 돌려라 등등으로 여러번 수정하라고도 했는데, 전혀 안되네요. ㅠㅠ 사신수가 없을때에는 잘되었는데 추가해서 안되는 걸 보면, GPT-4o가 처리할 수 있는 객체가 최대 20개 정도라고 했는데, 그 범위를 넘어서가 아닐까... 하는 생각이 드네요.

이상입니다.