OpenAI에서 엊그제 GPT-4o 챗봇에 이미지 생성 기능을 추가하였습니다. (관련 공지 링크) 사실 그냥 "추가"라고 하기에는 너무 센세이션을 일으키고 있습니다. 제가 이제까지 여러가지 이미지 생성 모델이나 서비스를 다루어 왔지만, 이번 GPT-4o에 추가된 이미지 생성기능은 그야말로 혁명적이라고 할 수 있기 때문입니다.
![]() |
![]() |
4o 이미지의 장점
고품질의 이미지
제가 사용하는 ChatGPT에는 아직 새로운 이미지 생성기능이 반영이 되어 있지 않아 직접 시험해 보지는 못했지만, 여러 SNS에 올려진 사용기를 보면 이미지 품질은 정말 뛰어나다고 합니다. 또한 여러가지 스타일의 이미지도 자유자재로 생성이 된다고 하고요. 이 글을 읽어보면 그냥 미쳤다고 표현하네요.
아래는 공지에 나와있는 이미지 중 하나입니다. 프롬프트는 "A cat looking into a puddle of water on a street, but its reflection is that of a tiger, and both reflections are realistically distorted by ripples in the water"입니다. 대략 고양이가 물웅덩이를 바라보고 있고, 호랑이 모습의 반사가 물결에 흩어진 모습" 정도가 되겠는데요. 정말 사실적으로 표현되어 있네요.
이미지 크기는 최대 2048*1152 픽셀까지 생성이 된다고 하네요. 위의 이미지 크기도 1024x1536 입니다. 이정도면 상업적으로 사용하기에도 무리가 없는 크기 같습니다.
거의 완벽한 프롬프트 이해
요즘 나오는 이미지 생성 모델들이 대부분 텍스트 프롬프트를 잘 이해하고, 이에 따라 이미지를 생성하는 능력이 예전보다 훨씬 좋아졌습니다. 제가 기술적으로는 잘 모르지만, 이것은 대부분 텍스트 인코더 모델이 커졌기 때문으로 알고 있습니다. 그런데, GPT 4o 자체가 대규모 언어 모델이다보니, 텍스트 프롬프트에 대한 이해도는 다른 어떤 모델보다 높을 수 밖에 없습니다.
그러다보니, 아주 긴 프롬프트, 정형화되지 않은 텍스트, 아주 복잡한 구도 등도 매우 잘 이해하고 따릅니다. 예를 들어 아래의 프롬프트는 대충 요약해서 "OpenAI 로고가 새겨진 티셔츠를 입은 여자가 흰 유리칠판에 글을 쓰고 있고, 유리칠판에 사진사가 비춰지고 있다. 유리칠판 왼쪽엔 이러저러한 글이 써져있고, 오른쪽엔 이러저러한 글이 써져 있다" 정도 되는 20줄 이상의 프롬프트로 생성한 이미지입니다. 원 프롬프트와 하나씩 비교해 보면, 하나도 빠짐없이 반영이 되어 있습니다. 정말 완벽합니다.
대화식 프롬프트 수정
사실 ChatGPT에서 이미지 생성이 가능하다고 했을 때 가장 기대를 했던 것이 이 기능이었습니다. 이미지를 생성한 후, 마음에 안드는 내용에 대해서만 프롬프트를 추가하거나 수정하여 새로운 이미지를 생성하는 기능을 말합니다.
그런데 예전의 DALL-E에서는 새로 생성을 해달라고 하면 (바로 전 이미지 스타일을 그대로 유지하라고 입력을 한 경우에도) 완전히 새로운 이미지를 생성했습니다. 그런데 이 기능이 완벽하게 구현된 겁니다.
공지에 나와있는 이미지들을 예를 들면, 먼저 아래와 같은 고양이 사진을 올린 후,
이 고양이에게 탐정 모자와 외눈 안경을 씌우라고 하면...
이 고양이 캐릭터를 주인공으로 하는 게임 화면을 생성하도록 하면...
이미지를 가로로 길게 바꾸고 이 고양이가 거리에 있는 모습으로 변경하면...
이런 식으로 이미지의 일관성이 유지되면서 계속 수정할 수 있습니다. 아마 다른 이미지 생성형 인공지능 모델이라면 이 캐릭터를 LoRA 등으로 생성한 후에 여러번 생성해서 마음에 드는 것을 뽑아내야 할 텐데, 무척 쉽게 이미지를 수정할 수 있어서 작업이 편해질 것 같습니다.
또한, 예를 들면 동화 이미지를 구성한다면 이처럼 캐릭터를 구성한 후, 계속 장면을 바꿔서 생성해주면 될 것 같다 싶습니다. 또한 뮤직비디오를 만든다고 해도, 동일한 캐릭터를 여러가지 장면으로 생성한 후 비디오를 만들어 합쳐주기만 하면 될 것 같습니다. 예전에 ChatGPT에서 DALL_E 를 사용해서 이런 작업을 해보려고 했다가 처참하게 실망했었는데, 이제는 쉽게 작업할 수 있을 듯 합니다.ㅎㅎ
텍스트 렌더링
위의 예에서 보는 것처럼, 입력한 텍스트를 이미지에 그대로 표현하는 능력은 정말 기대 이상입니다. 특히 영어의 경우, 오타도 거의 없는 것 같고, 심지어는 폰트를 지정할 수도 있는 것처럼 보입니다.
그런데 놀라운점은 아래의 그림처럼 한글도 엄청나게 잘 생성한다는 것입니다. 잘 들여다보면 몇몇 단어들에 오타가 보이기는 하지만, 거의 읽어가는 데 거의 문제가 없을 정도로 잘 생성되네요.
이미지 구도
그냥 "예쁜 여성을 그려줘"라고 하는 경우에는 아무래도 괜찮겠지만, 왼쪽에는 뭐가있고, 오른쪽 위에는 뭐가 있고... 등등으로 상세하게 지정해서 이미지를 생성하는 경우, 기존의 이미지 생성 인공지능에서는 한계가 있었습니다. Flux의 경우에는 꽤 잘되는 편인데도 지정하는 물체가 5개 이상 넘어가면 잘 안되는 편인데, GPT 4o의 경우네는 최대 20개의 객체를 동시에 처리할 수 있다고 합니다.
아래는 공지에 있는 이미지 중의 하나로, 4x4 격자에 총 16개의 이미지를 순서대로 무슨색, 무슨 형태... 식으로 각각 지정해서 생성한 결과입니다. 그중에서 8개의 객체만 나열했는데, 텍스트 설명과 이미지가 완전히 일치함을 알 수 있습니다.
1. a blue star
2. red triangle
3. green square
4. pink circle
5. orange hourglass
6. purple infinity sign
7. black and white polka dot bowtie
8. tiedye "42"
참조 이미지를 사용한 생성
사용자가 올리는 이미지를 참고로하여, 비슷한 분위기나 스타일을 유지하면서 새로운 이미지를 생성할 수 있습니다.
공지에 포함된 예를 들어보면, 아래와 같은 그림을 올린 후,
이 이미지를 사진으로 바꿔달라고 하면 아래와 같이 실사사진이 만들어집니다.
자신의 얼굴 사진을 올리고, 이 사진을 지브리 스타일로다 바꿔달라... 고 하면 자신의 지브리 캐릭터를 만들 수 있고요. 사진을 올리고 스타일을 바꾸는... 예를 들면 인상주의 사진으로... 카툰으로... 등등 원하는대로 바꿀 수 있습니다. 페이스북의 Stable Diffusion Korea 그룹에 가보시면 여러가지 예를 볼 수 있습니다.
또... 아래의 예처럼, 하나의 이미지를 다른 이미지 스타일로 바꿔 그리는 것도 쉽게 가능합니다.
GPT 4o 이미지 생성방법
GPT 4o 이미지는 인공지능 챗봇 ChatGPT에서 생성할 수 있습니다. 따로 준비할 것은 없고, 그냥 자연스럽게 간단하게 "어떠어떠한 이미지를 생성해 달라"고 입력하기만 하면 됩니다. 물론 영어 프롬프트를 따로 준비할 것도 없이 그냥 한글로만 입력해도 되고요.
일단적인 대화나 문답을 진행하던 중간이라도 괜찮습니다. 위쪽의 대화에 있는 내용을 참고하기 때문에, 전체 대화를 고려하여 이미지가 생성됩니다. 원하면 캡션이나 설명을 함께 표시할 수도 있습니다.
생성된 이미지를 언제든지 수정할 수 있습니다. "배경을 좀더 밝게 해줄래?", "이미지를 16:9 이미지로 다시 생성해 줘", "왼쪽에 있는 여자옆에 멋진 남자를 추가하고 손을 잡는 모습으로 고쳐줘", "여자가 쓰고 있는 모자를 빅토리아 스타일로 바꿔줘" 등등 생각하는 모든 것을 주문하기만 하면 그에 맞는 새로운 이미지가 생성됩니다. 이러한 수정을 계속 반복해도 괜찮습니다(물론 사용 허용량 이내에서요 ㅎㅎ)
![]() |
![]() |
![]() |
신기한 것 하나가 있습니다. 아래처럼 프로그램을 짜서 이미지를 생성할 수 있답니다. 제가 javascript는 약간 공부해보긴 했어도 아직 잘 이해는 안됩니다. 하지만, 이런 식으로 이미지를 구성할 수 있으면 정확하게 이미지를 생성할 수 있을 것 같네요.
아래는 위의 코드로 생성된 이미지입니다.
언제 사용할 수 있나?
GPT 4o 이미지 생성기능은 이미 출시된 상태입니다. ChatGPT Plus, Pro, Teams 구독자는 지금 바로 이용할 수 있으며, 무료 사용자는 앞으로 몇주 내에 점차적으로 서비스를 이용할 수 있게 될 것입니다. 자신이 사용할 수 있는지 확인해 보려면 그냥 ChatGPT에서 아무 이미지나 생성해 보시면 됩니다. 아래와 같은 메시지가 나오면 아직 적용이 안된겁니다. ㅠ
무료 이용자들이 사용할 수 있게 되더라도 하루당 생성할 수 있는 이미지의 수는 제한이 있을 가능성이 높습니다. Gemini가 15~20개 정도인 걸 생각해 볼 때 그와 비슷하거나 더 숫자가 적을 가능성이 높아보입니다.
그렇다고 이걸 위해서 한달에 3만원정도를 써야 하나.... 싶네요. ㅠㅠ
결론
OpenAI에서 예전에 공개했던 이미지 생성형 인공지능 모델은 DALL-E 였습니다. 현재도 ChatGPT에는 DALL-E 3를 사용하여 이미지가 생성되고 있고요. 물론 처음에 나왔을 때는 꽤 성능이 좋은 편이었지만, 이제는 Flux나 Imagen 3, Reve, Recraft와 같은 경쟁 모델에 비해 상당히 뒤쳐지고 있었습니다.
하지만 이번에 나온 GPT 4o의 이미지 생성 기능은 경쟁자들을 완전히 K.O. 시키는 수준이라고 보입니다. 제가 Midjourney는 써본지가 너무 오래되어서 잘 모르긴 해도 이 정도 수준의 이미지를 생성할 수 있을까... 싶고요. 제가 알고 있는 다른 인공지능 모델에 비해서는 정말 넘사벽 수준의 품질과 기능을 보여주고 있습니다.
이렇게 되면... 일반적인 이미지 생성이 필요하다면 오픈소스 프로그램을 설치해서 사용할 필요도 없을 것 같고, 다른 생성형이미지 서비스도 누가 사용할까... 싶어집니다. 특히 ChatGPT의 시장 점유율을 고려를 했을 때, 성능이 아무리 좋다고 해도 고만고만한 서비스들이 경쟁이 거의 불가능하지 않을까 싶습니다.
아마도... ChatGPT가 처음 나왔을 때 전세계를 강타한 것처럼, 4o 이미지 생성 기능도 많은 예술가들을 절망에 빠뜨리지 않을까... 싶습니다.
이상입니다.