AI 이미지/AI 기타

DALL-E 3 사용법 및 평가(Copilot)

하늘이푸른오늘 2023. 12. 27. 13:18

저는 거의 스테이블 디퓨전을 사용해서 인공지능 이미지를 생성하지만, 이 글에서는 이미지 생성형 인공지능의 하나인 DALL-E 3 에 대해 알아보겠습니다. 이 글의 내용은 아래와 같습니다.

DALL-E 3 개요

DALL-E 는 ChatGPT를 개발한 것으로 유명한 OpenAI에서 개발한 이미지 생성형 인공지능입니다. DALL-E 3는 2023년 9월 공개되었으며, 이전 모델에 비해, 그리고 경쟁 이미지 생성형 인공지능에 비해 프롬프트(문장 입력)를 훨씬 잘 반영하는 것으로 유명합니다. 

DALL-E 3 는 유료인 ChatGPT Plus에서 사용할 수 있으며, 마이크로소프트에서 "일상의 AI 컴패니언"이라고 표방하는 Copilot에서도 무료로 사용할 수 있습니다. 이미지 크리에이터에서도 사용할 수 있는데, 사실 Copliot에서 이미지 생성을 요청하면, 이미지 크리에이터에서 생성한 결과를 보여주는 방식으로 진행됩니다.

아래는 "모자 쓴 고양이"를 그려달라는 요청에 생성된 이미지 입니다. 맨 아래에 Image Creator라고 쓰여있는데 여기를 클릭하면 이미지 크리에이터가 생성되고, 예전에 자신이 생성한 그림들을 모두 볼 수 있습니다.

특히 ChatGPT 및 Copilit에서 한글로만 지시해도 고품질의 이미지를 생성할 수 있어, 복잡한 인공지능 기술을 모르거나 영어가 힘든 분들도 쉽게 사용할 수 있는 장점이 있습니다.

DALL-E 3 사용법

이 글에서는 Copilot에서 사용하는 방법만 설명드리겠습니다. 무료이기 때문입니다. ㅎㅎ 한달에 20 달러가 비싸다고는 생각하지 않지만, 계속 사용할 게 아니라면 구지 가입할 필요는 없을 것 같습니다.

사용하는 방법은 간단합니다. Copilot을 실행하면 아래와 같은 화면이 보이는데, 아래쪽에 있는 "무엇이든 물어보세요"에 "~~를 그려줘"라고 입력하기만 하면 됩니다.

Copilot 시작화면

예를 들어 여기에 "자동차가 달리고 있는 강변도로 옆에 있는 많은 사람들이 쉬고 있는 공원을 그려줘"라고 입력해 보겠습니다. 그러면 아래와 같이 메시지와 모래시계 이미지가 나온 후...

이미지 생성 대기

아래와 같이 4개의 그림이 생성된 결과를 보여줍니다. (자세히 보면 제가 입력한 한글 텍스트를 "A park with many people resting next to a riverside road with cars running" 이라는 프롬프트로 변환해 준 것도 볼 수 있습니다)

Copilot의 이미지 생성

여기에서 아무 사진이나 클릭하면 다음과 같이 이미지 크리에이터에 해당 사진이 표시되고, 필요하다면 이미지를 다운로드 받을 수 있습니다. 좌우측 삼각 표지를 누르면 4개의 사진을 하나씩 확인할 수 있고요. 

그냥 아무 설정도 필요없이 명령만 넣으면 되니까 무척 편합니다. 그리고... 생성된 사진이 모두 마음에 안든다면 "새로 그려줘"라고 명령만 하면 새로운 이미지를 생성해 줍니다. 

다른 예제

위에서는 너무 현실적인 그림을 그렸는데, 이번엔 완전 초현실적인 그림을 그려보도록 하겠습니다. "바닷가에서 요가하는 퍼그"를 그려달라는 요청에 아래의 이미지를 생성합니다.

그림 스타일이 마음에 안들어서 "다양한 그림 스타일로 바꿔줘"라고 명령을 내리니 아래처럼 일러스트레이션으로 그려주고, 아랫줄은 피카소 스타일과 고흐 스타일을 지정해서 그린 결과인데, 피카소 스타일이 이상하게 나오네요.

아래는 "강변 공원에서 외계인들과 함께 춤을 추고 있는 아름다운 아가씨가 있어. 뒤쪽으로는 많은 관객들이 박수를 치면서 구경하고 있고, 하늘에는 비행접시가 떠있어. 강에는 유람선이 떠있어. 이 광경을 그림으로 그려줘"라고 입력한 결과입니다. 프롬프트는 "A beautiful lady dancing with aliens at a riverside park with many spectators clapping, flying saucers in the sky, and a cruise ship on the river"라고 번역되었네요.

DALL-E 3는 이처럼 복잡한 이미지를 생성하는데 특히 뛰어나다고 합니다.

아래는 유튜브에서 본 명령을 조금 수정해 본 겁니다. "슈퍼히어로 옷을 입고 있는 귀여운 푸들 강아지. 옷의 가운데에 배트맨 마크를 달고 있다. 푸들은 당당한 포즈를 취하고 있다. 뒷 배경에 "BOOM!!"이라는 폭발 문자가 보인다. 그려줘"

와!! 정말 잘 그려주네요. 가슴에 배트맨 마크와 뒷배경에 글씨까지 완벽합니다.

아이디어 탐구용 그림 생성

그리고... 이처럼 내가 원하는 그림 내용을 자세히 지정하는 것도 좋지만, 대략적인 개념만 제시하고 다양한 그림을 그려달라고 해서 새로운 아이디어를 이끌어내는 데 사용할 수도 있습니다. 

아래는 "태양광 발전으로 지구의 환경 문제가 해결될 것이라는 전망을 담은 일러스트레이션을 그리고 싶어. 여러가지 아이디어를 담아서 표현해줘"라고 지시한 결과입니다. 지구와 태양광 패널이 담겨있고, 깨끗한 자연을 표현해주었네요. 

"하늘에서 돈이 내려온다면을 다양한 스타일의 그림으로 표현해줘"라고 지시했더니 먼저 아래와 같이 해설을 해주고, 그다음에 그림을 그려주네요. 그런데, 답변 내용에는 만화스타일, 리얼리즘 스타일, 추상 스타일로 표현해준다더니 그림은 모두 만화스타일로만 표현했네요. ㅎㅎ 가끔 이렇게 엉뚱하게 나오는 경우가 있었습니다.

DALL-E 3 평가

장점

DALL-E 3는 일단 사용하기 쉽다는 게 최대의 장점입니다. 영어를 몰라도, 생성형 인공지능의 원리는 몰라도 그냥 적당히 생각나는대로 글을 적어주기만 하면 해당되는 이미지를 그려주니까요.

특히나, 아주 복잡한 상황, 자세한 속성이 포함된 긴 문장을 이해하는 능력이 뛰어납니다. 아무리 복잡하게 말해도, 현실적으로 가능하건 아니건 아주 잘 표현해 주니까 매우 만족스럽습니다. 아래는 "사무실에 한 남자가 2개의 모니터 앞에서 작업을 하고있어. 책상에는 작은 선인장 화분이 있고, 뒤쪽으로 회의 탁자가 있고, 그 탁자 둘레에서 동료들이 회의를 하고 있어. 아름다운 여성이 프리젠테이션하고 있고. 그려줘"의 결과입니다. 

단점 1 : 속도 느림

명령을 입력하고 나서 그림이 생성되기까지 체감상 1분정도 걸리는 것 같은데 기다리는 게 상당히 지겹습니다. 그리고 문자로 나오는 답변도 타자를 못치는 사람 속도 정도라서 답답하다는 느낌이 드네요. 물론 Stable Diffusion 과 비교해서 전체적으로는 느리지 않을 수도 있지만요.

단점 2 : 이미지 이해 불가능

그런데... ChatGPT 4에서는 올린 이미지를 이해할 수 있는 기능이 있는지 모르겠는데, Copilot 만으로는 실망스럽네요.그림을 올리고, 그림 내용을 말해달라고 하니...

아래처럼 이해를 못하겠다는 메시지만 뜨네요. 

그림을 이해하지 못하니 그림을 다른 형태로 변형시켜 달라는 명령도 당연히 수행해내지 못합니다. ChatGPT에서는 될 것 같은데... 테스트를 못해보니 아쉽네요.

단점 3 : 이미지 수정 불가능

인공지능으로 이미지를 생성하다보면 대부분 만족스러운데 한두군데 "옥의 티"가 발생하는 경우가 있습니다. 이럴 땐 괜찮은 부분은 그대로 유지하고, 일부분만 수정하고 싶은데, DALL-E 3에서는 아얘 불가능합니다. 예를 들어 아래 이미지처럼 명령을 내리면...

아래와 같이 이해할 수 없다는 메시지가 나오고 아무 그림이나 새로 나타나게 됩니다. 

단점 4 : 이미지 크기 변경 불가

아마도 이것도 ChatGPT에서는 문제가 안될 것 같기는 한데, Copilot에서 제공하는 DALL-E 3에서는 1024x1024 크기의 이미지만 생성할 수 있습니다. 이미지를 생성할 때 "4:3 landscape"로 그리라고 지정해도 1:1로만 나오더군요. 이 점도 상당히 아쉽습니다. 

아래는 이미지 크리에이터에서 "4:3 landscape drawing of a beautiful age 18 girl, long expansive spiral pink neon hair, dslr, 8k, 4k, textured skin, painting, vibrant color palette, softbox lighting, watercolor" 로 그린 그림중 하나입니다. 여기에 들어가면 다른 그림들도 있어요.

추가: 이 문제는 결국 스테이블 디퓨전을 사용해 해결을 했습니다. 자동 인페인트/아웃페인트 - ComfyUI아주 간편한 스테이블 디퓨전 - Fooocus를 읽어보세요.

이상입니다. DALL-E 3를 겨우 몇시간 정도 사용해보고 평가하기에는 제가 많이 부족하다는 것은 알지만, 강점과 약점이 있으니 Stable Diffusion과 잘 함께 사용하면 유용하게 쓸 수 있을 것 같다는 생각이 드네요. DALL-E 3와 스테이블 디퓨전을 비교한 글도 읽어보세요.

이상입니다.

===