AI 이미지

OpenArt의 프롬프트 북(Prompt Book)

하늘이푸른오늘 2023. 4. 15. 18:41

Stable Diffusion을 포함하여, Text2Img 방식의 그림생성 인공지능에서 가장 중요한 것중의 하나가 프롬프트(Prompt)이다. 프롬프트는 자신이 생성하고자 하는 이미지를 표현하는 단어들의 모음이다. 즉, 프롬프트를 얼마나 잘 입력하느냐가 생성된 이미지의 품질을 좌우한다. 그러나, 프롬프트 시장이 확대된다는 신문 기사에서 알 수 있는 것처럼, 좋은 프롬프트를 만드는 것은 쉬운 일이 아니다.

이 글에서는 OpenArt에 올려진 프롬프트 북(The PromptBook) 을 기준으로, 직접 테스트해보면서 필요에 따라 편집한 결과를 정리한다.

1. 서론

Tiny cute cow toy, reading a book, standing character, soft smooth lighting, soft pastel colors, skottie young, 3d blender render, polycount, modular constructivism, pop surrealism, physically based rendering, square image

위의 그림은 오픈아트 사이트 중에서 직접 생성해 볼 수 있는 곳(https://openart.ai/create)에서 생성한 그림을 비교해 본 것이다. 맨 왼쪽은 프롬프트 북에 들어있는 그림이며, 가운데는 직접 생성해 본 것, 맨 오른쪽은 이 두 그림을 생성하는 데 사용한 프롬프트이다.

맨 먼저 알아야 할 것은 동일한 프롬프트를 사용한다고 해서 동일한 그림이 생성되는 것이 아니라는 것이다. 동일한 환경에 동일한 프롬프트를 사용해도 위에서 보는 것처럼 완전히 다른 그림이 만들어질 수 있다. 그림 생성 인공지능의 경우, 맨처음 임의의 무작위 잡음을 생성하고, 이로부터 학습한 내용을 적용하는 방식으로 진행되는데, 무작위 잡음을 생성하는 씨드 번호(Seed)가 달라지면 완전히 다른 그림이 만들어진다. 반대로, 씨드가 동일하면 거의 비슷한 그림이 만들어진다.

Stable Diffusion 개요

Stable Diffusion은 오픈소스  text-to-imge AI 모델이다. 이 모델은 LAIN-5B 데이터셋에서 이미지를 훈련시킨 모델로, ComVis, Stablility AI 및 RunwayML에서 개발하였다.

이 프롬프트북은 인공지능 관련 콘텐츠를 다루는 플랫폼이자 커뮤니틴인 OpenArt 에서 제작하였으며, 그 내용은 해당 커뮤니티 회원이 작성하였다. 문제나 질문이 있을 경우, Discord Server 로 연락하라

A man with eyes wide open, surprised, in awe, digital art

OpenArt 개요

OpenArt(http://openart.ai)는 AI 관련 콘텐츠 및 소셜 플랫폼으로, 다음과 같은 여러가지 장점이 있다.

  • 수백만개의 AI 생성 이미지와 관련 프롬프트를 찾을 수 있음
  • 이미지 내용으로 검색 가능
  • 자신만의 AI 아트 포트폴리오를 구성하고 커뮤니티에 전시 가능
  • Stable Diffusion과 DALL-E 2를 무료로 사용가능
  • AU 아트 챌린지에 참여가능

프롬프트 공학

프롬프트 공학이란, text-to-image 이 잘 해석하고 이해할 수 있도록 단어를 구조화하는 과정이다. 프롬프트란 "AI 모델에게 어떤 걸 그려야 할지 전달하고자할 때 사용하는 언어"라고 생각할 수 있다. 프롬프트를 잘 사용하면 Text2Img 모델의 한계를 극복하고 좀 더 나은 이미지를 생성할 수 있다.

좋은 이미지를 생성하기 위한 방법

  • 적절한 수식어(Modifier) 및 좋은 문장 구조로 구성된 잘 쓰여진 프롬프트를 작성해야 한다. 이를 위하여, 2절에서는 프롬프트의 포맷, 3절에서는 수식어 유형, 4절에서는 마법의 단어를 설명한다.
  • Stable Diffusion 파라미터를 잘 조절하여야 함(5절). 기본 설정을 사용하여도 무방하지만, 잘 조절하면 더 나은 결과를 얻을 수 있다. 
Prompt: Funko pop superman figurine, made of plastic, product studio shot, on a white background, diffused lighting, centered.
Model: Stable Diffusion
Seed: 70455
Scale: 13
Steps: 25
Resolution: 512 x 512
Sampler: DDIM

위의 가운데 이미지는 Easy Diffusion 2.5에 열거된 파라미터를 그대로 입력하여 얻은 이미지이다. OpenArt 에서도 이러한 파라미터를 입력하는 방법이 있다.

2. 프롬프트 포맷(Prompt Format)

Prompt:Tiny cute giraffe using a typewriter toy, standing character, soft smooth lighting, soft pastel colors, skottie young, 3d blender render, polycount, modular constructivism, pop surrealism, physically based rendering, square image

최초의 질문 목록

  1. 사진인가 그림인가? (photo or painting)
  2. 주제는 사람? 동물? 풍경?(person or animal or landscape)
  3. 추가하고 싶은 요소
    • 특별한 조명 : 부드러운/은은한/링 조명/네온(soft, ambient, ring light, neon)
    • 환경: 실내, 야외, 물속, 우주 (indoor, outdoor, underwater, in space)
    • 색상 조합 : 생생한/어두운/파스텔(vibrant, dark, pastel)
    • 시점 : 전면, 상부, 측면(front, overhead, side)
    • 배경 : 단색, 성운, 숲(solid color, nebula, forest)
  4. 특별한 아트 스타일? 3D 렌더링, 지브리 스튜디오, 영화 포스터(3D render, studio ghibli, movie poster)
  5. 사진 종류? 마크로 렌즈, 망원렌즈(macro, telephoto)\
여기에 제시된 단어는 극히 일부 일 뿐이다. 여러가지로 많이 시험해 볼 수록 더 나은 결과를 얻을 수 있다. 영어가 문제가 된다면, chatGPT 등을 사용해서 원하는 내용을 입력해서 프롬프트를 만들어 달라고 하는 방법도 있다. 다른 사람들의 작품과 프롬프트를 비교해 보면서 프롬프트 활용법을 늘리는 것이 중요하다.

이 질문 목록을 사용하여 프롬프트를 생성하는 예

  1. 사진인가 그림인가?  -> painting
  2. 주제는 사람? 동물? 풍경? -> a goldendoodle
  3. 추가하고 싶은 요소 -> wearing a suit
    • 특별한 조명  -> natural light
    • 환경 -> in the sky
    • 색상 조합 -> with bright colors
  4. 특별한 아트 스타일?  -> studio ghibli

아래는 이와 같은 프롬프트를 사용하여 작성한 이미지 이다.

A painting of a cute goldendoodle wearing a suit, natural light, in the sky, with bright colors, by Studio Ghibli

양복을 입은 금색 푸들이 지브리 스타일로 잘 표현되었다.

그런데, "in the sky"가 잘 나타나지 안았다. 하지만, 프롬프트에 들어간 단어의 순서만 약간 바꿔주어도 해결될 수 있다. 먼저 나오는 단어를 더 중요하게 취급하기 때문이다.
A painting of a cute goldendoodle in the sky, wearing a suit, natural light, with bright colors, by Studio Ghibli

프롬프트에서 "in the sky"를 앞쪽으로 옮겼더니 훨씬 나아졌음을 알 수 있다.

위에서 보는 것처럼 그림 생성 인공지능에 입력한 프롬프트에 따라 잘 표현될 때도 있고 잘 표현 안되는 때도 있다. 여기에서 말하는 내용도 단순히 그럴 확률이 높아진다고 이해하는 것이 좋다.

단, Guidance Scale  을 조정하면 준수성/다양성을 어느정도 대응할 수 있다. 이 값을 높이면 AI가 프롬프트를 더 많이 반영한다. 대신 다양성 혹은 창조성?은 낮아진다. 자세한 내용은 Stable Diffusion 메뉴를 참고하라.

3. 수식어(Modifiers)

Tiny cute duck playing guitar toy, standing character, soft smooth lighting, soft pastel colors, skottie young, 3d blender render, polycount, modular constructivism, pop surrealism, physically based rendering, square image
예시로 나온 이미지를 보고 나는 왜 이렇게 예쁘게 나오지 않을까 고민하지 말자. 실력탓이 아니다. 원래 그렇다.

수식어란 이미지의 스타일, 포맷, 관점을 바꾸는 단어이다. 이지지의 품질의 올려주는 것이 증명된 몇몇 마법의 단어나 절이 존재한다. 여기에서는 프롬프트에 사용할 수 있는 여러가지 수식어에 대해 알아본다. 여기에서 주어진 수식어 외에도 수많은 수식어들이 존재할 수 있다. Easy Diffusion 메뉴에도 수식어가 있으니 참조하자.

이 글에서 3절 수식어 부분이 가장 길다. 원 자료에서 많이 생략했는데도. 이 부분은 꼼꼼하게 정독하기 보다는 이런게 있구하 하는 정도만 보고 넘어가는 게 좋을 듯.

사진(Photography)

Tiny cute boy holding camera toy, standing character, soft smooth lighting, soft pastel colors, skottie young, 3d blender render, polycount, modular constructivism, pop surrealism, physically based rendering,square image

원하는 분위기에 맞는 단어를 조합하자. 여러개의 관점에서 단어를 조합해 사용하는 게 좋다. 비슷한 내용의 단어를 반복해 사용한다고 좋을 게 없다. 

촬영 방법 스타일 주제 조명 콘텍스트 렌즈 기종
근접
Close-up
폴라로이드
ploaroid
여자
woman
부드러운
soft
실내
indoor
광각
wide-angle
iPhone X
Extreme
Close-up
흑백사진
monochrome
노인
old man
은은한
ambient
야외
outdoor
망원
telephoto
CCTV
개인사진?
POV
장시간 노출
long exposure
회색 고양이
gray cat
링 조명
ring
야경
at night
34mm Nikon Z FX
중간
Medium shot
빛 번짐
color splash
토끼
bunny
태양광
sun
공원
in the park
EF 70mm Canon
롱샷
Long shot
틸트-쉬프트
tilt-shift
페라리
ferrari
영화조명
cinematic
스튜디오
studio
보케
Bokeh
Gopro

사진 스타일의 예

사진 스타일 비교 - 폴라로이드, 틸트-쉬프트, 제품샷, 장노출
사진 스타일 비교 - 폴라로이드, 틸트-쉬프트, 제품샷, 장노출
사진 스타일 비교 - 초상화, 빛 번짐, 흑백, 위성사진
사진 스타일 비교 - 초상화, 빛 번짐, 흑백, 위성사진

카메라 기종의 예

카메라 기종에 따른 예 - 고프로, CCTV, 드론, 열적외선
카메라 기종에 따른 예 - 고프로, CCTV, 드론, 열적외선

렌즈의 종류의 예

렌즈 종류에 따른 예 - 망원, 어안, 800mm, 매크로
렌즈 종류에 따른 예 - 망원, 어안, 800mm, 매크로

조명의 종류 예

조명 종류에 따른 예 - 노스탤지아/보라색 네온/.햇살
조명 종류에 따른 예 - 노스탤지아/보라색 네온/.햇살

예술 소재

예술 소재에 따른 예 - 분필, 그래피티, 수채화, 유화
예술 소재에 따른 예 - 분필, 그래피티, 수채화, 유화
예술 소재에 따른 예 2 - 천, 소묘, 목재, 찰흙
예술 소재에 따른 예 2 - 천, 소묘, 목재, 찰흙

예술가

Tiny mouse holding a paint brush toy, standing character, soft smooth lighting, soft pastel colors, skottie young, 3d blender render, polycount, modular constructivism, pop surrealism, physically based rendering, square image

예술가는 하늘의 별만큼 많아서 한명씩 모두 나열하는 것은 의미가 없다고 생각하여 생략한다. 다만, 왠만큼 알려진 예술가는 모두 학습이 되어 있을 가능성이 높으니 원하는 작가 스타일이 있다면 넣어보면 된다. 아래는 괴기스런 그림을 그리는 작가를 예로 든다.

Stable Diffusion 괴기 예술가 스타
Stable Diffusion 괴기 예술가 스타

다만, 한가지 언급할 것은, 수식어로 여러 화가 이름을 올리면, 두 작가의 특징을 섞은 새로운 스타일이 만들어진다는 점은 언급한다. 아래 빨간색 그림은 Alejandro Bursido 라는 화가 스타일이고, 중간은 Cuno Amiet라는 화가 스타일의 풍경화인데, 맨 오른쪽은 이 두 스타일을 섞은 것이다. 이런 것이 인공지능을 잘 활용하는 예라고 생각하지만, 이런 그림은 정말 저작권 문제가 심할 듯.

위에서 이야기 한 것처럼, 화가 이름을 모두 나열하는 것은 의미가 없다. 필요하다면, 혹은 원하는 스타일을 찾고 싶다면 아래의 사이트를 이용하는 것도 좋다. 

일러스트레이션

Tiny cute bob ross toy, fuzzy hair, standing character, soft smooth lighting, soft pastel colors, skottie young, 3d blender render, polycount, modular constructivism, pop surrealism, physically based rendering, square image

일러스트레이션 분야도 예술가와 마찬가지로 매우 다앙햔 분야가 있어서 일일이 나열하는 것은 의미가 없다고 생각하여 그냥 이 자료에 들어 있는 사진만 추가한다. 

- Isometric assets(아이소메트릭), Low poly(로우폴리), Pixar Renders(픽사 렌더링), 3D Item Render(3D 렌더링)

수식어의 예 - Isometric assets, Low poly, Pixar Renders, 3D Item Render
수식어의 예 - Isometric assets, Low poly, Pixar Renders, 3D Item Render

- Children's book(아동 도서), vector(벡터 그래픽), Scientific Illustration(과학 도해), Comic(만화)

수식어의 예 - Children's book, vector, Scientific Illustration, Comic
수식어의 예 - Children's book, vector, Scientific Illustration, Comic

- Caricature(캐리커춰), Propaganda Poster(선전 포스터), Movie Poster(영화 포스터), Psychedelic Art(싸이키델릭 예술)

수식어의 예 - Caricature, Propaganda Poster, Movie Poster, Psychedelic Art
수식어의 예 - Caricature, Propaganda Poster, Movie Poster, Psychedelic Art

- Splash Art(스플래시 아트), Ukiyo-e(우키요에), Stickers(스티커), Fantasy Maps(판타지 지도)

수식어의 예 - Splash Ar, Ukiyo-e, Stickers, Fantasy Maps
수식어의 예 - Splash Ar, Ukiyo-e, Stickers, Fantasy Maps

감정

Cute sad girl toy, curly hair, standing character, soft smooth lighting, soft pastel colors, skottie young, 3d blender render, polycount, modular constructivism, physically based rendering, square image

- 긍정적 - Cozy(편안한), Romantic(로맨틱), Joyful(들거운), Energetic(활동적인)

감정 관련 수식어의 예 - Cosy, Romantic, Joyful, Energetic
감정 관련 수식어의 예 - Cosy, Romantic, Joyful, Energetic

-  긍정적 2 - Hope(희망), Lust(갈망), Peaceful(평화로움), Satisffaction(만족)

긍정적 감정 관련 수식어 - Hope, Lust, Peaceful, Satisffaction
긍정적 감정 관련 수식어 - Hope, Lust, Peaceful, Satisffaction

- 부정적 - Depressing(비관적인), lonliness(외로움), Grim(우울), Regret(후회)

부정적 감정 관련 수식어 - Depressing, lonliness, Grim, Regret
부정적 감정 관련 수식어 - Depressing, lonliness, Grim, Regret

- 부정적2 - Suffering(괴로운), Hopelessness(절망), Fear(공포), Disgust(역겨움)

부정적 감정 관련 수식어 - Suffering, Hopelessness, Fear, Disgust
부정적 감정 관련 수식어 - Suffering, Hopelessness, Fear, Disgust

4. 마법의 단어(Magic Words)

Tiny wizard with a hat toy, standing character, soft smooth lighting, soft pastel colors, skottie young, 3d blender render, polycount, modular constructivism, pop surrealism, physically based rendering, square image

- HDR, UHD, 64K 등의 단어를 넣어주면 그림의 질이 극적으로 향상된다. 아럐에서 왼쪽은 그냥 Landscape로 그린 그림이고 오른쪽은 HDR,UHD,64K 를 추가한 것으로, 동일한 씨드(1000)임에도 완전히 다른 분위기의 사진이 만들어진다.

HDR, UHD, 64K 등의 단어를 넣어서 인공지능 그림의 품질을 올린 예
HDR, UHD, 64K 등의 단어를 넣어서 인공지능 그림의 품질을 올린 예

이 이외에도 Highly detailed(매우 세밀한), Studio Lighting(스튜디오 조명), Professional(전문가), Trending on artstation(아트스테이션의 최신 경향), Unreal engine(언리얼 엔진), Vivid Color(선명한 강렬한 색), Bocke(보케)을 넣어주면 보다 감각적이며, 좀더 전문적인 느낌의 사진이 만들어지는 경향이 있다. 이외에도 High resolution scan이라는 수식어를 넣어주면 역사적인 (오래된) 사진의 느낌이 날 수 있다.

아래는 Sketch(스케치)와 Painting(회화)를 사용헀을 때의 변화이다. 스케치는 연필을 사용한 선화의 느낌이 나타난다.

Sketch(스케치)와 Painting(회화) 수식어를 사용한 사례
Sketch(스케치)와 Painting(회화) 수식어를 사용한 사례

Sketch of a car parked in front of a shop
Painting of a car parked in front of a shop

5. Stable Diffusion 파라미터

 

Stable Diffusion을 사용하면 단순하게 생각했을 때는 전혀 그림의 품질에 영향을 미치지 않을 것처럼 보이는 설정도 생성된 그림의 종류나 품질에 영향을 미친다. 이러한 예를 살펴본다.

Prompt 

Tiny robot scratching his head toy, standing character, soft smooth lighting, soft pastel colors, skottie young, 3d blender render, polycount, modular constructivism, pop surrealism, physically based rendering, square image

해상도 - 기본은 512*512

해상도는 그림의 가로 세로 크기를 결정한다. 하지만, 그림의 크기도 결과물에 영향을 미친다. 원래 Stable Diffusion 메델은 5121x512 짜리 이미지를 사용하여 학습했기 때문에, 일반적이로 이 크기로 지정하는 것이 가장 좋은 품질과 구성이 만들어질 가능성이 높다. 특히 초보자라면 512x512 로 설정하여 작업하는 것이 좋다.

아래 그림은 왼쪽은 512x512. 오른쪽은 567x448 으로 설정하고 생성한 그림이다. 다른 모든 설정은 동일하다. 보는 것처럼 씨드 번호를 포함해 모든 설정은 동일하게 하고 그림 크기만 다르게 했을 뿐인데도 완전히 다른 그림이 만들어짐에 유의한다. 특히, 그림의 크기를 크게하면 VRAM 요구량이 커진다는 것도 유의하라.

그림 크기 설정을 달리한 결과
그림 크기 설정을 달리한 결과

무분류기 안내(CFG, Classifier Free Guidance) - 기본 값은 7

이 설정은 창조성??과 프롬프트 준수성을 조절하는 파라미터이다. 적은 숫자를 입력하면 AI 의 자율성이 높아지고, 높은 값을 입력하면 입력된 프롬프트에 맞는 그림이 나올 가능성이 높아지지만, 다양성이 떨어지게 된다. 

아래는 "a red bird drinking water form a lake, children's book painting(호수에서 물을 마시는 빨간색 새. 아동 그림책)"이라는 프롬프트를 넣고, 분류 자유도 척도를 달리하여 테스트한 결과이다. 맨 왼쪽은 CFG를 0으로 설정한 경우로, AI가 프롬프트를 완전히 무시하고 마음대로 그렸다. 맨 오른쪽은 CFG를 15로 매우 높게 설정한 결과로, 프롬프트의 내용은 만족하지만 잘 살펴보면 결함이 나타나기 시작하였다. 대부분 7 정도로 설정하고 사용하는 것이 좋다. 이 설정은 VRAM 요구량이나 처리 속도에 영향을 미치지 않는다.

Stable Diffusion에서 CFG를 변경하며 테스트한 결과
Stable Diffusion에서 CFG를 변경하며 테스트한 결과

CGF 값은 대략 다음과 같이 영향을 일으킨다.

  • 2~6 : 창조성 높음. 프롬프트를 따리지 않을 가능성 높음
  • 7-10 : 대부분의 경우 추천함. 창조성과 준수성간에 균형이 잡혀있음
  • 10-15 : 프롬프트가 정말 좋고 정확하다고 확신할 때 사용
  • 16-20 : 프롬프트가 정말 좋지 않는 한 추천하지 않음

Step count - 기본은 25

Stable Diffusion은 맨 처음에 완전한 잡음으로부터 시작해서 점차적으로 최종 결과물을 만들어가는데, 이 파라미터는 이와 같은 잡음 제거 단계의 수를 의미한다. 이를 Inference Steps(추론 횟수)이라고 부르며, 대부분의 경우 숫자가 높을 수록 좋은 품질의 이미지가 만들어질 가능성이 높다. 대부분 10정도면 대부분의 형상이 완성되며, 25정도면 거의 완성된다. 

AI 그림의 추론 횟수에 따른 변화
AI 그림의 추론 횟수에 따른 변화

따라서 기본값 25를 사용하여 이미지 생성을 해 본 후, 마음에 드는 이미지에 필요한 경우 추가로 추론하도록 하는 것이 좋다. 아래 그림은 Easy Diffusion 에서 생성한 이미지에 마우스를 올렸을 때의 모습으로서, 현재 강조된 "Draw another 25 steps"를 누르면 추론 횟수가 추가된다. 

Easy Diffusion 추론 횟수 추가 방
Easy Diffusion 추론 횟수 추가 방

Seed(씨드) - 기본 값은 "random"

 씨드 번호는 최초의 잡음을 만들어내는 기본 값이다. 다른 설정이 완전히 동일해도 씨드가 달라지면 처음 출발 선이 다르기 때문에 완전히 다른 그림이 만들어진다. Stable Diffusion에서는 매번 그림을 생성할 때 마다 씨드가 자동적으로 변경되도록 설정되어 있다. 만약 이 값을 동일하게 하면 동일한 그림이 만들어지게 된다. 아래는 OpenArt  사이트에서 동일한 프롬프트로 생성한 이미지이다. (씨드는 0, 10, 20, 30로 주었다) 

샘플러(Sampler) - 기본값은 DDIM

Stable Difuusion의 샘플러는 이미지 생성중 이미지에서 잡음을 제거하는데 사용되는 방법이다. 각 샘플러마다 다음 단계를 계산하는 방법이 다르기 때문에 사용 가능한 이미지가 만들어지기 까지 걸리는 횟수, 시간이 달라진다. 초보자들은 DDIM을 사용하는 것이 좋다. 속도가 빠르며 10단계만에 쓸만한 이미지가 생성되기 때문이다.

아래 그림의 프롬프트는 "kawaii tiny cute unicorn emoji made of clay, iOS emoji , 3D clay blender render, rich vivid colors, smooth gradients, isometric front view, diffuse lighting, octane render, unreal engine" 이다.

Stable Diffusion에서 샘플러 변경 효
Stable Diffusion에서 샘플러 변경 효

모델(Model)

원본 글에서는 언급이 안되었지만, 그림 생성의 가장 중요한 요소는 사용하는 모델이다. 딥러닝 학습에 사용된 데이터에 들어있지 않은 것은 그려낼 방법이 없기 때문이다. 즉, 동물을 많이 학습시킨 모델은 동물이 잘 그려지고, 애니메이션 그림을 많이 입력한 그림은 애니메이션 그림이 더 잘 그려지게 된다. 따라서 자신이 그리고자 하는 주제에 따라 적당한 모델을 선택하는 것이 무엇보다 중요하다.

아래는 "photo of a rabbit driving a bicycle, in Tokyo at night"라는 프롬프트를 사용하여, Easy Diffusion 2.5에서 생성한 이미지이다. 씨드는 각각 0, 10, 20, 30이다. 토끼가 제일 중요한 주제인데도 토끼 형상이 나오는 건 하나뿐이다. ㅠㅠ 아마도 Easy Diffusion에서 사용하는 모델(sd-v1-4)에는 토끼 모양의 학습 데이터가 부족한 게 아닐까.

아래는기본 모델(sd-v1-4) 대신 Chilloutmix 로 바꾸서 동일한 프롬프트(photo of a rabbit driving a bicycle, in Tokyo at night)로 그려본 것이다. 씨드는 각각 0, 10, 20, 30이다. 토끼는 잘 표현되었는데, 특히 옷을 입은 토끼로 표현된 것은 Chilloutmix 모델 학습에 영향을 받은 것으로 보인다.

6. 중요한 팁

씨드의 효과

경우에 따라서는 동일한 프롬프트에 대해서도 어떤 씨드가 좋은 효과를 가져올 수 있다. 그러므로, 무작위로 돌려보다가 괜찮은 구성이 보이면 해당 씨드를 유지하면서 프롬프트를 약간씩 추가하거나 바꿔가면서 작업하면 좋은 결과를 얻을 수 있다. 또한 여러가지 수식어(modifier)의 효과도 확인해볼 수 있다. 

아래의 모든 이미지는 동일한 씨드, 동일한 파라미터를 사용하되, 프롬프트만 변경한 것이다. 전체적으로 구도가 비슷함을 알수 있다.

씨드를 고정하고 프롬프트를 변경하며 비교해 본 결과
씨드를 고정하고 프롬프트를 변경하며 비교해 본 결과

토큰의 효율성

프롬프트는 75개의 토킅까지만 효과가 있다. 좋은 그림을 얻고 싶다고 프롬프트에 단어를 계속 추가한다고 해도 새로운 의미가 추가되는 것이 아니라는 것이다. 긴 프롬프트를 만든 뒤, 그 뒤에 수식어(Modifier)로 특정 화가 이름을 추가해보면 이를 확인할 수 있다. 아래는 의미는 비슷하지만, 토큰의 수가 다른 여러가지 프롬프트를 나열한 것이다. 괄호내의 숫자는 토큰의 수이다. (단어 하나가 토큰 1개 인듯한데 왜 더 크게 나오는지 잘 모르겠음) 결론적으로, 프롬프트는 간결하게 작성하는 것이 중요하다.

A horse in the style of Vincent Van Gogh (11) 
A horse in the style of Van Gogh (10)
A horse by Vincent Van Gogh (7)
A horse by Van Gogh (6)
Horse by Van Gogh (6)
Horse Van Gogh (5)

단어의 순서

아래에서 왼쪽은 Pink ice cream으로 시작하고, 오른쪽은 Machine gun으로 시작하는 점 외에 사용된 단어는 거의 비슷하다. 이렇게 특히 일반적인 상황이 아닌 경우에는 꼭 나타나야 할 내용을 앞쪽에 배치하는 게 좋다.

프롬프트 단어 배치 순서의 효과
프롬프트 단어 배치 순서의 효과

얼굴 보정 도구를 활용하자

사람 사진을 생성하는 경우, 눈, 얼굴 형태 등이 이상하게 생성되는 경우가 종종 발생한다. 이때 Easy Diffusion 에 포함된 GFP-GAN 도구를 사용하면 해결될 수 있다.

부정적 프롬프트

부정적 프롬프트란 이미지에 포함시키지 말라고 지시하는 단어들이다. 특히 긍정적 프롬프트만으로 이미지를 생성해 보고, 후보 이미지로부터 나타나지 않았으면 좋겠다는 속성을 강제로 부여하는 방법으로 활용하면 극적인 효과를 볼 수 있다.

아래 왼쪽에서 징기스칸 초상화를 생성한 후, 동일한 씨드를 유지한 채(다른 파라미터도 고정하고) 부정적 프롬프트에  "black and white", monochrome"을 넣어서 다시 생성한 결과이다.

부정적 프롬프트를 활용한 효과
부정적 프롬프트를 활용한 효과

7. img2img in/out 페인팅

대충 그린 그림으로 전문가 예술로 바꾸기

그림 못 그리는 사람을 위한 가장 기쁜 소식. 아무리 못 그린 그림이라도 인공지능에게 자신이 원하는 프롬프트를 입력해주면 인공지능이 적당한 그림을 만들어준다. 아래는 그냥 대충 그린 그림이며, 이를 우측과 같이  initial image로 불러들이면 준비끝.

아래는 입력한 그림과 프롬프트"Digital painting of a magical pirates ship floating on a purple mist cloud, over a desert, vibrant colors, 3D pixar render, delicate details, strong sun rays"를 사용해 생성한 그림중 2개만 올린 것이다. 정말 그럴 듯하다. ㅎㅎ

스타일 변경

프롬프트를 편집해서 이미지 스타일을 변경시킬 수 있다. 즉, 쓸만한 그림을 찾았는데 약간 마음에 안든다면 프롬프트에 원하는 내용을 넣어서 이미지를 원하는 대로 바꿔줄 수 있다. 아래는 가운데에 있는 Original 이미지를 사용해서 바꾸는 예를 보인 것이다. 오른쪽 위는 Origianl 이미지를 img2img로 지정한 후 "Color pencil drawing of a baby duck"라고 프롬프트를 지정한 경우이고, 아래는 프롬프트를 "Digital art of a baby duck"로 지정한 경우이다. 

img2img 로 이미지의 스타일을 변경하는 방법
img2img 로 이미지의 스타일을 변경하는 방법

그림 생성형 인공지능을 사용해보면 알겠지만, 그러나 동일한 형태를 유지하도록 만드는 것은 매우 힘들다. 그리고 사용하는 설정에 따라서도 매우 달라질 수 있다. 아래 왼쪽은 원본 이미지이고, 나머지는 이 이미지에 프롬프트 "color pencil drawing of poodle puppy"를 적용한 결과이다. 가운데는 Easy Diffusion을 사용하였고, 오른쪽은 OpenArt.ai 에서 생성한 것으로, OpenArt에서는 거의 비슷한 이미지가 만들어졌다. Easy Diffusion에서는 아주 여러번 실험해 봤는데, 닮은 이미지가 거의 만들어지지 않았다. ㅠㅠ

Img2Img 변주

Img2Img를 사용하면 어떤 이미지를 변형시켜 비슷한 이미지를 얻을 수 있다. 이는 그림 생성형 인공지능의 특징으로, 동일한 프롬프트를 사용해도 여러가지 변형된 이미지를 쉽게 뽑아낼 수 있다. 

Easy Diffusion에서는 생성된 이미지위에 마우스를 올리면 나타나는 "Make similar image" 단추를 누르면 쉽게 생성할 수 있다. 왼쪽은 프롬프트 "cherry blossom in a empty park, by Thomas Kinkade"로 생성한 이미지중 하나이며, 오른쪽은 이 기능으로 만들어 본 비슷한 분위기의 그림이다.

InPainting 을 사용한 그림 수정

아래처럼 마스크를 적절히 사용하면 그림을 수정하거나 바꿀 수 있다. 

이미지 생성 인공지능을 사용한 그림 수정
이미지 생성 인공지능을 사용한 그림 수정

아래는 맨 위와 동일한 방법을 써서 생성해 본 결과이다. 액자를 비롯해 뭔가 깔끔하지 못하다. ㅠㅠ

심슨스 가족 거실에서 호머 심슨을 삭제한 결과
심슨스 가족 거실에서 호머 심슨을 삭제한 결과

 

8. OpenArt 쇼케이스

아래는 Stable Diffusion으로 만든 이미지와, 이 영상을 만들기 위해 사용한 프롬프트를 비교한 것이다. 왼쪽은 프롬프트북에 나온 작품, 가운데는 동일한 프롬프트로 직접 생성한 이미지이다.

아래는 인공지능 Stable Diffusion으로 그릴 수 있는 이미지의 극히 일부분일 뿐이다. 결론으로, 자신이 원하는 그림을 위해서는 자신의 프롬프트를 개발하는 것이 무엇보다 중요하다고... 말할 수 있겠다.

Full length oil painting of gorgeous woman as a translucent arctic fox spirit| detailed face| wearing white dress| straight white hair| mythical| elegant| hyperrealism| highly detailed| intricate detailed| volumetric lighting| Ukiyo-E| by Anne Stokes and Noriyoshi Ohrai
very detailed female, steampunk city taken over by plants in the background, d & d, fantasy, with blue flowers, beautiful face, hyperrealism delicate detailed complex, sophisticated, vibrant colors, volumetric lighting, pop surrealism art by Mark Ryden and Anna Dittmann
an oil painting of the autumnal equinox,a woman surrounded by autumn leaves, an airbrush painting by Josephine Wall, deviantart, psychedelic art, airbrush art, detailed painting, pre-raphaelite, 3d render, rococo art
full head and shoulders, beautiful female porcelain sculpture by daniel arsham and james jean, smooth, all white features on a white background, delicate facial features, white eyes, white lashes, detailed tangled white lillies and lillie leaves on the head, volumetric lighting
Miniature cafe diorama macro photography, cafe for mice, alleyway, ambient, atmospheric, british, bokeh,romantic
detailed miniature diorama a soviet residential building, brutalism architecture, car parking nearby, elderly man passing by, sunny day, warm and joyful atmosphere, summer, streetlamps, several birches nearby

Seed: 1955553677
An elegant winged fairy in the lord of the rings scenery landscape, looking out at a vast lush valley flowers and homes made of mushrooms, stream,sunrise, god's rays highly detailed, vivid color, cinematic lighting, perfect composition, 8 k, gustave dore, derek zabrocki, greg rutkowski, belsinski, octane render.
Oil painting of a fantasy treehouse by ivan shishkin and aivazovsky, highly detailed, masterpiece
landscape photography of fundatura ponorului by marc adamus, morning, mist, rays of light, beautiful
a beautiful landscape at dawn by atey ghailan, ismail inceoglu, michal lisowski, artstation, volumetric light, high detail, perfect
Seed: 2603509754
kodak portra 4 0 0, wetplate, fisheye, award - winning portrait by britt marling, 1 8 8 0 s kitchen, ghost, picture frames, shining lamps, dust, smoke, 1 8 8 0 s furniture, wallpaper, carpet, books, muted colours, wood, fog, plants, flowers

Seed: 2821464957
A monster is standing in a dimly lit hallway, terrifying visuals, horror elements, dark ambiance.

Seed: 940124883
high quality 3 d render neo - cyberpunk very cute half fluffy! wombat!! half cyborg with headphones, mechanical paw, highly detailed, unreal engine cinematic smooth, in the style of detective pikachu, hannah yata charlie immer, neon purple light, low angle, uhd 8 k, sharp focus
standing breaded chicken with a crown of a king in top of it, hyper realistic, 4k

Seed: 696140872

===========

이상입니다. 이 글의 원본은 https://openart.ai/promptbook 이며, 제가 원하는 내용을 위주로 편집하고, 동일한 프롬프트로 이미지를 생성한 결과를 추가했습니다. 배워야 할 게 너무너무 많다는 생각이 듭니다.

민, 푸른하늘