이 워크플로는 스테이블 디퓨전으로 책 표지를 생성합니다. 프롬프트를 바꿔주면 원하는 대로 생성할 수 있습니다. 책표지에는 아래와 같이 제목과 저자명을 포함합니다.
소프트웨어
텍스트를 원하는 위치에 정확히 표시하려면 스테이블 디퓨전 3를 사용하는 것이 좋습니다. 현재 SD3를 사용하려면 Stability AI에서 제공하는 API를 사용하는 방법뿐이 없습니다. 설치하는 방법은 이 글을 따라하시면 됩니다.
또, Flux 를 사용하는 방법도 있습니다. Flux는 현재 SD-Forge를 사용해서 로컬에서 돌릴 수 있습니다.
이 글에서는 이 두가지 방법을 사용하는 방법을 보이고, 결과를 비교해 보겠습니다.
따라하기(SD3)
1 단계: 모델 다운로드
체크포인트 모델: Juggernaut XL 모델을 다운로드 받아 ComfyUI\models\checkpoints 폴더에 넣어줍니다. (A1111과 모델을 공유할 경우 여기를 보세요) 이 모델은 인페인트에만 사용하므로, 인페인트를 하지 않을 경우엔 필요없습니다.
2 단계: 워크플로 불러오기
아래의 워크플로를 불러옵니다.
이 워크플로는 대부분 그냥 그대로 사용할 수 있지만, 때때로 오류가 발생할 수 있습니다. 그러한 경우, 다음과 같은 작업이 필요할 수 있습니다.
- 처음 사용할 때 - ComfyUI Manager 를 설치해야 합니다.
- ComfyUI를 오랜만에 사용할 때 - ComfyUI를 최신버전으로 업데이트해야 합니다.
- 노드가 없다고 (빨간색) 경고가 뜰 때 - 빠진 커스톰 노드를 가져오기해야 합니다.
- 불러오기 혹은 수행중 에러 발생시 - 커스톰 노드를 업데이트해야 합니다.
특히 이 워크플로는 SD3 API 를 사용하기 때문에 API 키가 없다는 메시지가 뜰 수 있습니다. 이 글에 있는 내용에 따라 API키를 저장하시기 바랍니다.
3 단계: 프롬프트 검토
이 워크플로에서는 아래와 같은 프롬프트를 사용합니다. 내용을 보시고 원하시는 대로 수정하시면 됩니다. 특히 "BlueSky"는 제가 사용하는 닉네임이니 마음대로 바꾸시면 됩니다.
프롬프트: A book cover with title “Jungle Adventure” at top and “by BlueSky” at bottom, a realistic illustration of blond woman in jungle
4 단계: 이미지 생성
이 워크플로 좌측에는 아래와 같은 [Fast Groups Muter]라는 노드가 있습니다. 여기에서 SD3는 켜주고, Inpaint는 꺼준 뒤 [Queue] 버튼을 누르면 이미지가 생성됩니다.
아래와 같은 이미지가 생성됩니다.
5 단계: 인페인트
생성된 이미지 중 일부만 마음에 안든다면, 인페인트를 이용할 수 있습니다. 먼저 [Fast Group Muter] 노드를 아래와 같이 설정해줍니다.
그 다음 [Image Receiver] 노드의 이미지에서 새로 그리고자하는 부분을 마스크를 그려줍니다. 그림을 우클릭하고 "Open In MaskEditor"를 누르면 마스크를 편집할 수 있습니다.
마스크 편집이 끝난 뒤, 다시 [Queue] 버튼을 누르면 인페인트가 완성됩니다. 만약 마음에 안드시면 계속 여러번 생성하셔도 됩니다. 아래는 Inpaint를 거쳐 생성한 이미지 입니다.
따라하기(Forge)
Forge 는 최근 Stable Diffusion 시리즈를 대체할 수 있는 이미지 생성모델로 각광을 받고 있는 모델입니다. 프롬프트를 이해하는 능력이나 텍스트 생성능력도 SD3 수준 이상으로 매우 뛰어나다는 장점이 있지만, 메모리 요구량이 최소 16GB라서 고가의 GPU가 필요하다는 단점이 있습니다. 그런데, VRAM이 적은 PC에서 Flux AI 실행시키기 를 사용하면 매개변수가 작고 빠르게 실행시킬 수 있는 Flux1 dev NF4 모델을 돌릴 수 있습니다.
여기에서는 이 모델을 사용해 동일한 책 표지를 생성해 보겠습니다.
1 단계: Forge AI 모델 다운로드
다음 두가지 중 하나를 선택하여 다운로드 받습니다.
- Flux1 dev FP8 - ComfyUI용 단일 체크포인트 파일(16GB 필요)
- Flux1 dev NF4 - VRAM이 적은 기기에서 돌릴 수 있는 작지만 빠른 버전(6GB/8GB/12GB 등)
다운로드 받은 후 webui_forge_cuXXX_torchXXX/webui/models/Stable-diffusion 폴더에 넣어줍니다. AUTOMATIC1111과 모델을 공유할 경우, stable-diffusion-webui/models/Stable-diffusion 에 넣어주시면 됩니다. (이 경우, 모델을 다운로드 받은 후 화면 새로고침(F5)가 필요합니다)
2 단계: Forge 설정
아래와 같이 UI는 flux로, Checkpoint 는 다운로드 받은 모델로 설정합니다(다운로드 받은 후 목록에 나타나지 않을 경우에는 맨 오른쪽의 Refresh 버튼을 눌러주시면됩니다).
3 단계: 프롬프트 검토
이 워크플로에서는 아래와 같은 프롬프트를 사용합니다. 내용을 보시고 원하시는 대로 수정하시면 됩니다. 특히 "Jone Doe"는 우리말로 아무개 정도되는 뜻이니, 자신의 이름으로 변경하셔도 됩니다.
프롬프트: A book cover with title “Jungle Adventure” at top and “John Doe” at bottom, a realistic illustration of blond woman in jungle
4 단계: 이미지 생성
이제 [Generate] 버튼을 누르면 이미지가 생성됩니다. 아래와 같은 이미지가 생성될 것입니다.
SD3와 Flux 비교
사실 SD3는 (API기는 해도) 풀 모델이고, Flux는 소형 버전이기 때문에 공정하게 비교하기는 힘듧니다. 하지만, 어쩄든 제가 사용해본 결과를 보면 아래와 같습니다.
- SD3는 상당히 지정한 이미지가 생성되는 확률이 높습니다. 약 70% 정도 되네요. 물론 그중에는 철자가 틀린 것도 있고... 텍스트가 정확하게 출력된 비율은 약 50%, 그림까기 완벽한 경우는 30~40% 정도 잡으면 될 것 같습니다.
- Flux 는 소형버전이라서 그런지 정확하게 표현되는 경우가 거의 없습니다. 위의 이미지가 가장 잘 나온 건데 그나마 철자가 틀렸고, 텍스트가 안나오는게 대부분이었습니다.
이상입니다.
이 글은 stable-diffusion-art의 글을 주제만 가지고 와서 제가 완전히 새로 작성한 글입니다.
- ComfyUI로 설치 및 사용법 기초
- ComfyUI 투토리얼
- ComfyUI를 위한 유용한 정보
- ComfyUI와 SDXL 사용법(1) - 기초
- ComfyUI에서 ControlNet 사용법
- 편리한 ComfyUI 워크플로 모음
- LCM-LoRA - 초고속 스테이블 디퓨전
- Stable Video Diffusion(비디오 스테이블 디퓨전)
- Stable Diffusion 인공지능 이미지 생초보 가이드
- Stable Diffusion 대표 UI - AUTOMATIC1111 설치방법
- Automatic1111 GUI: 초보자 가이드(메뉴 해설)
- Stable Diffusion에 대한 기본적인 이론
- ChatGPT로 스테이블 디퓨전 프롬프트 만들기