스테이블 디퓨전 3.5 미디엄(Stable Diffusion 3.5 Medium)은 일반용 그래픽카드에서 돌릴 수 있는 AI 이미지 모델입니다. 파라미터의 수는 26개로서, 8억개인 SD 3.5 Large에 비해 적습니다.
SD 3.5 미디엄은 메모리가 큰 GPU에서 이미지를 빨리 생성하고 싶은 경우, 혹은 메모리가 비교적 작은 PC에서 돌리고자 할 경우에 사용할 수 있습니다. Stablility AI에 따르면 256x256 부터 1440x1440 에 이르는 여러 해상도를 지원하는 최초의 스테이블 디퓨전 모델이라고 합니다.
소프트웨어
이 글에서는 스테이블 디퓨전용 GUI중에서도 제가 제일 좋아하는 ComfyUI를 사용합니다. ComfyUI가 처음이시라면, 설치 및 기본 사용방법 및 초보가이드를 확인하시기 바랍니다.
SD 3.5 모델
생성 시간
ComfyUI에서는 아래와 같은 SD 3.5 모델을 사용할 수 있습니다. 아래 수치는 RTX 4090을 기준으로 한 시간입니다. 참고로 제 3070 에서는 SD3.5 미디엄 모델로 15초가 소요되었습니다.
모델 | 1024x1024 이미지 생성시간 |
SD 3.5 미디엄 | 4초 |
SD 3.5 Large | 20초 |
SD 3.5 Large Turbo | 10초 |
여기에서 솔 수 있는 것처럼 미디엄 모델은 SD 3.5 중에서 가장 빠른 모델입니다.
이미지 사이즈
가장 표준적인 해상도는 SDXL이나 Flux와 마찬가지로 1024x1024입니다. 다른 종횡비를 원할 경우, 대략적으로 100만 픽셀에 가까운 해상도를 선택할 수 있습니다.
- 1:1 – 1024 x 1024
- 5:4 – 1152 x 896
- 3:2 – 1216 x 832
- 16:9 – 1344 x 768
또한 SD3.5는 256x256 부터 1440x1440까지의 해상도를 지원한다고 합니다. 이는 아래에서 테스트 해보겠습니다.
메모리 요구사항
SD 3.5 미디엄의 최소 메모리 요구사항은 8GB VRAM입니다.
SD 3.5 미디엄 설치 방법
여기에서는 ComfyUI에 SD 3.5 미디엄 모델을 설치하고 사용하는 방법을 기술합니다.
0단계: ComfyUI 업데이트
ComfyUI는 2024년 10월부터 SD 3.5를 지원하기 시작했습니다. 그 이후 업데이트하지 않았다면, 여기에 있는 방법대로 ComfyUI를 최신버전으로 업데이트해야 합니다.
1단계: SD 3.5 미디엄 모델 다운로드
SD 3.5 Medium FP8 체크포인트 모델을 다운로드 받아 ComfyUI/models/checkpoints 폴더에 넣어줍니다. (A1111과 모델을 공유하고 싶은 경우엔 여기를 읽어보세요)
2단계: ComfyUI 워크플로 다운로드
SD 3.5 미디엄 체크포인트 모델은 기본 워크플로에서도 사용할 수 있습니다. 하지만, 적절한 해상도로 설정해주는 것이 중요합니다. 아래는 이 글에서 사용하는 워크플로입니다.
여기에서 [Queue] 를 누르면 아래와 같은 이미지가 생성됩니다.
스테이블 디퓨전 3.5 미디엄 모델 설정
샘플링 방법
테스트해보시면 아시겠지만, 모든 샘플링 방법이 SD 3.5에 적용되는 것이 아닙니다. 현재로서는 샘플링 방법은 Euler, 스케줄링은 normal로 설정하고 사용하는 것이 좋습니다.
CFG 척도
CFG척도는 이미지 생성시 프롬프트를 어느정도 따를 것인지를 제어하는 매개변수로, 높은 값을 줄 수록 창의도(?)는 낮아지고 프롬프트를 따르는 정도가 높아집니다. SD1.5나 SDXL과는 달리 SD3.5는 낮은 CFG 값에 맞춰져 있습니다. 따라서 CFG를 3~4 정도로 설정하는 것이 좋습니다.
CFG=0.5 | CFG=1.0 | CFG=1.5 |
CFG=3.0 | CFG=4.5 | CFG=6.0 |
이미지 크기
SD3.5 미디엄은 혼합 해상도에서 256 -> 512 -> 768 -> 1024 -> 1044로 점진적으로 학습이 되었습니다. 아래는 여러가지 해상도로 생성한 이미지입니다.
256x256 | 512x512 | 768x768 |
1024x1024 | 1440x1440 |
위에서 보는 것처럼 SD3.5는 256 부터 1440까지 모든 해상도에 걸쳐 괜찮은 이미지를 생성할 수 있습니다만, 1024x1024가 가장 효과적인 것으로 생각됩니다.
민, 푸른하늘
이 글은 stable-diffusion-art.com의 글을 번역하면서 제가 테스트한 결과로 대체하여 작성한 글입니다.
- ComfyUI로 설치 및 사용법 기초
- ComfyUI 투토리얼
- ComfyUI를 위한 유용한 정보
- ComfyUI와 SDXL 사용법(1) - 기초
- ComfyUI에서 ControlNet 사용법
- 편리한 ComfyUI 워크플로 모음
- LCM-LoRA - 초고속 스테이블 디퓨전
- Stable Video Diffusion(비디오 스테이블 디퓨전)
- Stable Diffusion 인공지능 이미지 생초보 가이드
- Stable Diffusion 대표 UI - AUTOMATIC1111 설치방법
- Automatic1111 GUI: 초보자 가이드(메뉴 해설)
- Stable Diffusion에 대한 기본적인 이론
- ChatGPT로 스테이블 디퓨전 프롬프트 만들기