AI 이미지/Stable Diffusion

Easy Diffusion 메뉴

하늘이푸른오늘 2023. 3. 27. 15:32

Easy Diffusion을 설치하고나서 실행하려 할 때 사용하는 메뉴에 대한 설명입니다. 대부분의 경우 상세하게 설정하지 않더라도 프롬프트(Prompt)만 입력하면 잘 수행됩니다. 

아래는 처음 실행된 후 보이는 화면으로 현재 Generate(생성) 탭이 켜진 상태입니다. 왼쪽 위는 가장 중요한 설정으로 프롬프트(Prompt)와 초기 이미지를 설정하는 곳이고, 그 아래로 이미지 설정(Image Settings), 이미지 수식어(Image Modifiers) 메뉴가 있습니다. 아래에는 각 부분 별로 자세한 설명이 있습니다. 

또한 그 아래로는 설정(Settings) 메뉴에 대한 설명 및 그림위에 나타나는 메뉴 버튼에 대한 설명이 있습니다.

프롬프트와 초기입력 사진

Stable Diffusion 메뉴1 - 프롬프트 및 초기입력 사진

  • Prompt: 생성하고자 하는 사진을 설명하는 단어를 입력합니다. 단어는 콤마(,)로 분리해줍니다. 한줄에 한번씩 실행됩니다. 즉, 긴 명령어의 경우에도 한 줄로 입력해야 합니다. 프롬프트 입력 방법에 관한 글은 별도로 작성할 예정입니다.
  • Load from a file: Prompt를 파일(.txt)에서 읽어올 수 있습니다. 마찬가지로 한줄에 한번씩 시행됩니다.
  • Negative Prompt: 사진에 적용되지 않기를 원하는 단어를 입력합니다.
  • Initial Image: 초기입력 사진을 지정합니다. Stable Diffusion은 입력된 사진을 기반으로 영상을 생성하게 됩니다.

이미지 설정

Stable Diffusion 이미지 설정 메뉴

이미지 설정(Image Setting)

  • Seed(씨드 번호) : 무작위로 이미지를 생성하기 위한 숫자입니다. 이 번호가 동일하면 동일한 영상이 나올 가능성이 높습니다.
  • Number of Images(이미지 숫자) : 
    • (total) : 전체 몇장을 생성할 것인지 입력합니다.
    • (in parallel) : 동시에 몇장을 생성할 것인지 입력합니다. (GPU가 여러대 있을 때 유용할 것 같음??)
  • Model(모델) : 영상을 어떻게 렌더링할 지 결정하는 데 사용되는 데이터 모델입니다. 학습한 데이터에 따라 달라지므로, 모델이 달라지면 완전히 다른 형태가 만들어지고, 모델에 따라 먹히는 명령이 달라질 수 있습니다.
  • Custom VAE : Variational Auto Encoder(가변형 자동 인코더)를 선택합니다. 복잡한 수학적 내용인데, 기존 모델과 유사하면서도 새로운 데이터를 생성하는 것이 목표라고 보면 됩니다. 원래 자체 VAE가 있는데, 다른 VAE를 적용할 때 사용합니다.
  • Image Size(이미지 크기) : 영상의 크기를 선택합니다. 영상의 크기를 다르게 하면 다른 종류의 영상이 만들어질 수 있습니다. 학습용 데이터는 대부분 512*512 이기 때문에 이 크기, 혹은 1:1로 하는 게 가장 좋다고 합니다.
  • Inference Steps(추론 횟수) : 추론이란, 학습을 통해 만들어진 모델을 실제로 새로운 입력 데이터에 적용하여 결과를 내놓는 단계를 말합니다. Stable Diffusion은 여러번 시도하여 영상을 생성하는데, Inference Steps란 이러한 시도 횟수를 말합니다. (사례 참조)
  • Guidance Scale(안내 척도) : 생성된 이미지가 입력한 Prompt를 얼마나 따를지를 제어합니다. 이 숫자를 크게 하면 가능한한 프롬프트를 많이 따르게 되며, 작게 하면 자율성이 높아집니다. 즉, Guidance Scale 값이 낮을 경우, 프롬프트를 참조하되 더 다양한 이미지가 만들어지게 되고, 높을 경우 거의 프롬프트에 포함된 내용이 반영됩니다. 값은 7.5 정도가 적당하다고 합니다. (사례 참조)
  • Output Format(출력 포맷) : 생성된 이미지의 저장 포맷(.jpeg 또는 .png)을 지정합니다.

렌더링 설정(Rendering Settings)

  • Show a live preview(실시간 미리보기) : 이미지가 렌더링되는 중간에  미리보기가 표시됩니다. 기본값은 꺼짐입니다.
  • Fix incorrect faces and eyes(얼굴과 눈 결함 수정) : 얼굴 복원 알고리듬 GFPGAN을 사용해 수정합니다.
  • Upscale image by 4x(이미지 4배 확대) : RealESRGAN을 사용해 최종 이미지를 4배로 확대합니다.
    • RealESRGAN_x4plus는 범용입니다.
    • RealESRGAN_x4plus_anime_6B는 애니메이션에 최적화되어 있습니다.

이미지 수식어(Image Modifiers)

Stable Diffusion 이미지 수식어 메뉴

  • 톱니바퀴 아이콘(오른쪽 위) : 수식어(Modifier)를 직접 입력 가능. 프롬프트 입력과 마찬가지로, 수식어를 콤마(,)로 분리하여 한줄로 만들 수도 있고, {} () [] | 등의 특수문자도 포함할 수 있습니다.
  • Image Style(이미지 스타일) : 각 항목에 나타나는 그림 아이콘의 종류를 지정합니다. Face(얼굴)과 Landscape(풍경) 중의 하나를 지정할 수 있습니다.
  • Thumnail Size(아이콘 크기) : 그림 아이콘의 크기를 지정합니다. 
  • Drawing Style(그림 스타일)

  • Visaul Style(비주얼 스타일)

  • Pen(펜)

  • Carving and Etching

  • Camera

  • Color(색)

  • Emotions(감정)

  • Artist(화가)

  • CGI Software (컴퓨터 제작 영상 소프트웨어)

  • CGI Rendering(컴퓨터 제작 영상 렌더링 소프트웨어)

시스템 설정(System Settings)

  • Theme(테마) : UI에 대한 색상 테마
  • Auto-Save Images(이미지 자동 저장): 이미지와 설정이 포함된 메타데이터 파일을 지정된 위치에 자동 저장합니다. 
    • Save Location(저장 위치) : 이미지를 저장할 폴더를 지정합니다.
    • Metadata format(메타데이터 포맷) : 이미지 생성 설정값 저장 파일 형식(none, txt, json, embed)를 지정합니다.
  • Block NSFW images(후방주의 이미지 차단) : 수위가 높은 사진이 생성되지 않도록 설정합니다.
  • Endable Sound(소리 활성화) : 작업이 완료되면 소리가 나오도록 설정합니다.
  • Process newest jop first(새로운 작업 먼저 처리) : 처리 순서를 변경합니다. 원래는 요청 순서대로 처리됩니다.
  • Open browser on startup(시작시 브라우저 열기) : 시작할 때 기본 브라우저(URL은 http://localhost:9000/)을 엽니다.
  • GPU memory usage(GPU 메모리 사용량) : GPU 메모리(VRAM)를 많이 사용할수도록 처리 속도가 빨라집니다.
    • Balanced :  거의 High와 비슷하지만, VRAM 사용량은 훨씬 적음
    • High(높음) : 가장 빠름. GPU 메모리 최대로 사용
    • Low(낮음) : 가장 느림. GPU 메모리가 3GB 혹은 4GB일때 추천
  • Use CPU (not GPU) : CPU를 사용해 이미지 렌더링합니다. 단, GTX/RTX 카드를 사용할 때보다 매우 느립니다.
  • Auto-Save Settings(설정 자동 저장) : 브라우저 실행시 설정을 복원합니다.
    • Configure(설정) : 이 단추를 누르면 복원될 내용을 선택할 수 있습니다.
  • Confirm dangerous actions(위험한 작업 확인) : 데이터가 손실될 수 있는 작업은 shift 키를 눌러야 하거나, "Are you sure?" 다이얼로그에서 확인을 받습니다.
  • Make Stable Diffusion available on your network (네트워크상에서 스테이블 디뷰전 공유) : 동일한 네트워크에 있는 다른 컴퓨터에서 이 웹페이지를 접근 가능하도록 설정합니다.
  • Network port(네트워크 포트) : 이 서버에 대한 포트 주소. http://localhost:9000 의 '9000'에 해당함. 변경 가능
  • Beta channel(베타 채널) : 최신 기능을 즉시 받을 수 있음(안정성은 떨어질 수 있음) 이를 설정한 후에는 프로그램을 다시 시작해야 합니다.

생성된 영상에 올려지는 버튼(Buttons in the rendered image)

생성된 영상의 버튼 메뉴

  • Seed(시드 번호) : 해당 이미지를 생성할 때 사용된 시드 입니다.
  • Use as Input(입력 이미지로 사용) : 해당 이미지를 img2img의 입력으로 사용합니다.
  • Download image(이미지 다운로드) : 이미지를 다운로드 합니다.
  • JSON : 이미지의 메타데이터를 JSON 포맷으로 받습니다.
  • Make Similar Images : 해당 이미지를 img2img로 사용하여 5개의 이미지를 생성합니다.
  • Draw another 25 steps(25 단계 추가) : 해당 이미지 설정을 사용해 추론 횟수를 25번 추가합니다.
  • Upsacle(업스케일)
  • Fix Faces(얼굴 수정) : 잘못된 얼굴과 눈을 GFPGAN을 사용해 수정합니다. (이미지 생성시 GFPGAN을 사용하지 않고 시행하면 메뉴에 추가됨)

=====

(원문 : https://github.com/cmdr2/stable-diffusion-ui/wiki/UI-Overview)에서 일부 수정하였습니다.

민, 푸른하늘

Easy Diffusion 사용법에 관한 글 모음