AI 이미지/Stable Diffusion

SDXL 0.9로 AI 이미지 생성 - Clipdrop

하늘이푸른오늘 2023. 7. 19. 00:58

바에 앉아있는 코뿔소
바에 앉아있는 코뿔소

한달전, 스테이블 디퓨전을 개발해서 오픈 소스로 공개한 stability.ai에서 그 후속 모델인 SDXL 을 공개했습니다. 현재 사용가능한 버전은 0.9이며, 7월 중순에 1.0을 공개할 예정이라고 합니다(오늘 18일이니 약속시간이 좀 지난듯) 자세한 내용은 보도자료 글을 읽어보시면 됩니다.

스테이블  디퓨전 UNET의 매개변수는 8억 6천만개 정도인데, SDXL 0.9는 매개변수가 100억개 정도로 늘어나서 더 세밀하고 구도가 뛰어난 이미지를 생성할 수 있다고 합니다. 기본 생성 이미지의 해상도도 1024x1024로 커졌고요. 

그래서... 이걸 사용해보고 싶기는 하지만, 현재는 AUTOMATIC1111에서 기본으로 지원하지 않고 확장으로 겨우겨우 시험해 볼 수 있는 상태에서 테스트가 만만하지는 않습니다. 그나마 가장 좋은 방법은 stability.ai에서 시험용 사이트로 공개한 Clipdrop 에서 테스트해보는 방법일 것 같습니다. 게다가 어차피 얼마 지나지 않으면 1.0 버전이 발표될테고, 그러고 얼마 안있으면 AUTOMATIC1111도 기본으로 지원해줄 테니까, 구지 새로 확장을 설치할 필요가 있을까 싶기도 하고요.

아래는 Clipdrop.co 사이트를 사용하는 방법과, 이미지를 설정하는 방법, 그리고 몇가지 예제를 소개합니다. 이 사이트에는 이미지를 생성하는 기능 이외에도 기존의 이미지를 편집할 수 있는 여러가지 도구들도 있는데, 이것들은 다른 글에서 소개하도록 하겠습니다.

1. Clipdrop 사이트 사용법 및 유료회원 가입 방법

Clipdrop.co/stable-diffusion을 접속하면 아래와 같은 화면이 나오는데, 위쪽에 있는 입력창에 프롬프트를 입력하고 [Generate] 버튼을 눌러주면 이미지를 생성할 수 있습니다. 이때 아래쪽에 있는 여러 샘플 중에 마음에 드는 것이 있다면 그 이미지를 눌러주면 해당 프롬프트가 자동으로 프롬프트 입력란에 들어갑니다.  아래는 선글라스를 낀 강쥐 사진을 클릭한 경우입니다.

SDXL - Clippro 화면
SDXL - Clippro 화면

[Generate]  버튼을 누르면 아래와 같은 화면이 나옵니다. 4개의 이미지가 동시에 생성되는데, 다른 이미지를 600개 정도 생성한 뒤에 자신의 이미지가 생성되게 됩니다. 이렇게 기다리는 게 싫다면 가운데 있는 [Subscribe] 버튼을 눌러 유료회원으로 가입하면 됩니다. 

SDXL Clipdrop - 이미지 생성중
SDXL Clipdrop - 이미지 생성중

아래는 생성된 결과입니다. 한 4-5분 정도 걸린 것 같네요. 프롬프트는 "Shot of Vaporwave fashion dog in miami" 입니다. vaporwave는 전자음악 서브장르인가본데, 이미지로 검색해보면 아래처럼 연보라 쪽 형광색을 기본으로 하는 이미지 쪽인 것 같네요.

그래서 그냥 가입해 보기로 했습니다. 1년에 8만2천원... 1개월에 6900원이면 커피 두잔 정도? 물론 충분히 감수할 만한 금액입니다만, 매일 쓸 것도 아닌데... 좀 아깝다 싶네요. 그런데 그 아래쪽에는 1개월에 1200원. 아마도 1개월은 특별 할인이 적용되나 봅니다. 뭐... 테스트용이니까 1개월이면 충분하다 싶어 가입하기로 했습니다. 

clipdrop pro 가입
clipdrop pro 가입

Start Pro를 누르면 아래와 같은 화면이 나옵니다. 적절하게 카드 정보를 입력하면 가입이 완료되었다는 화면이 나옵니다.

아래도 예제중의 하나로 프롬프트 "Robotic hand with gold and white accents" 로 생성한 이미지입니다. 2-3초 만에 생성되니 기분이 좋네요. ㅎㅎㅎ

그런데... 아무런 추가 설정없이 생성한 이미지인데, 너무 품질이 뛰어 나네요. 

스테이블 디퓨전 v1.5 이미지와 SDXL 0.9 이미지 비교

지금부터는 stable-diffusion-art.com에서 포스팅한 "15 SDXL prompts that just work"이라는 글에 나온 프롬프트를 사용하여 Stable Diffusion 과 SDXL 결과물을 비교해 보도록 하겠습니다. 왼쪽 두개는 Stable Diffusion으로 생성한 이미지이며 오른쪽 2개는 Clipdrop에서 생성한 이미지입니다.

스테이블 디퓨전에서는 기본모델인 v1-5-pruned-emaonly.ckpt 를 사용했으며, 샘플러는 Euler a, 이미지 크기는 512x512로 설정했으며, 다른 설정은 건드리지 않은 상태에서 8장을 생성해 괜찮은 것을 선정했습니다. Clipdrop의 경우 설정이 없어 그냥 생성했고 이미지 크기는 1024x1024입니다. 한번에 4장이 생성되는데, 이중에서 2장을 선정했습니다. 

아울러 Clipdrop에서는 부정적 프롬프트를 입력하는 방법이 없어서 스테이블 디퓨전 쪽도 부정적 프롬프트는 입력하지 않고 생성했습니다. 

1. 코뿔소 바

프롬프트: photo of a rhino dressed suit and tie sitting at a table in a bar with a bar stools, award winning photography, Elke vogelsang

와... 정말 비교할 필요도 없네요. 누가 봐도 위하고 아래는 명백히 다르다는 게 느껴질 것 같습니다.

그래도 하나만 더 비교해 보겠습니다. 

2. 숲속의 몬스터

프롬프트 : a giant monster hybrid of dragon and spider, in dark dense foggy forest

그래도 위보다는 차이가 덜하긴 합니다만, 여기도 마찬가지로 품질 차이가 극명하네요. 물론 스테이블 디퓨전은 다른 모델로 바꾸었을 경우 더 좋은 이미지가 나올 수도 있겠지만, SDXL의 경우 기본 모델만으로도 이정도 퀄러티를 뽑아낼 수 있다니 정식으로 공개되고 LoRA, ControlNet이나 Regional Prompter 등 확장을 사용할 수 있게되면 어느 정도의 이미지를 생성할 수 있을지 정말 기대가 됩니다.

세번째입니다. 지금부터는 스테이블 디퓨전에서 다른 모델을 사용해 이미지를 생성하는 방향으로 틀고 비교해 보겠습니다.

3. 비누방울과 어린이

모델 : Dreamlike Photoreal v2.0, Cartoon Style Classic v1
프롬프트: a little boy with ginger hair wearing denim overalls chasing bubbles. clean pastel painting, beautiful detailed face, lots of bubbles, photorealistic 

SDXL이 약간 카툰 스타일이라서 Cartoon Style Classic v1 으로도 한장 뽑아봤는데, 비교하기가 민망하네요. 아마도 Dall-E 혹은 Mid-Journey를 사용하면 이렇게 자연스러운 이미지가 생성될지 모르겠다... 싶은데, 그래도 어쨌든 품질이 엄청나네요. 정식으로 공개되면 삽질이 엄청 줄어들 것 같습니다.

4. 꽃속의 여인

모델 : HenmixReal v4.0
프롬프트 : beautiful woman wearing fantastic hand-dyed cotton clothes, embellished beaded feather decorative fringe knots, colorful pigtail , subtropical flowers and plants, symmetrical face, intricate, elegant, highly detailed, 8k, digital painting,trending on pinterest, harper’s bazaar, concept, art, sharp focus, illustration, Tom Bagshaw, Lawrence Alma-Tadema, Alphonse Mucha 

그래도 다른 이미지에 비하면 차이가 심하지는 않네요. 스테이블 디퓨전 v1.5 기반 파생모델은 기본적으로 여자들 이미지는 품질이 좋다는 게 여기서도 나타나는 것 같습니다.

5. 검은색 장갑을 착용한 여전사

모델 : GhostMix v20 Baked VAE
프롬프트: a woman with black armored uniform, futuristic, giant robot, inspired by Krenz Cushart, neoism, kawacy, wlop, gits anime 

전체적으로 SDXL 0.9로 생성한 이미지는 전반적인 구도가 안정적임을 알 수 있습니다. 물론 세부 디테일 표현도 훨씬 뛰어나죠. 위쪽 이미지는 크기가 작아 잘 안느껴지겠지만, 원본 사이즈로 보면 많이 부족하다는 것을 느낄 수 있을 것입니다. 로보틱에 강점이 있다는 Ghost Mix 모델을 사용했는데도 이렇네요.

6. 지하철을 기다리는 남자

지금부터는 구지 스테이블 디퓨전 1.5 모델과 비교해야할 의미가 없어 그냥 Clipdrop 사이트에서 SDXL 0.9로 생성한 이미지만 보여드립니다. 참고로 여기에 있는 프롬프트는 https://stable-diffusion-art.com/sdxl-prompts/ 에서 가져온 것입니다.

프롬프트: b&w photography, model shot, man in subway station, beautiful detailed eyes, professional award winning portrait photography, Zeiss 150mm f/2.8, highly detailed glossy eyes, high detailed skin, skin pores 

7. 총을 든 여전사

SDXL 이미지를 보니 비교해 봐야 할 것 같아 한번 더 비교 이미지를 만들어 봤습니다. 

모델 : ProtoGen v2.2 Anime
프롬프트 : a woman in a futuristic suit holding a gun in her hand, looking at the camera, cyberpunk art, neo-figurative, anime 

예전에는 위의 이미지만으로도 황홀했는데, 사람이 참 간사하다 싶네요. 물론 ProtoGen v2.2 Anime로 생성한 이미지가 그다지 나쁜 것은 아닌데, SDXL로 생성한 이미지에는 비할 바 못되는 것 같습니다. 특히 인물과 배경이 서로 어울리는 정도를 보면 그 차이가 극명합니다.

8. 돌 쌓기

프롬프트 : a beautiful stack of rocks sitting on top of a beach, a picture, red black white golden colors, chakras, packshot, stock photo 

===

이상입니다. 거듭 말씀드리지만, SDXL 0.9로 생성한 이미지는 스테이블 디퓨전 1.5 모델을 사용해 여러가지 꼼수? 내지는 기법을 동원해 최상의 결과물을 뽑아낸 것에 비견되는 혹은 그 이상의 품질인 것 같네요. 스테이블 디퓨전에서는 프롬프트 엔지니어의 역할이 아주 중요했는데, 앞으로는 그마저도 필요성이 낮아지지 않을까... 하는 생각이 들고, 이 정도 퀄러티의 이미지를, 그것도 서로 비슷한 컨셉이 유지되는 이미지를 지속적으로 뽑아낼 수 있다면 이미지, 사진을 주업으로 삼는 분들에게 훨씬 더 충격이 클 것 같다는 생각을 해봤습니다. 

민, 푸른하늘