AI 이미지/Stable Diffusion

SDXL 0.9: AI 이미지 생성의 혁신

하늘이푸른오늘 2023. 7. 18. 14:43

한달전, Stable Diffusion을 개발한 stability.ai에서 Stable Diffusion의 후속 모델인 SDXL (Stable Diffusion XL) 베타 버전에 이어 0.9 버전을 발표했습니다. 얼마 후에는(원래 발표에 따르면 7월 중순이니까 이미 발표되었어야 하지만) 1.0이 정식 공개될 예정으로 있고요.

제가 아직 전체적으로 돌아보지는 못했지만, 아래와 같이 여러가지 도구들을 따로따로 분리해서 사용할 수 있어, 일반인들이 사용하기는 편리해질 듯 싶습니다. https://clipdrop.co/stable-diffusion 에 들어가면 직접 테스트 가능합니다.

SDXL 0.9 시험 사이트 - Cliipdrop
SDXL 0.9 시험 사이트 - Cliipdrop

또한 사용하는 파라미터 수가 대폭 늘어나서 훨씬 디테일이 살아있고 구도가 안정적인 이미지가 생성된다고 하네요. 아래는 위 사이트에서 생성해본 사례입니다. 프롬프트는 "Glowing jellyfish floating through a foggy forest at twilight", 어스름한 안개낀 숲속에 떠도는 발광 해파리입니다.

상세한 내용은 아래 보도 자료를 읽어보시기 바랍니다.

====

2023년 6월 22일 - stabiliity.ai

오늘 Stability AI는 스테이블 디퓨전 text-to-image 모델 제품 중에서 가장 발전된 SDXL 0.9를 발표합니다. SDXL 0.9는 지난 4월에 성공적으로 출시된 Stable Diffusion XL 베타에 비해 이미지와 구도의 디테일이 크게 향상되었습니다.

이 모델은 현재 ClipDrop을 통해 액세스할 수 있으며 API는 곧 제공될 예정입니다. 현재 연구용 모델을 사용할 수 있으며, 1.0으로 전환되는 7월 중순에 공개될 예정입니다.

최신 소비자용 GPU에서 실행할 수 있는 SDXL 0.9는, 생성형 AI 이미지에 비약적인 발전을 이루었습니다. 영화, 텔레비전, 음악, 교육용 비디오를 위한 극 사실적인 창작물을 생성할 수 있을 뿐만 아니라, 디자인 및 산업용으로도 발전된 기능을 제공함으로써 SDXL은 AI 이미지를 위한 실시계 응용의 최첨단이 되었습니다.

사례

아래는 SDXL 베타(왼쪽)과 0.8에서 생성된 이미지를 비교해 본 사례입니다. 두달만에 얼마나 발전했는지 느끼실 수 있을 것입니다.

프롬프트: aliens walk among us in Las Vegas, scratchy found film photograph

SDXL beta(왼쪽)과 0.9버전(오른쪽) 비교 - 라스베거스에 나타난 외계인
SDXL beta(왼쪽)과 0.9버전(오른쪽) 비교 - 라스베거스에 나타난 외계인

프롬프트 : A wolf in Yosemite National Park, chilly nature documentary film photography
부정적 프롬프트 : 3d render, smooth, plastic, blurry, grainy, low-resolution, anime, deep-fried, oversaturated

SDXL beta(왼쪽)과 0.9버전(오른쪽) 비교 - 요세미티 국립공원의 늑대
SDXL beta(왼쪽)과 0.9버전(오른쪽) 비교 - 요세미티 국립공원의 늑대

프롬프트: manicured hand holding up a take-out coffee, pastel chilly dawn beach instagram film photography
부정적 프롬프트: 3d render, smooth, plastic, blurry, grainy, low-resolution, anime

SDXL beta(왼쪽)과 0.9버전(오른쪽) 비교 -  커피잔을 들고 있는 매니큐어 칠한 손. 해변, 인스타그램
SDXL beta(왼쪽)과 0.9버전(오른쪽) 비교 -  커피잔을 들고 있는 매니큐어 칠한 손. 해변, 인스타그램

아울러 SDXL 시리즈는 기본적인 텍스트 프롬프트를 확장하는 다양한 기능을 제공합니다. image-to-image  프롬프트(이미지를 입력하면 해당 이미지의 변형을 얻을 수 있습니다), 인페인트(이미지 일부 재구성), 아웃페인트(기존 이미지의 바깥쪽을 확장) 등이 그러한 예입니다.

SDXL 0.9의 세부 내역

이와 같이 SDXL 0.9 이 생성한 이미지의 구성이 개선된 핵심원동력은 파라미터의 수(모델이 학습되는 신경망의 가중치와 편향(bias)의 합계)가 베터 버전에 비해 대폭 증가했기 때문입니다.

SDXL  0.9는 다른 오픈 소스 이미지 모델에 비해 파라미터의 수가 가장 많습니다. 매개변수 기본 모델은 35억개, 매개변수모델 앙상블 파이프라인은 66억개로서(최종 출력은 두 모델에서 생성하고 결과를 취합하여 생성됨)에 달합니다. 2단계 파이프라인 모델은 1단계에서 생성된 출력에 좀 더 세밀함을 추가하기위해 사용됩니다.

참고로, 베타 버전의 경우, 파라미터 수는 31억개이며, 단일 모델만 사용합니다.

SDXL 0.9는 현재 가장 큰 OpenCLIP 모델(OpenCLIP ViT-G/14)를 포함하여 2개의 CLIP 모델에서 실행되어 0.9의 실행능력이 강화되었으며, 1024x1024 해상되의 매우 사실성인 이미지를 생성할 수 있습니다.

SDXL  팀에서는 이 모델의 사양과 적용사례에 대해 추가적인 연구 블로그를 곧 공개 예정입니다. 

프롬프트: beautiful scenery nature glass bottle landscape, purple galaxy bottle 
(SDXL 0.9 - 1024x1024)

보라색 은하수 풍경을 담고 있는 병
보라색 은하수 풍경을 담고 있는 병

시스템 요구사항

강력한 산출물 및 첨단 모델 아키덱터에도 불구하고, SDXL 0.9 는 일반 소비자용 GPU에서 작동됩니다. 윈도10, 윈도11 및 Linux 를 지원하며, 16GB RAM  및 Nvidia GeForce RTX20 그래픽카드(최소 VRAM 8GB) 이상이 필요합니다. 리눅스 유저의 경우에는 이에 상응하는 16 GB VRAM이 장착된 호환가능 AMD 카드도 사용할 수 있습니다.

베타 버전 사용 통계

4월 13일 SDXL 베타버전이 공개된 이래, 약 7000명에 달하는 Discord 커뮤니티 사용자로부터 적극적인 반응이 있었습니다. 이들 사용자들은 70만장 이상의 이미지를 생산해서 매일 평균 2만장을 생성하였습니다. Discord 커뮤니티 경연대회에서는 3521매의 SDXL 이미지가 출품되었으며, 이중 3521 매의 SDXL  이미지가 수상하였습니다.

프롬프트: magical realism; manicured fingers holding a piece of white heart-shaped sea glass up against the setting sun realistic film photography (SDXL beta - 480x480)

하트모양의 바다 유리를 담고 있는 손
하트모양의 바다 유리를 담고 있는 손

사용방법

SDXL 0.8 는 현재  Stability AI에서 개발한 Clipdorp 플랫폼에서 사용할 수 있습니다. Stability AI API드림스튜디오(DreamStudio) 사용자는 6월 26일 월요일 부터 이 모델 및 NightCafe와 같은 다른 이미지 생성도구를 상용할 수 있을 것입니다.

SDXL 0.9는 사용자 피드백을 수집하기 위해 일정 기간 동안, 연구 목적으로만 제공될 예정이며, 완전히 개선한 후 일반에게 공개될 예정입니다. 이를 실행하기 위한 코드는 Github에서 공개적으로 사용할 수 있습니다.

이 모델을 사용하고자 하는 연구자분들은 SDXL-0.9-Base 모델 링크SDXL-0.9-Refiner 링크에 지원해 주시면 감사하겠습니다. HuggingFace 계정에 로그인하여 접근을 요청하세요. 다시한번 SDXL 0.9는 연구 목적을 위해서만 사용할 수 있음을 알려드립니다.

향후 일정

2023년 7월 중순에 SDXL 1.0 을 완전히 공개할 것을 목표로  하고 있습니다.

라이센스 조건

SDXL 0.9는 비 상업적, 연구목적 라이선스하에 공개되며, 해당 사용 약관의 적용을 받습니다.

===

이 글은 SDXL 0.9 공개에 따른 stability.ai 사의 블로그 글을 번역한 글입니다.

민, 푸른하늘