AI 이미지/Stable Diffusion

SD 3.5 - Stability AI의 깜짝쇼

하늘이푸른오늘 2025. 3. 4. 14:09

2024년 10월 22일, Stability AI에서 2024년 6월 발표했던 SD 3.0에 비해 상당히 진보한 차세대 이미지 생성 모델인 Stable Diffusion 3.5(SD 3.5)를 공개했습니다(링크

예상치 못한 복귀

 이번 Stable Diffusion 3.5는 정말 깜짝쇼에 가깝습니다. 인공지능 이미지 생성 분야에서  Stable Diffusion 3.0에 대한 실망이  커지고 Flux 가 급격한 성장을 보이는 가운데, 이런 발표를 예상했던 사람은 거의 없었습니다. 사실 2024년 6월에 발표된 버전 3.0은 커뮤니티를 전혀 설득하지 못했습니다. 이미지 품질은 열악했고 라이선스가 강화되는 바람에 많은 제작자들이 다른 솔루션으로 돌아서게 만들었죠.

이런 상황과 Stability.AI이 재정적으로 곤란을 겪고 있다는 소문이 합쳐지면서, Stable Diffusion 시리즈가 점차 쇠퇴할 것이라는 징조가 나타났고, 그에 따라 Flux는 커뮤니티에서 SDXL의 정신적 후계자로 자리매김하게 되었습니다.

하지만 이번에 Stability.AI는 과거의 실패에서 교훈을 얻은 듯, 보다 효율적인 모델과 관대한 라이선스를 제공하며 복귀를 시도하고 있습니다.

SD 3.5

세가지 모델

Flux등의 최신 모델과 마찬가지로, SD 3.5는 아래와 같이 세가지 버전으로 출시되었습니다.

  • Stable Diffusion 3.5 Large : 모델의 매개변수는 81억개로서, 뛰어난 품질과 뛰어난 프롬프트 이해도를 갖춘 기본 모델로서, Stable Diffusion 제품군 중에서 가장 강력한 성능을 자랑합니다. 이 모델은 1메가 픽셀 해상도의 전문적인 용도에 적합합니다.
  • Stable Diffusion 3.5 Large Turbo : Stable Diffusion 3.5 Large의 농축버전으로서, 4 단계만에 프롬프트를 정확하게 따르는 고품질의 이미지를 생성합니다.
  • Stable Diffusion 3.5 Medium : 매개변수가 25억개이고 고성능 MMDiT-X 아키텍처 및 학습 기법을 채택한 모델로, 소비자용 하드웨어에서 '즉시' 실행되도록 설계되어, 품질과 사용 용이성이 균형을 이루고 있습니다. 0.25~2메가 픽셀 해상도의 이미지를 생성할 수 있습니다.

SD 3.5의 특징

SD 3.5는 여러가지 면에서 상당한 개선이 이루어졌습니다.

  • 프롬프트에 대한 이해도
    • 텍스트 설명을 더 잘 따릅니다.
    • 프롬프트에서 "강조"표시를 통해 제어하는 기능을 도입하여, 정확하게 생성합니다.
    • 특정 스타일을 지정하기 위한 주제 해시태그(#boho, #fasion 등)를 지원합니다.
  • 이미지 품질
    • 생성된 이미지의 사실감이 향상되었습니다.
    • 텍스트 렌더링 기능이 상당히 개선되었습니다.
    • 3D, 사진, 회화, 선화(line drawing) 등 다양한 스타일을 지원합니다.
  • 접근성 및 성능
    • 소비자용 컴퓨터에서 최적의 성능을 발휘합니다(특히 Medium 및 Large Turbo).
    • 복잡한 프롬프트 없이도 포괄적이고 다양한 표현을 생성합니다.
    • 시중에 나온 여러가지 도구와 호환됩니다.

향상된 사용 용이성

개인화는 새로운 버전 개발의 중심 축입니다. 트랜트포머 블록에서 쿼리-키 정규화(Query-Key Normalization)를 통합함으로써, 학습 프로세스의 안정성을 높이고, 미세 조정 작업을 단순화시켰습니다. 이 기법은 앞으로 다양한 적응방법 및 개발 방법을 열어줄 것입니다.

그러나 이러한 아키텍처는 몇가지 타협이 필요합니다. 다른 모델은 동일한 프롬프트와 동일한 씨드를 넣으면 동일한 결과가 나오지만, SD 3.5는 의도적으로 다양한 결과를 생성합니다. 이기능은 결함이라기 보다는 기본 모델에서 더 광범위한 지식기반과 더 다양한 스타일을 보장합니다.

하지만, 이로 인해 다음과 같은 특성을 고려해야 합니다.

  • 부정확한 프롬프트를 넣으면 더 불확실한 결과가 생성될 수 있습니다.
  • 생성할 때마다 미적 품질이 달라질 수 있습니다.

접근성 및 라이선스

Large 모델을 포함한 모든 모델은 Stability AI Community Licence에 따라 공유됩니다. 이 라이선스 조건은 아래와 같습니다.

  • 개인 및 연구 용도의 경우 무료 사용
  • 연간 수익이 100만 달러 미만인 기업의 경우, 무료로 상업용 사용
  • 생성된 이미지는 생성자에게 완전히 귀속됨

SD 3.5  는 아래에서 다운로드 받을 수 있습니다.

Stable Diffusion 3.5 사용방법

SD 3.5는 다양한 플랫폼에서 사용가능합니다.

결론

SD 3.5는 Stability.AI 사의 전략적 전환점입니다. SD 3가 실패한 이후, Stability.AI는 접근성과 사용자 편의를 우선시하는 접근법으로 돌아오는 것으로 보입니다. 이러한 새로운 모델이 어느 정도 영향을 미칠 것인가 하는 것은 커뮤니티에서 이 버전을 얼마나 수용하느냐에 달려있습니다(4 개월 이상 지난 현재 시점에서 볼 때 그다지 성공한 것 같지는 않습니다).

개발자에게는 상대적으로 관대한 라이선스 및 모듈식 아키텍처가 관심을 끌겠지만, 아티스트와 창작자들은 일상적으로 높은 품질의 결과물을 원하는 것 뿐입니다. Flux가 논의의 중심에 서있는 현재의 생태계에서 Stable Diffusion은 기술적인 이러저러한 약속보다, 그 결과물로 입증해야 할 것입니다. 

그런데, 현재 ArtificialAnalysis.ai의 Txt2img 리더보드에 따르면, Stable Diffusion 3.5는 10위권에 머물고 있습니다. 여전히 Black Forest Labs의 FLUX.1 모델이 오픈소스 모델로는 가장 앞서 있는 모습이구요. 

Stability.AI가 이대로 퇴장할 것이라고 생각되지는 않습니다. 혹시 그렇더라도 Flux의 독주가 계속될 것이라고 믿어서도 안됩니다. 6개월 후면 또다른 세상이 되어 있을테니까요.

이상입니다.

이 글은 stablediffusion.blog의 글SD 3.5 공개 보도자료를 참고하여 작성하였습니다.