2024년 8월 1일, Black Forest Labs가 출범하며, Flux 시리즈의 이미지 생성 모델을 발표하였습니다(링크). 생성형 인공지능이 전세계적으로 급속하게 성정하고 있는 가운데, Flux는 Stablility AI의 Stable Diffusion을 대체하는 생성모델로 각광을 받으며 화려하게 등장했습니다.
미디어용 생성형 AI에 특화된 신생 스타트업인 Black Forest Labs가 발표한 Flux는, 오픈 소스 이면서도 인상적인 성능을 보여주고 있으며, Stable Diffusion 3 뿐만 아니라 DALL-E와 미디저니와 같은 이미지 AI의 선두 업체들과도 경쟁할 수 있는 제품입니다.
FLUX.1 이란
대규모의 이미지와 캡션 데이터를 사용해 학습된 FLUX.1 모델은 자연어 설명으로부터 이미지를 생성하는 기능이 매우 뛰어납니다. 특히 이 모델은 언어에 대해 깊이 이해하고 있어, 복잡한 메시지를 해석하고 매우 자세하고 일관된 이미지를 생성할 수 있습니다.
FLUX.1은 혁신적인 멀티모달, 평행 디퓨전 트랜스포머를 포함하는 "하이브리드 아키텍처"를 채택하였습니다. 생성 모델 학습을 위한 일반적이고 개념적으로 간단한 방법인 플로 매칭(flow matching)을 적용하여, 디퓨전은 특별한 경우로 취급하여 기존의 디퓨전 모델을 뛰어넘었다고 합니다. Black Forest Labs에 따르면 이 혁신이 스트림 매칭과 기타 정교한 기술 최적화를 통합함으로써, 기존의 디퓨전 모델모다 훨씬 성능이 뛰어나다고 주장합니다.
![]() |
![]() |
FLUX.1의 가장 큰 장점 중 하나는 사람의 손을 정확하게 사실적으로 표현할 수 있다는 것입니다. 기존의 이미지 생성모델에서는 인체의 해부학적 표현(특히 손)에 약했던 점을 감안할 때 이는 매우 주목할만 합니다. 원래 이러한 한계는 손과 관련된 학습 데이터가 부족하였기 때문이었습니다. 이후 미디저니와 같은 대형 AI 이미지 생성기에서는 이러한 약점을 이미 극복했지만, FLUX.1과 같은 개방형 모델이 다양한 포즈의 손을 정확하게 표현해 내는 것은 매우 놀라울만한 발전입니다.
기술적 특징
FLUX.1의 기술적 특징은 아래와 같습니다.
- 향상된 이미지 품질 : 고해상도에서 매우 놀라운 품질의 이미지를 생성합니다.
- 정확한 인체 표현 및 사실주의 : 매우 사실적이고, 해부학적으로 정확한 이미지를 생성합니다.
- 높은 이미지 이해도 : 입력한 프롬프트에 기초해, 매우 정확하고 관련성이 높은 이미지를 생성합니다.
- 뛰어난 속도 : Flux Schenell 모델을 사용하면 훨씬 빠르게 생성할 수 있습니다.
Flux.1 은 아래와 같은 세가지 종류가 있습니다.
- FLUX.1 Dev : 비 상업적 라이선스로, 커뮤니티에서 개발할 수 있도록 공개된 기본 모델
- FLUX.1 Schenell : 오픈소스 라이선스에 따라 10배 빠르게 실행시킬 수 있는 농축(distilled) 버전
- FLUX.1 Pro : API로만 사용할 수 있는 미공개 버전
아래는 보도자료에 포함된 FLUX.1 계열 모델과 다른 경쟁사 모델의 성능을 비교한 그림입니다.
보시는 것처럼, Flux.1 Dev 만으로도 미디저니나 DALL-E, SD3-Ultra 모델을 뛰어넘는 성능을 보이고 있습니다.
FLUX.1 사용 방법
시험삼아 FLUX.1으로 이미지를 몇장 뽑아보고 싶으신 분이라면, Fal.AI 및 Replicate 플랫폼을 사용해 시험해 볼 수 있습니다.
Fal.AI | Replicate |
- FLUX.1 Pro - FLUX.1 Dev - FLUX.1 Schenell |
- FLUX.1 Pro - FLUX.1 Dev - FLUX.1 Schenell |
아래는 Replicate 사이트에서 Pro 버전을 사용하는 예입니다.
아래의 두가지 모델은 HuggingFace 사이트에서 다운로드 받을 수 있습니다.
Black Forest Labs 팀은 Github에 샘플 코드를 공개하였으며, 이미 많은 개발자와 고급 사용자들이 이 모델과 코드를 이용해 자신의 PC에서 테스트하였습니다.
ComfyUI에서 사용하는 방법
이 블로그의 FLUX 카테고리를 검색해보면 여러가지 방법으로 FLUX DEV (특히 Flux Dev GGUF 버전으로)을 사용하는 예를 보실 수 있을 것입니다. ComfyUI는 이미 오래전부터 Flux를 기본으로 지원하고 있습니다. 특히 ComfyUI FLUX 예제 페이지에 가면 여러가지 워크플로를 보실 수 있습니다.
![]() |
![]() |
사업 전략과 라이선스
Black Forest Labs에서는 제품별로 다양한 요구사항과 옵션을 제공하고 있습니다.
- Flux.1 Pro : 가장 성능이 좋은 고급 모델로서, API를 통해서만 접근 가능하며, 뛰어난 시각적 품질이 요구되는 전문가를 대상으로 합니다. 아직 상세한 가격정보는 정해지지 않았지만, 미드저니에 준하는 프리미엄 비즈니스 모델로 운영될 것으로 예상됩니다.
- Flux.1 Dev : 중급 버전인 Flux.1 Dev는 성능과 접근성간의 균형을 추구합니다. 개발자 및 연구자를 대상으로 설계되었으며, 비상업적 조건을 만족하는 한, 미세조정을 포함한 여러가지 변형이 가능합니다. 상업적인 활용을 위해서는 Black Forest Labs와 협의가 필요합니다.
- Flux.1 Schenell : Flux 모델의 입문 기능을 하고 있는 버전으로, 품질을 희생하고 속도를 위해 최적화된 모델입니다. 오픈 소스 라이선스(Aphache 2.0)에 따라 배포되며, 대규모의 실험적 혁신의 가능성을 열어두었습니다.
이러한 3단계 전략은 경제적인 발전을 추구하면서도 다양한 커뮤니티에 대한 생성형 AI에 대한 접근성을 높이는 양면을 추구한다고 볼 수 있습니다. 전문가, 연구자 및 일반 사용자까지 다양한 요구를 충족하는 광범위한 솔루션을 제공하고 있습니다.
향후 전망
FLUX는 텍스트-이미지 시장에 큰 변환점을 가져왔습니다. Andreessen Horowitz가 주도한 3,100만 달러 규모의 펀딩에 힘입어, 이 회사는 앞으로도 생성형 AI 시장에 지대한 영향을 미칠 것으로 보입니다.
VQGAN, Stable Diffusion 등의 주요 혁신 기업에 참여했던 연구자들과 엔지니어들로 구성된 Black Forest Labs 팁은 이미 텍스트-비디오(Text-to-Video) 시스템을 개발할 계획으로 있습니다. 이는 영화나, 광고, 교육 등 다양한 분야에서 더 많은 혁신을 가져올 것으로 생각됩니다.
Black Forest Labs는 투명성과 보안을 강조하는 동시에 첨단 기술에 대한 접근성을 높임으로써, 보다 개방적이며 협력적, 혁신적인 생성형 AI 생태계를 이끌고자 합니다. FLUX가 Open AI와 같은 거대 기업과 맞설 수 있는 경쟁력을 가졌는지는 아직 판단할 수 없습니다. 하지만, 생성형 이미지 인공지능 시장은 아직도 시작에 불과하다는 점을 명심해야 할 것입니다.
이 글은 stablediffusion.blog의 글을 번역하며 일부 수정하여 작성한 글입니다.