2024년 8월 1일 Flux. 1 이 출시된 이래, 이와 관련된 여러가지 활동이 이루어지고 있습니다. 많은 사람들이 사용방법을 알아내고, 이를 돌리기 위한 도구를 만들기 위해 노력해 왔습니다. 이제 조금 정리되었으므로, Flux의 도구와 자원을 정리해볼 때입니다.
- Flux AI 모델이란?
- Flux AI 모델의 작동 원리
- Flux AI 모델을 상업적으로 사용할 수 있나?
- Flux AI 모델 사용 방법
- Flux AI 로 야한 이미지를 생성할 수 있나?
- Flux와 스테이블 디퓨전의 차이
Flux AI 모델이란?
Flux AI 모델은 Black Forest Labs에서 개발되었으며, 사실적인 이미지를 생성하는데 뛰어난 이미지 생성용 인공지능 모델입니다. Flux AI 모델은 아래와 같은 세가지 모델이 존재합니다.
- Flux.1 Pro : 최고 품질의 Flux 모델로, 고품질 이미지가 필요한 전문적인 용도로 의도된 모델입니다. 이 모델은 자신의 PC에서 직접 돌릴 수 없습니다. API 나 이미지 생성 서비스를 통해서만 사용할 수 있습니다.
- Flux.1 Dev : 품질을 희생하는 대신 속도가 빠른 (가이드 농축을 포함한) 모델로서, 커뮤니티에서 널리 사용되는 개방형 모델입니다.
- Flux.1 Schnell : 1~4 샘플링 단계로 이미지를 생성할 수 있는 더 빠른 모델입니다. 대신 품질은 더 낮습니다.
즉, 로컬에서 돌릴 수 있는 모델중에는 Flux. Dev가 가장 인기있는 모델입니다.
프롬프트: A woman dressed in a deep purple outfit is reclining gracefully in an antique, elegant room with an air of timeless charm. Beside her rests a Louis Vuitton bag, its modern design contrasting with the classical atmosphere. In the background, the living room is adorned with an oil portrait painting, adding depth and richness to the scene.
"고색창연한 방에 자주색 옷을 입은 여인이 비스듬히 누워있다. 그녀 옆에는 루이비통 가방이 놓여져있고, 뒤의 거실 풍경으로 유화 초상화가 보인다." 이 문장을 ChatGPT에서 프롬프트로 바꿔서 입력했습니다. 아래의 예들도 동일합니다.
Flux AI 모델의 작동 원리
스테이블 디퓨전 모델과 마찬가지로, Flux AI 는 생성형 잠재 확산 이미지 모델(latent diffusion image model)로, 잠재 이미지 영역(latent space) 에서 무작위 잡음을 제거함으로서 이미지를 제거하는 방식으로 이미지를 생성합니다.
파라미터의 수
Flux AI 모델의 파라미터 수는 120억 개입니다. 참고로 SDXL은 35억개, SD 1.5는 약 10억개입니다. 생성형 AI 모델은 파라미터 수가 많아질 수록 좋은 결과물을 생성합니다. 이 때문에 Flux 가 SDXL보다 나은 이미지를 생성할 수 있습니다.
모델 아키텍처
아직까지 Flux AI 모델 아키텍처에 대한 정보는 그다지 많지 않습니다. Blakc Forest Labs사의 블로그에 따르면, Flux.1 디퓨전 모델은 아래와 같은 특징이 있습니다.
- 멀티모달(multimodal)과 패러랠(parallel) 디퓨전 트랜스포머 블록을 결합한 하이브리드 아키텍처
- Flow matching
- Rotary positional embeddings
- Parallel attention layers
프롬프트: A beautiful woman gently tilts her head back, feeling a soft breeze on her face. She is surrounded by large, blooming pink roses and fluffy clouds, creating a dreamy, ethereal atmosphere. The delicate interplay of light and color enhances the serene and romantic mood of the scene.
아름다운 여인이 고개를 살짝 젖히고 가벼운 바람을 느끼고 있다. 그녀 주변엔 구름과 커다란 핑크빛 장미가 둘러싸고 있다.
Flux AI 모델을 상업적으로 사용할 수 있나?
Flux AI 모델은 종류에 따라 별도의 라이선스가 있습니다.
Flux.1 Pro는 API나 온라인 서비스를 통해서만 사용할 수 있습니다. 이미지를 얻은 곳에서 라이센스를 확인해보셔야 합니다.
Flux.1 Dev는 비 상업용 라이센스하에 사용가능합니다. 출력 이미지 자체는 상업적으로 사용할 수 있지만, 모델 자체를 사용한 생성서비스를 호스팅하는 것은 라이센스에 어긋납니다.
Flux.1 Schnell은 Apache 2.0 라이센스를 따릅니다. 출력 이미지 및 이미지 생성 비지니스 호스팅을 포함한 사업적 사용이 가능합니다.
프롬프트: A striking woman with piercing blue eyes gazes intensely into the camera. She wears a yellow headscarf, a red mask covering the lower half of her face, and a black scarf around her neck. Behind her, the dark background is illuminated by vibrant graffiti art, painted in bold, colorful strokes, creating a dramatic and urban atmosphere.
노란 두건을 쓰고 빨간 마스크, 까만 목도리를 하고 있는 아름다운 푸른색 눈동자의 여인이 강렬한 눈빛으로 카메라를 쳐다보고 있다. 어두운 뒷 배경으로 다채로운 페인트로 그래피티가 그려져 있다.
Flux AI 모델 사용 방법
Text-to-Image
텍스트 프롬프트를 입력하여 이미지를 생성하는 가장 일반적인 방법입니다. 자세한 내용은 아래를 읽어보세요. 참고로 ComfyUI에서는 NF4 모델을 지원하지 않고, 메모리 요구량이 높은 FP8 버전만 지원합니다.
Image-to-Image
이미지를 입력하고, 그 이미지를 기반으로 새로운 이미지를 생성하는 방법입니다. 자세한 내용은 아래 글을 읽어보세요.
ControlNet
현재 ComfyUI에서는 Flux.1 dev NF4를 지원하지 않아서 테스트할 수 없습니다. 계속 알아보겠습니다.
Flux Video 워크플로
Flux AI는 이미지 모델이기 때문에 직접 비디오를 생성할 수 없습니다. 하지만, image-to-video AI 모델과 결합해서 비디오를 생성할 수 있습니다. 아래는 몇가지 옵션입니다.
Flux + CogVideo
ComfyUI용 워크플로만 있습니다.
Flux + Kling
Kling AI는 최신 AI 비디오 생성기입니다. Kling AI는 image-to-video를 지원하므로, Flux 이미지를 사용해 비디오를 생성할 수 있습니다.
Flux AI 로 야한 이미지를 생성할 수 있나?
Flux AI 기본 모델은 NSFW 이미지 생성을 지원하지 않습니다. 아마도 학습시 이러한 사진을 제외했을 가능성이 높습니다. 단 Civitai.com에 있는 LoRA 모델을 사용하면 NSWF 이미지도 생성할 수 있습니다.
Flux와 스테이블 디퓨전의 차이
두가지 모두 디퓨전 AI 모델이지만, 아키텍처가 다릅니다. 많은 Stable Diffusion 개발자들이 Flux에 참여하고 있습니다. Stable Diffusion 1.5는 매우 잘 학습된 모델입니다. Flux 개발에도 그들의 전문성을 발휘할 것이 분명합니다.
더 중요한 것은 두가지 모델 모두 자신의 PC에서 돌릴 수 있는 로컬 모델이라는 점으로, 어떠한 검열 혹은 개인정보 보호 문제를 피할 수 있다는 장점이 있습니다.
널리 사용되는 로컬 모델은 아래와 같습니다.
- Stable Diffusion: SD 1.5 and SDXL.
- Flux: Flux.1 Dev.
Flux.1 LoRA를 학습시키는 것은 자신의 PC 혹은 구글 Colab을 사용하면 가능합니다. 물론 다른 온라인 서비스를 사용할 수도 있습니다.
다만, Flux.1 체크포인트 모델 학습은 아직 개발 중으로, 나오더라도 GPU 요구량이 매우 높을 것으로 예상됩니다.
민, 푸른하늘
이 글은 stable-diffusion-art.com의 글을 번역하여 작성했습니다.
- ComfyUI로 설치 및 사용법 기초
- ComfyUI 투토리얼
- ComfyUI를 위한 유용한 정보
- ComfyUI와 SDXL 사용법(1) - 기초
- ComfyUI에서 ControlNet 사용법
- 편리한 ComfyUI 워크플로 모음
- LCM-LoRA - 초고속 스테이블 디퓨전
- Stable Video Diffusion(비디오 스테이블 디퓨전)
- Stable Diffusion 인공지능 이미지 생초보 가이드
- Stable Diffusion 대표 UI - AUTOMATIC1111 설치방법
- Automatic1111 GUI: 초보자 가이드(메뉴 해설)
- Stable Diffusion에 대한 기본적인 이론
- ChatGPT로 스테이블 디퓨전 프롬프트 만들기