AI 이미지/Flux AI

SDXL 모델과 Flux1.dev 모델 비교

하늘이푸른오늘 2025. 1. 2. 22:39

SDXL 과 Flux1.dev는 인공지능 이미지 모델중 가장 유명한 두가지 모델입니다. 둘다 1024x1024 급의 고해상도 이미지 생성을 지원합니다. 현재 시점으로는 SDXL 쪽이 더 많은 자원(모델 학습용 도구, ControlNet이나 LoRA 등)이 존재하지만, 아마도 근시일 내로 Flux 모델도 보완될 것이라고 보입니다.

그러면 SDXL 모델은 지워버리고 Flux로 갈아타야 할까요? 이 글에서는 SDXL과 Flux1.dev 모델의 장단점을 비교해 보겠습니다.

소프트웨어

이 글에서는 SD Forge 웹UI를 사용하여 이미지를 비교해 보겠습니다. 아래는 사용할 체크포인트 모델이빈다.

생성 속도

아래는  Nvidia 30700 GPU를 사용하여 Euler 샘플러, 20단계로 설정하여 1024x1024 이미지 1장을 생성하는데 걸린 시간입니다(cmd 화면에 나타나는 시간 기준). Flux1.dev 가 4배 이상 많이 걸리네요.

  • SDXL: 10 초
  • Flux1.dev: 48 초

텍스트 생성

 AI 모델을 사용해서 읽을 수 있는 텍스트를 생성하는 것은 어려운 일이었습니다. Flux 모델은 어떨까요? SDXL과 Flux 모델을 비교해 봤습니다. 아래는 프롬프트입니다.

프롬프트: a portrait photo of a 25-year old beautiful woman, busy street street, smiling, holding a sign “SDXL vs Flux”

SDXL:

Flux:

보시는 것처럼 그냥 Flux 모델의 승리입니다. 모든 이미지에서 텍스트가 올바르게 렌더링 되네요.

프롬프트 이해도

프롬프트 이해도란 모델이 프롬프트를 정확하게 따르는 능력을 말합니다. 여기에서는 인간의 자세와 물체의 배치를 사용해 평가해 보겠습니다.

자세 제어

아래는 프롬프트입니다. 왼손은 높게 들고, 한발로 서있다는 내용입니다.

프롬프트: Photo of a woman with pink hair raising her left hand above her head. Stand with one leg on a hardwood floor.

SDXL:

Flux:

여기에서도 Flux의 승리입니다. SDXL 보다 원하는 자세를 올바르게 생성합니다. 세장 모두 정확하게 생성되었네요. 반면 SDXL 의 경우엔 외발로 서있지 않은 이미지가 하나, 손을 높이 쳐들고 있지 않은 이미지가 하나 있습니다.

물체의 배치

이번에는 물체의 배치(구도) 를 얼마나 잘 따르는지 확인해 보겠습니다. 아래 프롬프트는 책 위에 해골이 있고 오른쪽엔 오렌지, 왼쪽엔 사과를 놓으라는 내용입니다.

프롬프트: Still life painting of a skull above a book, with an orange on the right and an apple on the left

SDXL:

Flux:

여기에서도 마찬가지로 Flx 모델의 경우 완벽하게 프롬프트를 따르고 있습니다. 반면 SDXL의 경우, 해골이 책 위에 올려진 것은 정확한데, 과일의 배치는 전혀 맞지 않네요.

손 렌더링

손을 정확하게 그려내지 못하는 것은 Stable Diffusion AI 이미지 모델의 약점중 하나입니다. Flux 모델과 비교해 보겠습니다.

프롬프트: photo of open palms, detailed fingers, beach, sea

SDXL:

Flux:

SDXL 로 생성한 이미지 중에는 가운데 것 하나만 그나마 진짜 손처럼 보이는데, Flux 모델의 경우 세 이미지 모두 완벽하네요. 진짜 사진이라고 해도 알아차리기 힘들 것 같습니다.

얼굴

이번엔 얼굴을 확대해서 그려보는 과제입니다. 시리아인 할아버지 얼굴입니다.

프롬프트: photo of a 85 year old Syrian man, detailed face, eyes, lips, nose, hair, realistic skin tone, freckles, skin texture

SDXL:

Flux:

얼굴은 두가지 모델 모두 잘 생성합니다. 기본 형태는 달라서 다른 얼굴이 나오지만요. 시리아 인이라는 프롬프트를 생각했을 때, 저는 SDXL 쪽이 더 잘 생성하는 것 같네요(Juggernaux 모델을 사용했습니다)

스타일

이번에는 SDXL 스타일을 적용시켜보겠습니다. 단, 부정적 프롬프트는 적용하지 않도록 했습니다. Flux모델은 부정적 프롬프트를 지원하지 않기 때문입니다. 

표현주의 스타일

프롬프트: expressionist woman. raw, emotional, dynamic, distortion for emotional effect, vibrant, use of unusual colors, detailed 

SDXL:

Flux:

SDXL 모델이 스타일을 더 정확하게 따르는 것 같네요. Flux의 경우엔 너무 사실적인 이미지가 생성되었습니다.

픽셀 아트

프롬프트: pixel art of a dragon. low-res, blocky, pixel art style, 8-bit graphics, pixelated, 90s video game

SDXL:

Flux

SDXL이 훨씬 더 잘 표현하네요. Flux는 픽셀이느껴지지 않을 정도로 너무 부드럽습니다. 물론 원본으로 보면 픽셀이 보이긴 합니다. 그런데, 픽셀 아트는 색자체가 제한이 되어야 하는데... 싶네요.

광고 포스터

프롬프트: advertising poster style sneaker. Professional, modern, product-focused, commercial, eye-catching, highly detailed

SDXL:

Flux:

흠... SDXL쪽이 훨씬 그럴 듯하네요. Flux 모델은 뭔가 50년대 스타일? 5색도 포스터가 아니라, 3색도 포스터인 것처럼 색도 부족하고, 뭔가 실사가 아니라 드로잉같은 느낌으로 생성되었네요.

결론

이 글에서 테스트해본 대부분의 이미지에서 Flux 모델은 상당히 희망적입니다. 특히 사람의 자세나 텍스트, 구도 등을 잘 렌더링합니다. 프롬프트를 더 잘 이해하고요.

그런데 특히 스타일링 부분에서는 SDXL이 뛰어난 부분도 있습니다. 용도에 따라 골라서 써야 할 듯 싶네요.

민, 푸른하늘

이 글은 Stable-diffusion-art.com의 글을 번역하면서 제가 직접 테스트한 결과 이미지로 대체하여 작성한 글입니다.