AI 이미지/Flux AI

FLUX와 HiDream 비교

하늘이푸른오늘 2025. 4. 19. 22:52

제가 2년전 Stable Diffusion에 대해서 글을 쓰기 시작한 이래, 이미지 생성 인공지능 분야에 오늘날 같은 춘추전국시대가 도래할지는 아무도 예상하지 못했을 것입니다. 현재 텍스트-이미지 리더보드를 보면, 10위 이내의 서비스/모델이 모두 작년 10월 이후에 서비스를 시작했고 올해 시작된 것이 6개라는 것만 봐도 얼마나 치열한 경쟁과 개선이 이루어지고 있는지를 알 수 있을 것입니다.

이 중에서 오픈소스로 공개되어 자신의 PC로 돌릴 수 있는 모델은 HiDream이  4위를 차지하고 있고, Flux는 7위에 올라 있습니다. 지금은 거의 잊혀진거나 다름없이 보이는 SDXL 3.5는 18위에 올라 있네요. 

엊그제 ComfyUI 에서 HiDream-li 모델을 지원하게 되었으니, Flux1.dev와 비교를 해보기로 했습니다. 예전 Flux가 처음에 등장했을 때 SDXL과 비교했던 글을 올렸던 것처럼요.

소프트웨어

이 글에서는 ComfyUI를 사용하여 HiDream-li-dev 모델과 Flux.1 dev 모델을 비교하겠습니다. 비교에 사용하는 워크플로는 다음과 같습니다.

HiDream_dev_simple.json
0.01MB
Flux1-dev-simple.json
0.01MB

생성 속도

아래는 제 3070을 사용해 두 모델의 생성속도를 비교한 것입니다. HiDream은 3분 정도가 소요된다고 보면 되고, Flux의 경우엔 대부분 TeaCache를 사용하므로 1분 정도로 잡으면 될 것 같으니, 생성속도는 3배 정도 차이가 난다고 생각하면 되겠네요.

모델 FLUX.1-dev HiDream
상세 모델: flux1-dev.sft
샘플러: Euler, nomal

모델: hidream-i1-dev-bf16.safetensors
샘플러: lcm, simple
샘플링 단계: 28

샘플링 단계: 28, TeaCache: off
전체 실행속도: 2분 48초
샘플링 속도 : 1분 51초
전체 실행속도: 3분 41초
샘플링 속도 :  2분 46초
샘플링 단계: 20, TeaCache: off 전체 실행속도: 2분 02초
샘플링 속도 : 1분 24초
샘플링 단계: 20, TeaCache: on 전체 실행속도: 1분 35초
샘플링 속도 : 48초

텍스트 생성

Stable Diffusion의 경우 텍스트를 생성하는 것은 어려운 일이었습니다. 특히 글이 길어질수록 실수가 많아졌죠. 하지만 Flux 모델이후엔 많이 개선되었습니다. 그럼 HiDream 모델은 어떨까요? 아래는 프롬프트입니다.

프롬프트: a portrait photo of a 25-year old beautiful woman, busy street street, smiling, holding a sign board. The top of the sign board reads “HiDream vs Flux” and the bottom reads “Which is the better?”

Flux:

HiDream:

Flux의 경우엔 4개 중 2개는 완벽하게 텍스트가 표현되었고, 2개는 철자가 약간 틀린 이미지가 생성되었습니다. HiDream의 경우엔 4개의 이미지가 모두 정확하게 텍스트를 렌더링하였습니다. 다만... HiDream의 경우 씨드번호가 다름에도 불구하고 모든 여성이 완전히 동일하게, 심지어는 배경도 거의 비슷하게 생성되네요. 

이번엔 다른 프롬프트로 시험해 보겠습니다. 레스토랑의 정면은 Restaurant라고 쓰여진 통유리가 있고, 정면 위쪽에는 간판간판에는 WarmLight이라고 쓰여져 있고, 그 아래로 Italian restaurant, Tel:013-666-4433 이라고 쓰여져 있다는 내용입니다. 가게 앞에 메뉴판이 올려져 있는 이젤이 있고요.

프롬프트: Realistic image of a restaurant on a busy street. The front of the restaurant is made of glass, with a glass door on one side. The word Restaurant is written on the glass. At the top of the facade is a sign. The sign says WarmLight in large letters, and below that it says Italian restaurant, Tel:013-666-4433. In front of the store is an easel with a menu on it.

Flux:

HiDream:

둘 다 생각만큼 텍스트를 잘 배치하는 건 아니네요. ㅠㅠ

프롬프트 이해도

프롬프트 이해도란 모델이 프롬프트를 정확하게 따르는 능력을 말합니다. 여기에서는 인간의 자세와 물체의 배치를 사용해 평가해 보겠습니다.

자세 제어

아래는 프롬프트입니다. 왼손은 높게 들고, 한발로 서있다는 내용입니다.

프롬프트: Photo of a woman with pink hair raising her left hand above her head. Stand with one leg on a hardwood floor.

FLUX:

HiDream:

흠... Flux는 4개 중에서 1개만 성공했네요. 예전 테스트에서는 모두 성공한걸로 나왔는데... ㅎ 이상하군요. HiDream의 경우에는 4개의 이미지 중에서 3개가 정확하게 생성되었습니다. 그런데 여기에서도 구도가 매우 비슷하다는 게 흥미롭네요. 

물체의 배치

이번에는 물체의 배치(구도) 를 얼마나 잘 따르는지 확인해 보겠습니다. 아래 프롬프트는 책 3권위에 해골이 있고 오른쪽엔 오렌지 2개, 왼쪽엔 사과 1개가 있는 정물화를 생성하라는 내용입니다.

프롬프트: Still life painting of a skull above three books, with two oranges on the right and an apple on the left

FLUX:

HiDream:

FLUX의 경우, 왠만큼은 프롬프트를 따르고 있습니다. 그런데 이번에 테스트하면서 책을 3권 오렌지는 2개로 지정했더니, 완전히 똑같이 따른 것은 1개이고, 나머지는 숫자가 남거나 모자르거나 하네요. 반면 HiDream의 경우, 책의 수는 1개 외에는 모두 정확한데 오렌지가 2개 있다는 내용을 따르는 경우는 전혀 없네요.

혹시나 프롬프트 자체에 문제가 있는 것은 아닌지 해서, ChatGPT를 통해 프롬프트를 좀더 정확하게 기술했습니다. 유화라는 점, 오래된 나무 책상 위에 올려져 있다는 점, 배경이 어두운 갈색에서 검은색으로 변해가는 색이라는 점, 왼쪽 위에 부드러운 조명이 있다는 점, 17세기 네덜란드 스타일의 작품이라는 점을 추가한 내용입니다.

프롬프트: An oil painting in the style of classical still life. A human skull rests atop a stack of three aged, leather-bound books at the center of the composition. These objects are arranged on an old, weathered wooden desk with visible grain and scratches, suggesting years of use. On the right side of the books, two ripe oranges sit with subtle highlights on their textured peels. To the left, a single red apple with a glossy surface reflects the warm light. The background is a dark, muted brown gradient that fades into black at the edges, enhancing the sense of depth and stillness. A soft, directional light from the top left casts dramatic shadows across the skull, fruits, and the worn surface of the desk, emphasizing texture and form. The painting evokes a vanitas atmosphere, with a moody, contemplative tone and brushwork reminiscent of 17th-century Dutch still life masters. 

FLUX:

HiDream:

이번엔 Flux도 HiDream도 정확하게 표현하네요. 역시나 프롬프트가 길어질 수록 정확하게 렌더링한다는 것이 확실합니다. 그런데 HiDream의 경우 구도가 거의 비슷한 이미지가 생성된다는 게 신기하네요. 마치 세장의 사진이 동일한 것 처럼 보입니다. 하지만 잘 살펴보시면 책상의 모습이나 책 등이 조금씩 다르다는 걸 아실 수 있습니다.

손 렌더링

손을 정확하게 그려내지 못하는 것은 Stable Diffusion AI 이미지 모델의 약점중 하나입니다. 그러나 Flux 모델과 HiDream과 같은 요즘 나오는 모델은 거의 이런 단점이 없죠. 

프롬프트: photo of open palms, detailed fingers, beach, sea 

FLUX:

HiDream:

두 가지 모델 모두 손을 잘못 렌더링하는 경우는 아얘 발생하지 않습니다. 이제는 더이상 괴물처럼 생성되는 경우는 없을 것 같습니다. 다만 HiDream의 이미지가 좀 더 진짜같은 느낌이네요.

얼굴

이번엔 얼굴을 확대해서 그려보는 과제입니다. 시리아인 할아버지 얼굴입니다.

프롬프트: photo of a 85 year old Syrian man, detailed face, eyes, lips, nose, hair, realistic skin tone, freckles, skin texture

Flux:

HiDream:

Flux나 HiDream이나 잘 표현해 주네요. 

스타일

이번에는 [sdxl_prompt_styler] 노드를 적용해보면서 얼마나 잘 표현하는지 살펴보겠습니다. 단, 부정적 프롬프트는 적용하지 않도록 했습니다. Flux모델과 HiDream-i1-dev 모두 부정적 프롬프트를 지원하지 않기 때문입니다. 

애니 스타일

프롬프트: A girl singing under the cherry blossoms. In the background is a small stream lined with cherry blossoms.
변형된 프롬프트:  anime artwork A girl singing under the cherry blossoms. In the background is a small stream lined with cherry blossoms. . anime style, key visual, vibrant, studio anime, highly detailed

FLUX:

HiDream:

두가지 모델의 표현은 다르지만, 모두 애니 스타일은 잘 표현하고 있네요. 물론 전통적인 일본 애니라면 HiDream 쪽이 더 정확하겠네요.

픽셀 아트

프롬프트: Dragon spewing fire from its mouth
변형된 프롬프트: pixel-art Dragon spewing fire from its mouth . low-res, blocky, pixel art style, 8-bit graphics

FLUX :

HiDream

Flux은 픽셀이 느껴지지 않을 정도로 너무 부드러운데, HiDream도 훨씬 그보다 심합니다. 여기에서는 그림이 너무 작아서 픽셀을 볼 수 없지만, 확대해서 보면 확인할 수 있습니다.

패션 광고

프롬프트: sneaker
변형 프롬프트: fashion editorial style sneaker . high fashion, trendy, stylish, editorial, magazine style, professional, highly detailed

FLUX:

HiDream:

흠... HiDream쪽이 훨씬 그럴 듯하네요.

수채화

프롬프트: A woman in Victorian costume posing as a painter's model in front of a pond with blooming water lilies.
변형 프롬프트: watercolor painting A woman in Victorian costume posing as a painter's model in front of a pond with blooming water lilies. . vibrant, beautiful, painterly, detailed, textural, artistic

FLUX:

HiDream:

FLUX는 사실적인 이미지에는 강한데, 예술적 스타일에는 약한 면이 있습니다. 모든 인물이 너무 사실적으로 보이기 때문입니다. HiDream도 이런 경향이 없지 아니 있기는 하지만 FLUX보다는 훨씬 나아 보입니다.

복잡한 프롬프트 테스트

위에서도 복잡하고 긴 프롬프트를 일부 테스트해봤지만, 여기에서는 몇 장면 추가적으로 시험해 보겠습니다.

간단하게 서술된 이미지 생성 프롬프트 : 여성의 르네상스 초상화

프롬프트: Renaissance-style painting of a woman in a steampunk-style train cabin

FLUX:

HiDream:

FLUX는 여러가지 스타일이 겹쳐있는 경우 잘 표현하지 못하는 경향이 있습니다. 스팀펑크와 르네상스 스타일이 섞여 있다보니 스팀펑크도, 르네상스 스타일도 잘 못살리고 있는데, 그나마 구도는 르네상스 스타일을 따르고 있습니다. 그런데 HiDream의 경우 완전히 스팀펑크 스타일로만 그렸네요. ㅠㅠ

여러 사람이 등장하는 장면 : 탁구장의 모습

남녀가 탁구를  치고 있는데 남자는 서브하는 중이고 여자는 맞은 편에서 대기하는 중이고, 네트 중간에 두 친구가 하이파이브를 하고 있고 뒤쪽에 다른 사람들이 탁구를 치거나 소파에서 입담을 나누는 중... 매우 복잡한 프롬프트입니다. 

프롬프트: Photorealistic image of a man and woman playing table tennis on an indoor table tennis court.
The man is looking at the ball with his serve in the air, while the woman is preparing to return it from the other side. In the middle of the net, two friends are high-fiving and cheering them on. In the background, other teams are playing table tennis, and people are relaxing and chatting on nearby couches.

FLUX:

HiDream:

그런데 FLUX나 HiDream이나 탁구치는 모습부타 제대로 표현하지 못합니다. 

복잡하고 긴 프롬프트: 오방색

마지막으로 제가 제일 좋아하는 프롬프트입니다. 동서남북 가운데를 나누어 색과 이미지와 글씨를 표현하는 건데, 현재까지 GPT-4o를 제외하고는 한번도 성공하는 것을 못봤습니다.

프롬프트:The image as a whole is divided into five sections: top, bottom, right, left, and center. The boundaries between the zones are not clear, but blend together smoothly.
The top has the word “Water” written in black against a background of water and waves.
The bottom has the word “Fire” written in red against a background of burning braziers. 
On the left, the word “Iron” is written in white against a background of metal structures.
On the right, the word “Wood” is written in blue against a background of trees, forests, and fields.
In the center, “Earth” is written in yellow against a background of the planet earth.

FLUX:

HiDream:

역시나... 마찬가지네요~

결론

이 글에서 테스트해본 대부분의 이미지에서 HiDream 모델이 Flux 모델과 비슷한 정도 혹은 약간 더 나은 정도를 보여주고 있습니다. 생성시간이 3배라는 점을 생각했을 때, 약간 아쉽다는 생각이 드네요. 

민, 푸른하늘