AI 이미지

Lumina Image 2.0 사용하기

하늘이푸른오늘 2025. 2. 9. 23:22

Lumina Image 2.0은 텍스트 프롬프트로부터 이미지를 생성하는 오픈 소스 AI 모델입니다. 이 모델은 특히 예술적 스타일에 뛰어난 강점을 보이며 프롬프트를 따르는 능력이 높습니다. 

소프트웨어

이 글에서는 스테이블 디퓨전용 GUI중에서도 제일 강력한 ComfyUI를 사용합니다. ComfyUI가 처음이시라면, 설치 및 기본 사용방법초보가이드를 확인하시기 바랍니다.

Lumina Image 2.0 이란?

Lumina Image 2.0은 매개변수가 26억개이며 1024x1024 해상도이 이미지를 생성할 수 있는 이미지 생성형 AI 모델입니다. 텍스트 인코더로는 Gemma-2-2B 를 활용하여 자연어를 처리하고, FLUX-VAE-16CH를 가변 자동 인코더로 사용하여 이미지를 잠상 영역으로 압축합니다.

따라하기

1 단계: Lumina 모델 다운로드

Lumina 2.0 체크포인트 모델을 다운로드 받아, ComfyUI\models\checkpoints 폴더에 넣어줍니다. A1111과 모델을 공유할 경우 여기를 보세요.

2 단계: 워크플로 다운로드

아래의 워크플로를 다운로드 받아, ComfyUI 화면에 Drag&Drop 합니다.

lumina-image-2.json
0.01MB

이 워크플로를 불러오면 대부분 오류가 발생할 것입니다. 그러한 경우, 다음과 같은 작업이 필요합니다.

3 단계: 프롬프트 검토

여기에 사용한 프롬프트는 이미지 생성 AI가 프롬프트를 어느정도 잘 따르는지를 테스트하기 위한 목적으로 여러번 사용했던 것입니다. 가운데에 해골과 책, 우측에 오렌지, 좌측에 사과가 있는 모습니다.

프롬프트: painting of a beautiful woman, dynamic, spiral pattern, distortion for emotional effect, vibrant, use of unusual colors, detailed

4 단계: 이미지 생성

이제 "Queue" 버튼을 누르면 이미지가 생성됩니다. 제 RTX3070에서 약 40초 정도 걸리네요.

Lumina 2.0, Flux.1 Dev, SDXL 비교

SDXL, Flux.1 Dev, Lumina 2.0은 모두 기본 해상도가 1024x1024입니다. 따라서 이들의 성능을 상호 비교해 보는 것은 의미가 있습니다.

참고로 아래의 이미지들은 아래의 워크플로를 사용하여 생성한 것입니다.

lumina-image-2.json
0.01MB
SDXL_efficient.json
0.02MB
flux1-dev-guff-simple.json
0.01MB

생성시간

이미지 생성시간은 매개변수의 수와 거의 비례한다고 생각할 수 있습니다. 그런데... 일치하지는 않네요. SDXL은 Lumina 보다 매개변수가 훨씬 많은데도 품질은 좀 떨어지고 생성시간은 더 빠르니... ㅠㅠ

 

모델 매개변수 생성시간
SDXL 35억개 10초
Lumina Image 2.0 26억개 40초
Flux Dev GGUF 120억개 80초

텍스트가 포함된 사실적 이미지 생성

첫 테스트는 텍스트가 포함된 사실적인 이미지를 생성하는 능력입니다. 프롬프트는 아래와 같습니다. (단, 텍스트는 약간씩 다릅니다.)

프롬프트: a portrait photo of a 25-year old beautiful woman, busy street street, smiling, holding a sign "Lumina vs Flux vs SDXL"
Lumina
SDXL
Flux

보시는 것처럼 Flux는 텍스트를 거의 정확하게 표현하는 반면, Lumix는 약간의 결함이 보이는 정도이고, SDXL은 아얘 제대로 표현하지 못하고 있습니다. SDXL은 한 두개의 단어정도까지는 어느정도 표현하는데, 그 이상이 되면 거의 표현하지 못하네요. 

한가지 지적할 점은, Lumina 모델의 경우, 여성의 얼굴이 거의 동일하다는 점입니다. 아마도 학습데이터에 문제가 있지 않나 싶네요.

프롬프트 이해

프롬프트 이해란 모델이 프롬프트를 정확하게 따르는 능력을 말합니다. 여기에서는 자세 제어에 관한 사항과 물체 구도에 관한 사항으로 테스트해보겠습니다.

자세 제어

대부분 AI를 사용하는 이유는 사람의 이미지를 생성하기 위해서입니다. 따라서 정확한 자세를 렌더링하는 것은 중요합니다. 아래 프롬프트는 분홍색 머리의 여인이 왼손을 들고, 한쪽 다리로 서있는 모습입니다.

프롬프트: Photo of a woman with pink hair raising her left hand above her head. Stand with one leg on a hardwood floor.
Lumina
SDXL
Flux

여기에서도 다시한번 Flux 모델이 제일 자세를 잘 재현하고 있음을 알 수 있습니다. Lumina의 경우엔 이상하게 발을 앞뒤로 두어서 한발로 보이게끔 나오네요.

물체의 구도

아래는 물체가 프롬프트에 따라 제대로 배치되는지 여부를 알아보는 테스트입니다. 가운데에 책과 해골이 있고, 우측에 오렌지, 좌측에 사과가 있는 모습입니다.

프롬프트: Still life painting of a skull above a book, with an orange on the right and an apple on the left
Lumina
SDXL
Flux

여기에서도 Flux가 제일 구도를 잘잡고 그 다음은 Lumina네요.

스테이블 디퓨전의 경우, 손을 잘 그려내지 못한다는 치명적인 단점이 있었습니다. 

프롬프트: photo of open palms, detailed fingers, beach, sea
Lumina
SDXL
Flux

제일 못 생성하는 것은 역시 SDXL이고, Lumina는 비슷한 정도이지만 약간 부족한 느낌이네요.

얼굴

여기에서는 얼굴을 크게 확대한 모습으로 생성해 비교해 보겠습니다.

프롬프트: photo of a 85 year old Syrian man, detailed face, eyes, lips, nose, hair, realistic skin tone, freckles, skin texture
Lumina
SDXL
Flux

흠... Lumina가 생성한 얼굴은 뭔가 사실적이지 못하네요.

스타일

여기에서는 SDXL  스타일러에서 생성되는 프롬프트를 사용해 테스트해보겠습니다.

표현주의 스타일

프롬프트: expressionist woman. raw, emotional, dynamic, distortion for emotional effect, vibrant, use of unusual colors, detailed
Lumina
SDXL
Flux

Flux 는 너무 사실적인 느낌이라서 그렇고,  Lumina의 아트 스타일이 정말 뛰어나네요. 

픽셀 아트

프롬프트: pixel art of a dragon. low-res, blocky, pixel art style, 8-bit graphics, pixelated, 90s video game

Lumina
SDXL
Flux

역시 여기에서도 Lumina의 스타일이 제일 정확하네요. 보시는 것처럼 Flux는 사실적인 스타일에만 사용해야 할 것 같습니다.

광고 포스터

프롬프트: advertising poster style sneaker. Professional, modern, product-focused, commercial, eye-catching, highly detailed
Lumina
SDXL
Flux

흠... 어떤게 더 낫다고 하기는 쉽지 않지만, 그나마 광고 포스터를 많이 닮은 것은 Lumina라고 해야겠네요.

결론

Lumina는 예술적 스타일을 생성하는데 뛰어나고, 프롬프트를 따르는 능력도 괜찮은 편입니다. 현재 나온 베이스모델만으로는 얼굴이 지나치게 한가지 스타일로 나오는 등 문제가 있지만, 이런 것들은 미세 조정 모델이 나오면 해결되지 않을까 생각됩니다. 

이상입니다.

이 글은 stable-diffusion-art.com의 글을 번역하면서 제가 테스트하여 작성한 글입니다.