AI 이미지/AI 기타

구글 Imagen 3 개요

하늘이푸른오늘 2025. 3. 22. 00:38

Imagen 3는 구글 Deepmine에서 개발한 최신 인공지능 이미지 생성 모델입니다. 이 모델은 1532x1532 해상도의 뛰어난 품질의 이미지를 생성합니다. 특히 놀라운 디테일, 생상하고 사실적인 색상 렌더링 능력이 돋보입니다. Imagen 3는 극 사실주의로부터 추상 미술, 애니메이션까지 다양한 예술 스타일을 표현하는데 뛰어난 강점을 가지고 있습니다.

Imagen 3는 Gemini 와 ImageFX 사이트에서 사용할 수 있으며, API 를 통해 다양한 도구와 통합할 수 있습니다.

Imagen 3란?

Imagen 3는 구글 DeepMind 연구자들이 개발한, 고급 디퓨전과 심층 언어 이해를 결합한 혁신적인 신경망 아키텍처를 사용하여 문자 설명을 고품질 이미지로 변환하는 텍스트-이미지 모델입니다. 

Imagen의 주요 장점

심층적인 맥락 이해

Imagen 3 모델은 복잡한 의미론적 관계를 분석함으로써, 일관성있는 시각적 구성을 가능하게 합니다. 특히 여러개의 물체가 있는 장면에서도 일관성을 유지할 수 있는 장점이 있습니다.

극 사실주의적 충실도

물리적인 세부사항(텍스처, 빛의 반사, 심도 등)에 세심하게 주의를 기울임으로써, 사진과 구분할 수 없을 정도의 이미지를 생성합니다.

세부적인 제어

Imagen 3는 다음과 같은 파라미터를 제어할 수 있습니다.

  • 사실성 수준(도식적에서 초현실적까지)
  • 다양한 아트 스타일 
  • 이미지 내의 의미론적 일관성

Imagen 3의 아키텍처

Imagen 3는 최첨단 기술 아키텍처를 채택하고 있습니다.

  • T5-XXL(48억개의 매개변수)를 통한 텍스트 인코딩: T5-XXL은 텍스트 설명을 풍부하고 정확한 의미 벡터로 인코딩해주는 트랜스포머 기만의 언어모델입니다. 이 때문에 복잡하거나 긴 프롬프트도 정확하게 해석할 수 있습니다. 
  • 대규모 트랜스포터(12억개의 매개변수)와 결합된 7개의 계단식 디퓨전 모델 : 각 반복 과정에서 세부사항을 다듬어서 점진적으로 고품질의 이미지를 생성합니다. 이러한 접근 방식을 통해 선명하고 균형 잡히며 결함이 없는 시각적 결과물을 얻을 수 있습니다.
  • 12억개의 이미지-텍스트 쌍 및 구글 독점 데이터를 사용한 학습 :
  • 1532x1532 픽셀 렌더링(DALL-E 3보다 50% 더 큼)

처음에선 저해상도(64x64)이미지를 생성하고, 연속적으로 최적화된 업샘플링을 함으로써 최대 1536x1536 (8K) 영상을 생성하는 방식을 취하고 있습니다. 

최고의 성능

Imagen 3는 DrawBench와 Allthe3Eval과 같은 벤치마크에서 탁월한 성능을 보이고 있습니다. 특히 이들 사이트에서는 복잡한 프롬프트를 충실하게 따르는 정도에 중점을 두고 있습니다. 또한 imagen Bench 랭킹에서도 구성, 액션, 색상 관리등의 기준에서 1위치를 차지했습니다.

https://storage.googleapis.com/deepmind-media/imagen/imagen_3_tech_report_update_dec2024_v3.pdf#page=26

프롬프트 정확도 : Imagen 3는 복잡한 설명을 놀라울 정도로 충실하게 해석하며, 아주 작은 디테일도 포착합니다. DALL-E 3도 프롬프트 이해도는 뛰어나지만, Imagen 3는 객체간의 관계에 대한 관리 측면에서 강점을 보이며, 특히 프롬프트가 길어질수록 차이가 커집니다.

시각적 품질 : Imagen 3로 생성한 이미지는 질감이 풍부하고 명암이 균형이 잡혀있고, 방해가 되는 결함이 없습니다. Midjouney가 사실적인 묘사와 극적인 효과로 유명하지만, Imagen 3는 다른 모델에서 문제가 되는 손가락 등의 생성에서 탁월한 정밀도를 보입니다.

참고로 3월 24일 현재 Text-to-Image-Leaderboard 에서는 쟁쟁한 경쟁자를 물리치고 3위에 랭크되어 있네요.

DeepMind 란?

DeepMind는 트랜스포머 모델을 개발한 구글의 AI 연구소입니다. 2014년 부터 인공지능에 관한 기초연구와 대규모 엔지니어링을 결합해 왔습니다. 당연히 생성형 AI 분야에서 가장 오래되고 경험이 많은 기업중 하나입니다. 우리나라에선 이세돌 구단을 4:1로 승리하여 잘 알려지게 되었죠. 이러한 배경 때문에 Imagen 3가 다음과 같은 기술을 채택할 수 있었습니다.

  • 멀티모달 학습 기반(텍스트-이미지-비디오)
  • 하이브리드 디퓨전 + 인지(attention) 아키텍처
  • 거대 스케일의 컴퓨팅 인프라

Imagen 3 사용방법

Imagen 3는 구글에서 개발했으므로 당연히 Gemini에서 사용할 수 있습니다. 원래는 프리미엄 회원만 사용할 수 있었지만 현재는 누구나 무료로 사용할 수 있습니다. 구글에 로그인한 후 https://gemini.google.com/ 에 들어가면 이미지를 생성할 수 있습니다. 

이미지를 생성할 때에는 아래의 예와 같이 이미지를 묘사한 후, "를 그려줘"라고 붙여주기만하면 생성됩니다.

"데스트탑 컴퓨터에서 인공지능 이미지를 생성하고 있는 아름다운 20대 여성. 책상에는 키보드와 책, 커피 등이 놓여져 있고, 컴퓨터 위에는 건담 프라모델이 놓여져 있다. 이 이미지를 생성해줘"

생성된 이미지는 2048x2048 해상도입니다. 아래가 결과인데, 데스크탑 컴퓨터가 빠져있네요. ㅎㅎ

하지만, Gemini에서 생성하는 것보다는 ImageFX  사이트에서 생성하는 것이 더 좋은 결과를 얻을 수 있습니다. 여기에서는 좀 더 자세하게 설정할 수 있기 때문입니다. 단, ImageFX에서는 프롬프트를 영어로만 입력해야 합니다. 

프롬프트: "A cartoon-style image depicting Donald Trump and Elon Musk facing each other at a US presidential campaign rally. Emphasize Trump's characteristic hairstyle and gestures, while Musk sports a slightly playful expression. Capture the vibrant atmosphere of the rally in the background, using exaggerated expressions and vivid colors typical of cartoon art."

그리고 Imagen 3 모델은 API를 사용하여 자신의 어플리케이션에 통합시켜 사용할 수도 있습니다. 물론 이것은 개발자가 아니면 힘들겠죠. 하지만, Feepik 이나 Visualelectric 같은 사이트에서는  Imagen 3 API 를 이용해 이미지를 생성하고 있다고 합니다.

Imagen 3의 프롬프트

Imagen 3는 상대적으로 사용하기 쉽습니다. 텍스트 설명을 아주 잘 이해하기 때문에 원하는 이미지를 잘 설명만 하면 고품질의 이미지를 생성해 줍니다. 아래는 주의할 점입니다.

  • Stable Diffusion 처럼 단어를 나열하는 방식이 아니라, 문장을 서술하는 것이 더 좋습니다.
  • 관계가 있다면 문화적 배경이나 역사적 문맥을 명시해주면 좋습니다.
  • 이미지에 등장하는 요소들의 위치를 정확히 지정하면 그대로 생성됩니다.
  • 추상적인 개념(온화한, 자극적인 등의 형용사)을 구체적인 디테일을 함께 섞어 사용하면 좋습니다.
  • 어떠한 예술 스타일로 생성할 것인지를 명시하세요.

프롬프트 사용 예

아래는 간단한 프롬프트와 위에서 언급한 자세한 내용을 추가해서 생성한 결과를 비교해본 것입니다.

A gardening robot watering flowers in a futuristic greenhouse An anthropomorphic steampunk robot, made of patinated copper and smoked glass, delicately waters bioluminescent orchids in a crystal greenhouse. The scene is lit by sunlight filtering through a geodesic structure, creating iridescent reflections on the metal surfaces. Style: Magical realism with influences from Léon Bakst.

아래는 imagen 3를 사용하여 생성한 이미지의 예입니다.































이상입니다.

이 글은 stablediffusin.blog의 글을 번역하면서 제 테스트 결과로 대체하여 작성한 글입니다.