AI 이미지/AI 기타

Gemini에서 이미지 생성 방법

하늘이푸른오늘 2025. 3. 24. 23:17

구글 DeepMind의 이미지 생성 AI 인 Imagen 3발표된지 몇주만에 이미지 생성을 위한 새로운 첨단 모델중 하나로 자리잡았습니다. 아직 시도해 보지 않으셨거나 무료로 그 효과를 느껴보고 싶다면, 구글의 챗봇인 Gemini를 통해서 무료로 사용할 수 있습니다(참고로 Image FX 사이트에서도 사용할 수 있습니다).

Gemini의 Imagen3

Gemini란? 

영어로 Gemini란 쌍둥이라는 뜻입니다. 구글에서 개발한 다재다능한 대화형 비서에 왜 쌍둥이란 이름을 붙였는지는 잘 모르겠네요. 아마 구글과 Gemini는 한 몸이라는 뜻으로 붙이지 않았을까... 상상해 봅니다. 어쨌든 현재 대규모 언어 모델(LLM, Large Language Model)의 가장 중요한 어플리케이션이 챗봇 또는 대화형 비서이고, 그 분야에서 가장 잘 나가고 있는 ChatGPT에 대항해서 구글에서 개발한 모델이 바로 Gemini입니다. 

ChatGPT가 워낙 잘 알려져 있다보니 무시되는 경향이 있지만, 기본적으로 구글 생태계(Google Drive 등)과 통합되어 있고, 한국어를 포함한 다국어를 지원하고, 고급 멀티모달 기능(이미지나 PDF를 읽기) 등 많은 기능을 제공하고 있어 유용하게 사용할 수 있습니다.

또한 Chatbot Arena Leaderboard의 순위를 보면 ChatGPT에 거의 밀리지 않는 수준이라는 것도 확인할 수 있습니다.

Gemini에서 imagen 3 를 사용하는 방법

Gemini 에서 Imagen 3를 접근하는 것은 놀라우리만치 간단합니다. 이미지를 생성하기 위해서 필요한 것은 구글 계정 뿐입니다. 계정이 있다면 https://gemini.google.com/ 를 클릭하고 들어가시면 사용할 수 있습니다(계정이 없으면 생성하라고 안내가 나옵니다).

아울러 Gemini는 iOSAndroid mobile app으로도 사용할 수 있습니다.

Gemini에서 이미지를 생성하려면 별도로 준비할 것은 하나도 없습니다. 그냥 "이러쿵 저러쿵하는 그림을 그려줘" 정도로 맨 끝에 "이미지를 생성해줘", "그림을 그려줘"와 같이 입력하면 됩니다.

  1. 특별히 프롬프트를 위한 형식같은 것은 고민하지 마시고, 그냥 평상시 말투로 이미지에 들어갈 내용을 입력한 후, 맨 끝에 "이미지를 생성해줘", "그림을 그려줘"와 같이 마무리합니다. 예를 들어, "아이들 놀이방에서 레고를 가지고 노는 귀여운 아이를 그려줘"라고만 입력하면 아래와 같은 이미지가 생성됩니다. 이때 원하는 내용을 자세하게 기술할 수록 자신이 원하는 이미지가 생성될 확률이 높습니다.
    또한 영어로 된 프롬프트의 경우에도 똑같이 그냥 "이미지를 생성해줘"라고 붙여주기만 하면 됩니다. 영어든, 프랑스어든, 전혀 문제없이 사용할 수 있습니다.
  2. 필요하다면 원하는 스타일(사진, 카툰, 일러스트, 연필화 등)을 지정해주면 됩니다.
  3. 입력후 잠시 기다리면 "Imagen 3를 이용해 이미지 생성중..."이라고 나오고 3-4초 정도 지나면 이미지가 생성됩니다.
  4. 마음에 안들면 계속 수정할 수 있습니다. 아래는 "동양아이로 바꿔주고, 애니 스타일로 표현해줘"라고 추가로 입력한 결과입니다.

가용성 및 구독

일반 구글 계정을 가지고 있는 모든 사용하는 Gemini에서 이미지를 무료로 생성할 수 있습니다. 하지만, 무료로 사용할 경우 제한이 있습니다. 생성할 수 있는 이미지 수가 제한되는 것입니다. 구글에서 확실하게 밝히고 있지는 않지만, 테스트 결과 대략 15~20 장 정도 생성할 수 있습니다(제가 이 글을 쓰면서 시험해보니 15 장 정도 생성하고 나니 원본 이미지를 다운로드 받을 수 없다고 나오네요). 이 정도면 일상적으로 필요한 이미지를 생성하는 정도라면 그럭저럭 쓸만한 수준입니다. 하지만 아주 많이 테스트해보거나, 좀더 창조적인 프로젝트를 수행중이라면 부족할 수 있겠죠.

현재 Gemini에서 생성해주는 이미지의 해상도는 2048x2048입니다. 마이크로소프트의 Copilot (내부적으로는 DALL-E 3)는 1024x1024, ChatGPT(내부적으로는 DALL-E 3)도 1024x1024 로 제공하는 것에 비해 4배의 크기입니다. 이정도면 소셜미디어에 공유하는 정도 뿐만아니라, 상업적인 용도로도 충분히 사용할 수 있을 정도입니다. 부족하다면 인공지능 Upscaler를 사용하면 될 것 같고요.

이미지를 많이 생성해야 하는 경우, 혹은 전문적인 용도로 사용할 경우에는 Google One AI Premium을 구독하여 사용하시면 됩니다. 여기에 Gemini Advanced가 포함되어 있으니까요. 아래 이미지를 보시면 매월 2만 9천원 정도에 구독할 수 있습니다. 물론 이미지를 생성하기 위한 목적으로만 가입하기에는 좀 부담스러운 가격이지만, 2TB 스토리지, Gmail이나 Google Docs 에서 Gemini Advance를 사용할 수 있다는 것을 생각해보면, 업무용으로는 쓸만할 수도 있겠다... 싶네요.

Gemini에서 프롬프트 잘 쓰기

위에서도 간단히 언급했지만, 여기에서는 좀더 프롬프트를 잘쓰는 방법을 소개해 드리겠습니다. 다른 이미지 생성형 AI도 마찬가지지만, 생성되는 이미지의 품질은 결국 프롬프트를 어떻게 쓰는지 달려있습니다. 참고로, 제 블로그에서 프롬프트 엔지니어링 카테고리를 찾아보시면 프롬프트에 관한 여러가지 내용을 보실 수 있습니다. 

구체적으로 명시할 수록 좋습니다.

정확한 프롬프트가 더 풍부한 이미지를 만들어줍니다. 단순히 숲 보다는 "이른 아침, 햇빛이 나뭇가지 사이로 스며드는 옅은 안개에 싸인 오래된 삼나무 숲"과 같이 머리속에 그려지는 것을 자세히 명시할 수록 좋은 결과를 얻을 수 있습니다.

프롬프트에 포함되는 요소의 배치에 신경쓰세요.

어떤 것을 그릴지에 관한 주제, 그와 관련된 요소, 스타일 등으로 프롬프트를 구성해 주면 좋습니다. 즉, 큰 주제로부터 점점 세부적으로 지정하는 느낌으로 프롬프트를 입력하는 것이 좋은 이미지르 생성하는 지름길입니다.

예를 들어, "달에 있는 바위위에 우주인이 앉아 있다. 배경으로 멀리 우주선이 보이고 수평선으로 지구가 떠오르고 있다. 이 내용을 콘트라스트가 강한 사실적인 유화 스타일 이미지로 생성해줘"와 같이 프롬프트를 입력해줍니다.

기술적 어휘를 추가하면 정확도가 높아집니다.

사진(피사계 심도, 보케, 역광), 예술(인상주의, 초현실주의), 영화(미국식 촬영, 로우키 조명)과 같은 특정 용어를 넣어주면 이미지가 확 살아납니다.

예: "1940년대 사무실에 있는 사립탐정이 앉아있다. 고전적인 필름 누아르 스타일로 어두운 조명이 비추며 강한 대비의 그림자를 만들어준다. 이 내용을 사실적 사진 스타일로 생성해줘"

이렇게 기술적 용어가 포함되면 해당 미적인 의도를 AI가 쉽게 이해할 수 있습니다.

여러 스타일을 조합하면 독특한 결과를 만들 수 있습니다.

"현대 우주인의 르네상스 스타일 초상화", "일본 우키요에 미학으로 처리된 사이버 펑크 장면"과 같이 평상시에는 전혀 어울리지 않는 스타일을 조합해 볼 수 있습니다. 이러한 조합은 예상하지 못하는 독창적인 이미지를 만들어 낼 수 있습니다.

창의적인 이미지를 원한다면 이렇게 여러가지 스타일을 조합해 보실 수 있습니다.

예: "늦은 밤 네온사인이 밝히고 있는 어두운 거리에 자동차가 지나고 그 위로 비행정이 날라다니고 있다. 이러한 모습을 위에서 아래로 내려보는 각도로, 인상주의 스타일과 사이버 펑크 스타일을 조합해서 이미지로 생성해줘" 

Gemini로 생성한 이미지의 예

 

이상입니다.

이 글은 stablediffusion.blog의 글을 번역하면서 제 테스트 결과로 대체하여 작성한 글입니다.