AI 이미지/AI 기타

딮시크(DeepSeek)가 공개한 이미지 생성 모델 Janus-Pro-7B

하늘이푸른오늘 2025. 2. 11. 22:33

ChatGPT를 추월하였다고 세상을 떠들썩하게 만들었던 딮시크에서 이미지 생성 모델, 더 정확히 말하자면 이미지 생성도 가능한 멀티 모달 모델 Janus Pro-7B를 오픈소스로 공개했다는 소식입니다. 이 모델은 현재 Hugging Face 플랫폼에 MIT 라이선스로 공개되어, 제한없이 상업적으로도 사용할 수 있습니다.

나무위키에 따르면 Janus 자체는 10월경 Janus-1.3B (매개변수가 13억개)를 발표한 이래, 11월에 JanusFlow-1.3B를 발표한 바 있으며, 2025년 1월 27에 Janus-Pro(1B 및 7B)를 발표한 것이라고 합니다.

딮시크 Janus-Pro-7B란?

딮시크  Janus-Pro-7B는 고품질의 이미지를 이해하고 또 생성할 수 있도록 설계된 인공지능 모델입니다. 시각적으로 분석하는 기술과, 이미지 생성 기술을 결합하여, 더욱 상세하고 사실적인 이미지를 생성하는 것을 목표로 하고 있습니다. 즉, 딮시크는  AI 기반의 이미지 생성의 한계를 넘어, 다양한 분야에 강력하고 접근하기 쉬운 도구를 제공하는 것이 목표라고 합니다.

딮시크는 또한 상업적으로도 무료로 사용할 수 있는 고성능의 오픈소스 모델을 제공함으로써, 고급 AI 기술에 대한 접근성을 민주화하는 것이 목표라고 합니다. 즉, AI를 거대 기업이 독점하는 것을 막겠다는 의미입니다. 이러한 접근 방식은 혁신을 촉진하고, AI 분야에서 기존 대형 기업의 지배력을 약화시키겠다는 것입니다.

고성능 멀티 모달 모델

Janus-Pro-7B 모델은 이미지를 분석하고 생성하는 능력이 뛰어날 뿐 만 아니라, 자연어 처리에서도 높은 성능을 제공하고 있습니다. 딮시크가 주장하는 이 모델의 장점은 다음과 같습니다.

  • 멀티모달 생성과 이해를 결합한 혁신적인 아키텍처
  • GenEval과 DPG-Bench 벤치마크에서 확인된 뛰어난 성능
  • 70억개의 매개변수로 구성된 최적화된 크기로, 강력한 성능과 효율성간의 적절한 균형

Janus-Pro-7B 모델은 통합 트랜스포머 구조를 유지하는 동시에, 시각적 인코등을 여러 별도의 경로로 분리하는 자기 회귀 프레임워크(auto-regressive framework)를 사용합니다. 이 접근 방식은 생성된 이미지의 품질과 안정성을 향상시키는 것을 목표로 하고 있습니다.

Janus-Pro-7B 의 성능

우수한 벤치마크 결과

딮시크의 Janus-Pro-7B는 몇가지 주요 벤치마크에서 인상적인 성능을 발휘하였습니다.

  • 텍스트에서 이미지 생성시, GenVal 점수 80%
  • DPG-Bench 점수 84.2%. 이는 의미를 정확하게 정렬함으로써, 복잡한 프롬프트를 처리하는 능력이 뛰어남을 알려줍니다.
  • 멀티 모달 이해력에서 MMB 점수 79.2.

이상의 결과는 Janus-Pro-7B가 DALL-E 3나 Stable Diffusion 등과 같은 주요 경쟁 제품보다, 이미지 생성 및 멀티 모달 이해를 위한 벤치마크에서 우수한 성능을 발휘함을 시사합니다.

최초 테스트 결과에 대한 엇갈린 반응

하지만 사용자들의 초키 테스트와 반응은 엇갈리고 있습니다. 무엇보다 Janus-Pro-7B가 생성하는 이미지는 Ideogram, Flux, Midjourney 등과 같은 현재 최고 수준의 모델에 비해 품질이 훨씬 떨어집니다.

실제로는 SDXL 베타 혹은 실망스러웠던 SD3의 결과에 더 가까운 정도였습니다.

제일 큰 문제는 이미지 크기가 제한적이라는 것입니다. 현재의 버전에서 Janus-Pro-7B는 고작 384x384 크기의 이미지를 제공하고 있습니다. 이는 스테이블 디퓨전 1.5의 512x512에 비해서도 턱없이 부족한 수준이죠. 즉, 이 모델은 작은 이미지를 생성하는데 초점을 맞추었으며, 훨씬 높은 해상도의 이미지를 생성하는 일반적인 모델과 직접적으로 비교하기는 힘듧니다.

디자이너에 따르면, "낮은 해상도와, 시각적 토큰화에 의해 초래된 재구성 손실로 인해, 의미적으로는 풍부하지만, 상세함이 부족한 이미지를 생성한다"고 인정하고 있습니다.

간단히 말해, 이미지 생성에 관한 한, 다른 어떤 모델에 비해서도 실망스럽습니다. 

앞으로의 가능성

이제까지 보신 것처럼 Janus-Pro-7B는 아직 불완전하지만, 가능성은 높은 모델입니다.

오픈소스로 제공되고 연구논문이 발행되므로, 연구자와 개발자들이 이를 시작점으로하여 세부조정 모델을 생성하거나, 이 모델의 아키텍처에서 영감을 받아 새로운 모델이 개발될 수도 있습니다. 

특히, 멀티 모달이라는 성격은 매우 흥미롭습니다. 이 기술의 진정한 강점은 이미지 생성 그자체가 아니라, 이미지를 읽고, 인식하고, 이해하고, 이를 바탕으로 텍스트와 이미지로 응답하는 능력에 있습니다.

딮시크는 또한, Janus-Pro-7B가 제한된 자원 만으로 개발되었다고 합니다. 짧은 시간동안 수백대의 GPU만 사용되었다고요. 이러한 접근 방식은 기존의 방식 - 모델 개발에 상당한 자원이 소요되는 -과 차별됩니다.

즉, Janus-Pro-7B는 순수한 생성이라는 측면에서는 실망스러울 수 밖에 없지만, 살펴볼 가치는 있다고 생각됩니다. 어쨌든 딮시크 r1의 성공 이후 딮시크는 이미지 생성 분야에서도 야심찬 도전자임을 확실히 했습니다. 앞으로 어디까지 갈 수 있을지 지켜봐야겠습니다.

이상입니다.

이 글은 stableddiffusion.blog의 글을 번역하여 작성하였습니다.