AI 이미지/AI Video

알리바바, Wan 2.1 공개

하늘이푸른오늘 2025. 3. 16. 15:11

2025년 2월 25일, 알리바바에서 고급 비디오 생성 작업을 위해 설계된 오픈 소스 AI 모델인 Wan 2.1을 공개했습니다. 2025년 2월의 공식적으로 공개되었으며, 현재 Apache 2.0 라이선스하에 자유롭게 사용할 수 있어, 전세계의 개발자들이나 기업들이 거의 아무런 제한없이 사용할 수 있습니다.

Wan 2.1 이란?

Wan 2.1은 텍스트 프롬프트 또는 이미지 프롬프트를 입력받아 비디오를 생성할 수 있는 대규모언어모델(LLM, large language model)입니다. VBench에서 행해진 독립적인 평가에 따르면 Wan 2.1은 약 84.7%에 달하는 점수를 획득하여, 최고 성능의 AI 비디오 생성모델로 평가받았습니다.

전문가들에 따르면 동적인 움직임, 공간적 관계, 여러 물체간의 상호작용 등에서 강점을 가지고 있으며, 복잡한 비디오 생성 작업에 이상적이라고 강조합니다.

아울러 Wan 2.1은 영어와 한자등의 고급 텍스트 효과를 위한 다중언어 지원, 100개 이상의 예술 스타일을 포함하여 여러가지 주목할 만한 개선을 도입했습니다.  Wan 2.1은 소비자용 GPU에 최적화하여, NVidia RTX 4090 GPU에서 5초 분량의 480p 비디오를 4초 이하에 생성할 수 있어, 전문가급 동영상 생성 작업의 진입 장벽을 크게 낮추었습니다.

중요 기능 및 벤치마크 성능

Wan.ai 주장하는 Wan 2.1의 핵심 특징은 다음과 같습니다.

  • 최고의 성능: Wan 2.1은 여러가지 벤치마크 테스트에서 드러난 것처럼, 기존의 오픈 소스 모델 및 최신 상업용 솔루션의 성능을 압도합니다.
  • 소비자용 GPU 지원: T2V-1.3B 모델은 8.19 GB VRAM 만 요구하기 때문에 대부분의 소비자급 GPU에서 사용할 수 있습니다. RTX 4090을 사용할 경우, 양자화 등의 최적화 기법을 사용하지 않더라도 5초 짜리 480p 비디오를 4초만에 생성할 수 있습니다. 이러한 성능은 독점 서비스 모델과도 경쟁 가능한 수준입니다.
  • 시각적인 텍스트 생성: Wan 2.1은 한자와 영어 텍스트를 생성할 수 있는 최초의 비디오 모델입니다. 강력한 텍스트 생성 기능은 실용적인 응용에 널리 적용될 수 있습니다.
  • 강력한 Video VAE : Wan-VAE를 사용하면 시간 정보를 보전하면서도 길이에 관계없이 1080p 비디오를 효율적으로 인코딩-디코딩할 수 있습니다. 이는 비디오 및 이미지 생성을 위한 이상적인 기반이 될 것입니다.

Wan 2.1은 포괄적인 멀티미디어 생성 기능을 제공하여, 고품질의 비디오 뿐만 아니라, 이미지, 오디오까지 효과적으로 생성할 수 있습니다. 

  • 텍스트-비디오(Text-to-Video): 텍스트 프롬프트를 입력받아, 일관성 있고 시각적으로 매력적인 비디오를 생성합니다.
  • 이미지-비디오(Image-to-Video): 입력 받은 정적인 이미지를 최대 720p 까지의 부드러운 비디오로 전환해 줍니다.
  • 비디오 편집: 텍스트나 이미지를 입력하여, 기존의 이미지를 정밀하게 편집할 수 있습니다.
  • 텍스트-이미지(Text-to-Image): 텍스트 프롬프트로부터 세밀한 이미지를 생성합니다.
  • 비디오-오디오(Video-to-Audio): 비디오 콘텐츠로부터 오디오를 추출하고 생성합니다.

VBench 의 벤치마크 평가를 살펴보면 Wan 2.1이 뛰어난 경쟁력을 보임을 알 수 있습니다. 예를 들어, 인공물(Human Artifacts), 공간적 위치 정확성, 카메라 제어 등의 측면세어 SORA 및 다른 모델에 비해 더 나은 결과를 보인다고 평가받고 있습니다.

위의 표에서 알 수 있는 것처럼 Wan 2.1은 전문가 급의 비디오 콘텐츠를 소비자용 하드웨어에서도 빠르고 효과적으로 생성할 수 있습니다.

이러한 성능 그 자체보다, Wan 2.1은 오픈 소스이기 때문에 혁신과 맞춤화를 장려합니다. 개발자들은 자유롭게 자신의 특정한 사용사례에 맞춰 조정하여, AI 기반의 멀티미디어 생성 분야의 발전을 가속화하는 협업적 생태계를 조성할 수 있을 것으로 예상합니다.

Wan 2.1을 Latenode의 자동 워크플로에 통합하기

Latenode는 복잡한 워크플로를 단순화시킬 수 있도록 설계된, 코드를 거의 짤 필요없이도(no-code/low-code) 자동화할 수 있는 강력한 플랫폼으로, AI 모델과 생산성 도구, CRM 시스템, 데이터베이스를 완벽하게 연결할 수 있습니다. Wan 2.1을 API를 통해 Latenode와 통합하면, 기업에서는 수작업을 줄이고 생산성을 향상시키면서 비디오 생성 프로세스를 자동화시킬 수 있습니다.

아래는 Latenode와 Wan 2.1을 사용한 세가지 실용적인 시나리오의 예입니다.

  • 블로그-비디오 소셜미디어 자동화 : 새로운 블로그 포스트를 올리면 자동으로 소셜미디어 비디오를 생성할 수 있습니다. 
  • 제품 기능 데모 비디오 자동 제작 : 텍스트의 기능 설명으로부터 깨끗하고 매력적인 제품 데모 비디오를 생성합니다.
  • 기존 워크플로내에 비디오 생성 자동화 통합

참고로, DiffSynth-Studio 에서는 Wan 2.1 을 사용해 비디오-비디오(Video-to-Video)를 구현했다고 하네요. 

이상입니다.

이 글은 latenode.com의 글과  Wan 2.1 github를 참조하여  작성하였습니다.