AI 이미지/AI Video

SVD/CogVideo/LTX/Kling/HailouAI 비교

하늘이푸른오늘 2025. 2. 5. 21:29

요즘 여러가지 AI 비디오 생성 모델과 서비스가 등장하고 있습니다. 물론 가장 유명한 것은 소라(Sora)입니다. 2분가까이 되는 긴 영상을, 거의 완전한 물리적 법칙을 따르고 있는 듯한 비디오로 이름이 높습니다. 물론 유료고요. ChatGPT를 유료로 사용하면 소라도 사용할 수 있는데, 저는 아직 한번도 사용해 보지 않았습니다. 

이 글에서는 제가 알고있는 몇가지 서비스에 대해 동일한 조건으로 비디오를 생성해 보고 비교해보겠습니다. 여기에서 CogVideo는 GGUF 버전이라 다른 모델/서비스보다 품질이 떨어질 수 있습니다. 또한 완벽한 비교는 아니고, 그냥 저의 느낌 정도니까 그냥 그러려니 해주시면 감사하겠습니다.

Flux GGUF + SVD

얼마전에 쓴 글에 있는 워크플로를 사용해서, Flux dev GGUF 모델로 이미지를 생성하고, 생성된 이미지를 SVD(Stable Video Diffusion)으로 비디오로 생성합니다. 아래 워크플로를 ComfyUI에서 실행시키면 됩니다. 자세한 내용은 Flux GGUF + SVD 비디오 생성 워크플로를 읽어보세요.

Flux1_GUFF_SVD.json
0.02MB

프롬프트: a happy blonde 18 year old girl sitting on a magic carpet flying towards me, floating above ground, beach area, looking at camera, palm tree, flying in air
이미지 크기: 1344x768
비디오 크기: 1024x586, 25 프레임

아래는 결과 비디오입니다.

CogVideo GGUF Image2Video

Flux dev GGUF로 생성한 이미지(위에서 생성한 이미지)와, 그때 사용한 프롬프트를 그대로 사용해, CogVideo GGUF Image2Video모드로 실행시켰습니다. 실행방법은 여기를 보시면 됩니다. 생성시간은 약 약 16분 정도 소요되었습니다. 

cogvideox_i2v_GGUF.json
0.02MB

LTX 비디오

마찬가지로 동일한 이미지와 동일한 프롬프트를 사용하여, LTX 모델을 적용해 비디오를 생성했습니다. LTX 비디오는 다른 모델보다 월등히 속도가 빠릅니다. 아래 움짤은 약 1분만에 생성되었습니다. 물론 그만큼 품질은 떨어집니다.  아래는 워크플로와 생성 결과입니다.

LTX_flying_carpet.json
0.03MB

Flux -> Kling

이것도 Flux dev GGUF로 생성한 이미지와 생성시 사용한 프롬프트를 그대로 사용해서 Kling Image-to-Video 사이트에서 실행시켰습니다. Kling 사이트에서 비디오를 생성하는 방법은 이 글이 글을 참고하세요. 생성시간은 standard mode에서 3시간 이상 소요되네요. Pro mode를 사용하면 대충 15분 이내에 생성 완료됩니다.

아래는 이렇게 생성한 결과입니다(mp4를 webp 포맷으로 변환했습니다). 여기에선 소녀가 가까이 오면서 내려가는 모습으로 생성되었네요.

Flux -> HailuoAI

여기에서도 Kling과 마찬가지로 동일한 이미지와 동일한 프롬프트를 사용해서 Hailuo AI 비디오 생성 사이트에서 실행시켰습니다. Hailou AI 서비스를 사용하는 방법은 이 글을 참고하세요. 무료 서비스를 사용할 수록 생성 시간이 늘어나는 느낌인데... 10개 정도 생성한 현재 약 하루 정도 소요되네요.

아래는 이렇게 생성한 결과입니다.

개인적인 느낌

예상한 것처럼 Kling과 HailouAI와 같은 생성 서비스의 품질이 가장 좋습니다. 위화감이 거의 느껴지지 않을 정도입니다. 현재는 지속시간이 짧은(약 5~10초 정도) 것이 문제지만, 전문용도가 아니라면 충분히 사용할만 하다고 생각됩니다.

로컬에서 돌리는 모델로는 SVD와 CogVideoX GGUF 그리고 LTX를 소개시켜드렸는데, 생성시간이 가장 빠른 LTX 는 생성되는 이미지가 쓸만하다는 느낌이 안들고, SVD와 CogVideo도 품질이 썩 좋다는 느낌은 안듭니다. 그런데, CogVideo의 경우 3070에서 돌리기 위해 GGUF 버전을 사용한 거라, 아마도 풀 버전이면 품질이 훨씬 더 낫지 않을까... 생각됩니다.

어쨌든... 오픈소스로 공개된 txt2vid, img2vid가... 상업적 용도라면 무리겠지만, 그냥 개인적으로 가지고 노는 정도에는 충분한 정도가 되었지 않나 싶습니다. 제가 인공지능 이미지에 관심을 두기 시작한지 고작 1년 정도인데... 그동안 엄청나게 발전했네요. 

게다가 엊그제 DeepSeek라는 중국제 LLM이 전세계적으로 센세이션을 일으키고 있으니... 조만간 이미지 생성분야에도 그 영향이 나타나지 않을까... 하고 예상해봅니다.

이상입니다.