AI 이미지/워크플로 따라하기

Mochi GGUF 무비 비디오

하늘이푸른오늘 2025. 2. 7. 23:24

Mochi는 짧은 비디오 움짤을 생성할 수 있는 최신의 로컬 비디오 모델입니다. 비디오를 몇개 이어서 스토리를 만들고 싶다면 어떻게 해야 할까요? Mochi 무비 비디오 워크플로를 이용하면 4개의 비디오 클립을 생성하고 이를 결합해 긴 비디오를 만들 수 있습니다. 이 무비 비디오는 ComfyUI에서 텍스트 프롬프트를 이용해 생성합니다.

소프트웨어

이 글에서는 스테이블 디퓨전용 GUI중에서도 제일 강력한 ComfyUI를 사용합니다. ComfyUI가 처음이시라면, 설치 및 기본 사용방법초보가이드를 확인하시기 바랍니다.

따라하기

1 단계: Mochi 모델 다운로드

아래 사이트에서 pig-mochi...gguf 파일을 찾아 ComfyUI\models\diffusion_models 에 넣어줍니다. 모두 받을 필요는 없으며, 용량이 클수록 속도가 느린 대신 품질이 (약간) 좋습니다)

https://huggingface.co/calcuis/pig/tree/main

아래 사이트에서 파일을 다운로드 받아, ComfyUI\models\clip 폴더에 넣어줍니다. 마찬가지로 다 받을 필요가 없고, 다운로드 받은 unet과 동일한 버전만 받으시면 됩니다.

t5-v1_1-xxl-encoder-gguf

또한 Mochi VAE를 다운로드 받아 ComfyUI\models\vae 폴더에 넣어줍니다.

2 단계: 워크플로 다운로드

아래의 워크플로를 다운로드 받아, ComfyUI 화면에 Drag&Drop 합니다.

Mochi_GGUF_movie_4clips.json
0.03MB

3 단계: 프롬프트 검토

이 워크플로는 단순히 4개의 비디오클립을 따로 따로 생성한 후 합치도록 되어 있습니다. 모두 서부영화 스타일(Midwest movie)로 시작하고, 첫번째는 경관, 두번째는 식당 밖의 젊은 여인, 세번째는 식당 여종업원, 네번째는 고양이를 생성합니다.

첫번째 프롬프트: Midwest movie, a police officer smoking next to a diner under bright sunlight, cinematic scene
두번째 프롬프트: Midwest movie, high quality young woman outside of a diner, sunny day, looking looking intensely, camera zoom in 
세번째 프롬프트: Midwest movie, close up of a waitress in a diner
네번째 프롬프트: Midwest movie, a black cat walking on the floor of a diner

4 단계: 비디오 생성

이제 [Queue] 버튼을 누르면 비디오가 생성됩니다.

개인적인 느낌

각각의 클립이 잘나와서, 최종 결과물만 보면 꽤 쓸만해 보입니다. 각각의 클립(848 x 480, 49 프레임)을 생성하는데 11 분 정도 소요되었으니, 속도도 그만그만하구요.

하지만, 보시는 것처럼 모든 클립에는 중복되는 사람이 없습니다. 각각의 비디오가 따로 생성되다보니 일관성을 유지하기가 쉽지 않은거죠. 그나마... image-to-video가 된다면 좀 나아질 수도 있을까 싶지만, 그래도 현재 수준으로는 한계가 명확해 보입니다.

그래도 대단하긴 대단하네요.

이상입니다.

이 글은 stable-diffusion-art.com의 글을 GGUF 버전으로 변경하여 작성한 글입니다.