Mochi는 짧은 비디오 움짤을 생성할 수 있는 최신의 로컬 비디오 모델입니다. 비디오를 몇개 이어서 스토리를 만들고 싶다면 어떻게 해야 할까요? Mochi 무비 비디오 워크플로를 이용하면 4개의 비디오 클립을 생성하고 이를 결합해 긴 비디오를 만들 수 있습니다. 이 무비 비디오는 ComfyUI에서 텍스트 프롬프트를 이용해 생성합니다.
소프트웨어
이 글에서는 스테이블 디퓨전용 GUI중에서도 제일 강력한 ComfyUI를 사용합니다. ComfyUI가 처음이시라면, 설치 및 기본 사용방법 및 초보가이드를 확인하시기 바랍니다.
따라하기
1 단계: Mochi 모델 다운로드
아래 사이트에서 pig-mochi...gguf 파일을 찾아 ComfyUI\models\diffusion_models 에 넣어줍니다. 모두 받을 필요는 없으며, 용량이 클수록 속도가 느린 대신 품질이 (약간) 좋습니다)
https://huggingface.co/calcuis/pig/tree/main
아래 사이트에서 파일을 다운로드 받아, ComfyUI\models\clip 폴더에 넣어줍니다. 마찬가지로 다 받을 필요가 없고, 다운로드 받은 unet과 동일한 버전만 받으시면 됩니다.
또한 Mochi VAE를 다운로드 받아 ComfyUI\models\vae 폴더에 넣어줍니다.
2 단계: 워크플로 다운로드
아래의 워크플로를 다운로드 받아, ComfyUI 화면에 Drag&Drop 합니다.
3 단계: 프롬프트 검토
이 워크플로는 단순히 4개의 비디오클립을 따로 따로 생성한 후 합치도록 되어 있습니다. 모두 서부영화 스타일(Midwest movie)로 시작하고, 첫번째는 경관, 두번째는 식당 밖의 젊은 여인, 세번째는 식당 여종업원, 네번째는 고양이를 생성합니다.
첫번째 프롬프트: Midwest movie, a police officer smoking next to a diner under bright sunlight, cinematic scene
두번째 프롬프트: Midwest movie, high quality young woman outside of a diner, sunny day, looking looking intensely, camera zoom in
세번째 프롬프트: Midwest movie, close up of a waitress in a diner
네번째 프롬프트: Midwest movie, a black cat walking on the floor of a diner
4 단계: 비디오 생성
이제 [Queue] 버튼을 누르면 비디오가 생성됩니다.
개인적인 느낌
각각의 클립이 잘나와서, 최종 결과물만 보면 꽤 쓸만해 보입니다. 각각의 클립(848 x 480, 49 프레임)을 생성하는데 11 분 정도 소요되었으니, 속도도 그만그만하구요.
하지만, 보시는 것처럼 모든 클립에는 중복되는 사람이 없습니다. 각각의 비디오가 따로 생성되다보니 일관성을 유지하기가 쉽지 않은거죠. 그나마... image-to-video가 된다면 좀 나아질 수도 있을까 싶지만, 그래도 현재 수준으로는 한계가 명확해 보입니다.
그래도 대단하긴 대단하네요.
이상입니다.
이 글은 stable-diffusion-art.com의 글을 GGUF 버전으로 변경하여 작성한 글입니다.
- ComfyUI로 설치 및 사용법 기초
- ComfyUI 투토리얼
- ComfyUI를 위한 유용한 정보
- ComfyUI와 SDXL 사용법(1) - 기초
- ComfyUI에서 ControlNet 사용법
- 편리한 ComfyUI 워크플로 모음
- LCM-LoRA - 초고속 스테이블 디퓨전
- Stable Video Diffusion(비디오 스테이블 디퓨전)
- Stable Diffusion 인공지능 이미지 생초보 가이드
- Stable Diffusion 대표 UI - AUTOMATIC1111 설치방법
- Automatic1111 GUI: 초보자 가이드(메뉴 해설)
- Stable Diffusion에 대한 기본적인 이론
- ChatGPT로 스테이블 디퓨전 프롬프트 만들기