Mochi는 PC에서 돌릴 수 있는 최고의 비디오 AI 모델중 하나입니다. Mochi를 사용하면 텍스트 프롬프트를 480p 비디오로 바꿀 수 있습니다.
이 글에서는 ComfyUI에서 Mochi GGUF를 설치하고 돌릴 수 있는 방법을 알려드립니다.
소프트웨어
이 글에서는 스테이블 디퓨전용 GUI중에서도 제일 강력한 ComfyUI를 사용합니다. ComfyUI가 처음이시라면, 설치 및 기본 사용방법 및 초보가이드를 확인하시기 바랍니다.
Mochi AI 모델
Mochi란?
Mochi는 Genmo AI에서 개발한 개방형 비디오 AI 모델입니다. 아래에서 보시는 것처럼 비디오 생성 리더보드에서 2 등으로 평가받는, 매우 뛰어난 모델입니다.
라이선스
공개된 버전은 Mochi 1 Preview로서, 약간 허용적인 Apache 2.0 라이선스에 따라 공개되었습니다.
버전
ComfyUI에서는 아래와 같은 2가지 종류의 Mochi 1 모델을 사용할 수 있습니다.
버전 | GPU VRAM 요구량 | 생성시간(25프레임, 4090) |
BF16 | 24GB | 1분 30초 |
FP8 Single 체크포인트 | 20GB(더 낮을 수 있음) | 1분 30초 |
BF16 모델은 수치 정밀도가 높으며, 따라서 VRAM요구량이 높고 최신 하드웨어가 필요합니다.
FP8 모델은 하나의 체크포인트 파일에 모두 패킹된 버전으로 VRAM 요구량이 상대적으로 낮고 설치하기 쉽습니다.
제가 가진 RTX3070에서는 이 두가지 모델을 돌릴 수 없습니다. 하지만 GGUF 버전을 사용하면 품질은 어느 정도 희생이 따르지만, 생성하는데는 문제가 없습니다. 512x512 25프레임을 생성하는데 3분 5초정도 걸리니 생성시간도 아주 쓸만합니다.
따라하기
1 단계: Mochi 모델 다운로드
아래 사이트에서 pig-mochi...gguf 파일을 찾아 ComfyUI\models\diffusion_models 에 넣어줍니다. 모두 받을 필요는 없으며, 용량이 클수록 속도가 느린 대신 품질이 (약간) 좋습니다)
https://huggingface.co/calcuis/pig/tree/main
아래 사이트에서 파일을 다운로드 받아, ComfyUI\models\clip 폴더에 넣어줍니다. 마찬가지로 다 받을 필요가 없고, 다운로드 받은 unet과 동일한 버전만 받으시면 됩니다.
또한 Mochi VAE를 다운로드 받아 ComfyUI\models\vae 폴더에 넣어줍니다.
2 단계: 워크플로 다운로드
아래의 워크플로를 다운로드 받아, ComfyUI 화면에 Drag&Drop 합니다.
이 워크플로를 불러오면 대부분 오류가 발생할 것입니다. 그러한 경우, 다음과 같은 작업이 필요합니다.
- 처음 사용할 때 - ComfyUI Manager 를 설치해야 합니다.
- ComfyUI를 오랜만에 사용할 때 - ComfyUI를 최신버전으로 업데이트해야 합니다.
- 노드가 없다고 (빨간색) 경고가 뜰 때 - 빠진 커스톰 노드를 가져오기해야 합니다.
- 불러오기 혹은 수행중 에러 발생시 - 커스톰 노드를 업데이트해야 합니다.
3 단계: 프롬프트 검토
이브닝 드레스를 입은 여인이 홀로그래픽 아바타와 대화하는 모습입니다. 아바타는 빛의 물결과 연한 색으로 둘러쌓여 있습니다.
프롬프트: In a futuristic high-tech laboratory, the camera looks down from above, showing a woman dressed in an elegant evening gown conversing with a holographic avatar. The avatar is rendered with flowing lights and soft colors, accompanied by dynamic effects, creating an artistic and dreamlike atmosphere. The camera slowly rotates, capturing the subtle facial expressions of the avatar and the woman’s astonished reactions. In the background, glowing high-tech equipment and light effects highlight the modern aesthetics and visual impact of this virtual interaction.
4 단계: 비디오 생성
이제 [Queue] 버튼을 누르면 비디오가 생성됩니다. 아래는 848x480 해상도에 49 프레임인데, 생성시간은 10분 15초 정도 걸렸습니다. 흠... 어쩐지 좀 싸우는 듯한 모습이네요. ㅎㅎ
아래는 "a fox moving quickly in a beautiful winter scenery nature trees sunset tracking camera"라는 프롬프트로 생성한 비디오입니다.
이상입니다.
이 글은 stable-diffusion-art.com의 글을 GGUF 버전으로 변경하여 작성한 글입니다.
- ComfyUI로 설치 및 사용법 기초
- ComfyUI 투토리얼
- ComfyUI를 위한 유용한 정보
- ComfyUI와 SDXL 사용법(1) - 기초
- ComfyUI에서 ControlNet 사용법
- 편리한 ComfyUI 워크플로 모음
- LCM-LoRA - 초고속 스테이블 디퓨전
- Stable Video Diffusion(비디오 스테이블 디퓨전)
- Stable Diffusion 인공지능 이미지 생초보 가이드
- Stable Diffusion 대표 UI - AUTOMATIC1111 설치방법
- Automatic1111 GUI: 초보자 가이드(메뉴 해설)
- Stable Diffusion에 대한 기본적인 이론
- ChatGPT로 스테이블 디퓨전 프롬프트 만들기