AI 이미지/AI Video

ComfyUI에서 CogvideoX GGUF 사용하기

하늘이푸른오늘 2025. 2. 2. 17:47

CogVideo는 자신의 PC에서 돌릴 수 있는 최신 AI 비디오 생성기 입니다. 이 글에서는 ComfyUI에서 Cogvideo를 사용하는 방법을 설명합니다.

 

소프트웨어

이 글에서는 스테이블 디퓨전용 GUI중에서도 요즘 가장 널리 사용되고 있는 ComfyUI를 사용합니다. ComfyUI가 처음이시라면, 설치 및 기본 사용방법초보가이드를 확인하시기 바랍니다.

CogvideoX 란?

현재 여러가지 text-to-video / img-to-video모델 및 서비스가 나와 있습니다. 그중에서도 CogVideoX는 텍스트-비디오 생성 분야에서 상당한 발전을 이룬 모델입니다. Stable Diffusion과 같은 텍스트-이미지 모델의 성공을 바탕으로, CogVideo는 특별히 텍스트 프롬프트로부터 일관성있는 고품질 비디오를 생성하도록 설계되었습니다. 

모델 아키텍처

아래는 몇가지 중요한 모델 설계 기능입니다.

  • CogVideo 는 Stable Diffusion 3Flux AI와 비슷하게, 대형 T5 텍스트 인코더를 사용하여 텍스트 프롬프트를 임베딩으로 변환합니다.
  • Stable Diffusion에서 VAE는 이미지를 잠상 영역으로 압축합니다. CogVideo는 이러한 기술을 일반화하여, 3D casual VAE를 사용하여 비디오를 잠상 영역으로 압축합니다.

모델의 종류

CogVideo 모델은 매개변수가 2B(20억)개인 버전과 5B(50억)개인 버전이 존재합니다. 그런데, 제 컴퓨터는 3070 8GB 짜리라서 둘 다 돌릴 수 없습니다. 그래서 GGUF 버전을 사용합니다.

Txt2Vid 따라하기

이 워크플로는 텍스트 프롬프트로 비디오를 생성하는 워크플로입니다. 3070에서 테스트했습니다.

1 단계: CogVideo txt2img 워크플로 불러오기

아래의 JSON 파일을 다운로드 받아서, ComfyUI 화면에 Drag&Drop 합니다.

cogvideox_t2v_GGUF.json
0.01MB

이 워크플로를 불러오면 대부분 오류가 발생할 것입니다. 그러한 경우, 다음과 같은 작업이 필요합니다.

2 단계: T5 텍스트 인코더 다운로드

아래의 파일을 다운로드 받아서, ComfyUI\models\clip 폴더에 넣어줍니다.

t5xxl_fp8_e4m3fn.safetensors

3 단계: 프롬프트 검토

프롬프트의 내용은 약한 빗줄기 속에서 선글래스를 쓴 골든리트리버가 털을 흩날리며 뛰어온다는 내용입니다.

프롬프트: A golden retriever, sporting sleek black sunglasses, with its lengthy fur flowing in the breeze, sprints playfully across a rooftop terrace, recently refreshed by a light rain. The scene unfolds from a distance, the dog's energetic bounds growing larger as it approaches the camera, its tail wagging with unrestrained joy, while droplets of water glisten on the concrete behind it. The overcast sky provides a dramatic backdrop, emphasizing the vibrant golden coat of the canine as it dashes towards the viewer.

4 단계: 이미지 생성

"Queue" 버튼을 누르면, 먼저 CogVideo GGUF 버전을 다운로드 받기 시작합니다. 다운로드 상황은 cmd 화면에서 확인할 수 있습니다. 다운로드 받는 파일은 ComfyUI\models 아래에 있는 unet 폴더와 clip 폴더에서 확인할 수 있습니다.

다운로드가 완료되면 비디오 생성이 시작됩니다. 생성되는 비디오는 720*420, 49 프레임인데, 약 50 분 정도 소요됩니다. 참고로 제 PC에서는 중간에 메모리 부족 오류가 뜨는데, 그냥 무시하고 한번더 "Queue" 버튼을 누르면 생성이 계속됩니다. 그런데... 비디오 생성이 됐다가 안됐다가... 하네요. ㅠㅠ

아래는 생성된 비디오입니다. 오다가 뒤로 가는 것은 [Video Combine] 노드에서 toggle 옵션을 켜두었기 때문입니다.

아래는 "A cat, sporting sleek black sunglasses, dashes towards the viewer, on a tropical island." 이란 프롬프트로 생성한 비됴입니다.

그런데... 여러개를 생성해봤는데, 깔끔한 비됴가 만들어지지는 않네요. 아마도 GGUF를 사용해서이지 않을까... 싶습니다.

Img2Vid 따라하기

이 워크플로는 이미지를 입력받아, 이미지를 비디오로 전환하는 워크플로입니다. 이 워크플로도 3070에서 테스트했습니다.

1 단계: CogVideo txt2img 워크플로 불러오기

아래의 JSON 파일을 다운로드 받아서, ComfyUI 화면에 Drag&Drop 합니다.

cogvideox_i2v_GGUF.json
0.02MB

이 워크플로를 불러오면 대부분 오류가 발생할 것입니다. 그러한 경우, 다음과 같은 작업이 필요합니다.

2 단계: T5 텍스트 인코더 다운로드

아래의 파일을 다운로드 받아서, ComfyUI\models\clip 폴더에 넣어줍니다.

t5xxl_fp8_e4m3fn.safetensors

3 단계: 이미지 업로드

[Load Image] 노드에 이미지를 불러옵니다. 이미지는 아래의 프롬프트와 일관성이 있어야 합니다. 저는 SDXL로 생성했는데, 아래의 이미지를 사용하셔도 됩니다.

comfyUI_00041_.png
1.18MB

4 단계: 프롬프트 검토

이 프롬프트는 거대한 사슴이 햇빛이 나무들 사이로 들어오는 숲속에서 풀을 뜯는다는 내용입니다.

프롬프트: a majestic stag is grazing in an enhanced forest, basking in the setting sun filtered by the trees

5 단계: 이미지 생성

"Queue" 버튼을 누르면, 먼저 CogVideo I2V GGUF 버전을 다운로드 받기 시작합니다. 다운로드 받는 파일은 ComfyUI\models 아래에 있는 unet 폴더와 clip 폴더에서 확인할 수 있습니다.

다운로드가 완료되면 비디오 생성이 시작됩니다. 생성되는 비디오는 720*420, 49 프레임인데, 약 50 분 정도 소요됩니다. 참고로 제 PC에서는 중간에 메모리 부족 오류가 뜨는데, 그냥 무시하고 한번더 "Queue" 버튼을 누르면 생성이 계속됩니다. 그런데... 비디오 생성이 됐다가 안됐다가... 하네요. ㅠㅠ

아래는 생성된 비디오입니다. 

참고

참고로  txt2vid 워크플로와 이 img2vid에서 모델을 다운로드 받는 노드는 [(Down)load CogVideo GGUF model] 노드로 동일하지만, 다운로드 받은 모델이 다르니 주의하세요.

민, 푸른하늘

이 글은 stable-diffusion-art.com의 글을 참고하여 GGUF 용으로 변경하는 등 편집하여 작성한 글입니다.