LTX 비디오는 매우 빠르고 잠재력이 높은, 자신의 PC 에서 돌릴 수 있는 비디오 AI 모델입니다. 이 디퓨전 트랜스포머(DiT) 비디오 모델은 텍스트만 입력하면, 혹은 이미지와 함께 텍스트를 입력하면 비디오를 생성할 수 있습니다. 또한 모델의 크기가 20 억개로 작아서, 6 GB VRAM에서도 돌릴 수 있고, RTX4090의 경우엔 4초짜리 비디오를 20초만에 생성할 수 있습니다. 무엇보다 용량을 생각했을 때 생성되는 비디오의 품질이 놀라울 정도로 우수합니다.
이 글에서는 ComfyUI에서 LXT 비디오를 설치하고 text-to-video, image-to-video 모드로 실행시키는 방법을 설명합니다.
소프트웨어
이 글에서는 스테이블 디퓨전용 GUI중에서도 제가 제일 좋아하는 ComfyUI를 사용합니다. ComfyUI가 처음이시라면, 설치 및 기본 사용방법 및 초보가이드를 확인하시기 바랍니다.
LTX Text-to-Video
LTX Text-to-Video 워크플로는 텍스트 프롬프트를 입력받아 mp4 비디오를 생성합니다. 기본 비디오 크기는 768x512입니다.
1 단계: ComfyUI 워크플로 불러오기
아래의 파일을 다운로드 받은 후, ComfyUI 화면에 Drag&Drop합니다. 또는 메뉴에서 Workflow->Open을 선택해도 됩니다.
- 처음 사용할 때 - ComfyUI Manager 를 설치해야 합니다.
- ComfyUI를 오랜만에 사용할 때 - ComfyUI를 최신버전으로 업데이트해야 합니다.
- 노드가 없다고 (빨간색) 경고가 뜰 때 - 빠진 커스톰 노드를 가져오기해야 합니다.
- 불러오기 혹은 수행중 에러 발생시 - 커스톰 노드를 업데이트해야 합니다.
2 단계: 모델 다운로드
체크포인트 모델
LTX 체크포인트 모델을 다운로드 받은 후, ComfyUI\models\checkpoints 폴더에 넣어줍니다.
T5XXL text encoder를 다운로드 받은 후, ComfyUI\models\clips 폴더에 넣어줍니다.
모두 다운로드 받은 후, 새로고침(F5)하고 [Load Checkpoint] 노드와 [Load Clip] 노드에서 선택해 줍니다.
3 단계: 프롬프트 검토
원하는 비디오가 나올 수 있도록 프롬프트의 내용을 검토합니다.
4 단계: 비디오 생성
[Queue] 버튼을 누르면 비디오가 생성됩니다.
LTX Image-to-Video
Image-to-video 워크플로는 이미지와 텍스트 프롬프트를 입력받아 비디오를 생성합니다.
하지만, ComfyUI 에서 제공하는 기본 워크플로를 사용하면, 움직임이 별로 없는 비디오가 생성됩니다. Reddit Discussion에 따르면 LTX 모델이 움직임이 있는 비디오를 학습했기 때문에, 약간 흐린 이미지가 더 잘 작동한다고 합니다. 이 글에서는 (1)이미지를 압축하여 품질을 낮추는 방법과 (2)이미지를 약간 흐릿하게 처리하는 방법을 테스트했는데, 첫번째 방법이 더 효과적이었습니다.
1 단계: 모델 다운로드
위에서 사용한 모델을 다운로드 받습니다.
2 단계: 워크플로 불러오기
아래의 워크플로를 불러옵니다. 화면에 드롭하거나 Workflow->Open 메뉴를 사용하면 됩니다.
3 단계: 이미지 입력
입력 이미지를 [Load Image] 노드에 선택합니다. 아래의 이미지를 사용하셔도 됩니다.
4 단계: 프롬프트 검토
입력 이미지와 어울리고 약간의 움직임을 설명하는 프롬프트가 필요합니다.
5 단계: 이미지 생성
[Queue] 단추를 누르면 비디오가 생성됩니다.
LTX-Video 모델 사용 팁
- LTX Video의 경우 프롬프트가 길 수록 잘 작동하는 경향이 있습니다. 장면과 카메라 움직임을 좀 더 자세하게 기술하세요.
- 비디오가 마음에 안들면 Seed 를 바꾸어 시도해보세요.
===============
아래는 제가 수정한 워크플로입니다. 아래 이미지를 사용한 워크플로이고, 주로 파일의 크기를 지정하지 않고 자동으로 설정되도록 하였습니다.
가운데에 아래처럼 된 부분이 있는데 여기에서 씨드번호를 바꿔가며 좋은 비디오를 찾으면 됩니다. 시험제작할 때에는 Enable Upscale을 끄고 돌리면 되고요.
아래는 이 워크플로로 생성한 비디오입니다. 여러번 돌려서 하나 건진건데, 그다지 마음에 들지는 않네요. 아마도 애니 캐릭터이기 때문이 아닐까 싶습니다.
아래는 Hailuo에서 생성한 비디오입니다. 역시나 품질 차이가 크네요. 물론 이것도 그다지 마음에 들지 않지만 몇 번만 더 생성해보면 괜찮은 게 나올 듯합니다.
그리고 아래는 Kling에서 생성한 비디오입니다. 이쪽도 Hailou AI와 거의 비슷한 수준이네요.
이상입니다.
이 글은 stable-diffusion-art.com의 글을 번역하여 작성했습니다.
민, 푸른하늘
- ComfyUI로 설치 및 사용법 기초
- ComfyUI 투토리얼
- ComfyUI를 위한 유용한 정보
- ComfyUI와 SDXL 사용법(1) - 기초
- ComfyUI에서 ControlNet 사용법
- 편리한 ComfyUI 워크플로 모음
- LCM-LoRA - 초고속 스테이블 디퓨전
- Stable Video Diffusion(비디오 스테이블 디퓨전)
- Stable Diffusion 인공지능 이미지 생초보 가이드
- Stable Diffusion 대표 UI - AUTOMATIC1111 설치방법
- Automatic1111 GUI: 초보자 가이드(메뉴 해설)
- Stable Diffusion에 대한 기본적인 이론
- ChatGPT로 스테이블 디퓨전 프롬프트 만들기