AI 이미지/AI Video

LTX Video 0.9.5

하늘이푸른오늘 2025. 3. 25. 22:56

LTX Video 0.9.5는 예전에 소개시켜 드렸던 LTX 비디오 모델의 업그레이드 버전입니다. 이 모델은 매우 빠르게 비디오를 생성할 수 있는 것이 장점입니다. RTX 4090의 경우 4초짜리 비디오를 17초만에 생성할 수 있다고 합니다.

소프트웨어

이 글에서는 스테이블 디퓨전용 GUI중에서도 제가 제일 좋아하는 ComfyUI를 사용합니다. ComfyUI가 처음이시라면, 설치 및 기본 사용방법초보가이드를 확인하시기 바랍니다.

LTXV 0.9.5에서 개선된 사항

라이선스

LTXV 0.9.5는 상업적으로 활용하는 것을 허용하는, 새로운 Open RAIL-M 라이선스를 채택하고 있습니다. 예를 들어 이 모델을 탑재하고 상업용으로 비디오를 생성해주는 서비스도 가능합니다.

텍스트-비디오

예전 버전과 마찬가지로 LTXV 0.9.5는 텍스트-비디오(text-to-video) 모드를 지원합니다. 다만 비디오의 품질이 훨씬 향상되었습니다.

이미지-비디오

LTXV 0.9.5는 이미지를 첫번째 프레임으로 사용하여 비디오로 전환해 줍니다.

첫번째 프레임
close up of 25yo beautiful woman face, start smiling

또한, 첫번째와 마지막 프레임을 모두 설정할 수도 있습니다.

첫번째 프레임 마지막 프레임

LTXV 0.9.5 Text-to-Video 워크플로 따라하기

LTX Text-to-Video  워크플로는 텍스트 프롬프트를 입력받아 mp4 비디오를 생성합니다. 기본 비디오 크기는 768x512입니다.

1 단계: ComfyUI 워크플로 불러오기

아래의 파일을 다운로드 받은 후, ComfyUI 화면에 Drag&Drop합니다. 또는 메뉴에서 Workflow->Open을 선택해도 됩니다.

ltx_0.9.5_text_to_video.json
0.01MB

2 단계: 모델 다운로드

체크포인트 모델

ltx-video-2b-v0.9.5.safetensors 모델을 다운로드 받은 후, ComfyUI\models\checkpoints 폴더에 넣어줍니다.

t5xxl_fp16.safetensors를 다운로드 받은 후, ComfyUI\models\clips 폴더에 넣어줍니다. 

모두 다운로드 받은 후, 새로고침(F5)하고 [Load Checkpoint] 노드와 [Load Clip] 노드에서 선택해 줍니다.

3 단계: 프롬프트 검토

원하는 비디오가 나올 수 있도록 프롬프트의 내용을 검토합니다. 대략 드론이 안개낀 호수 위로 날라가고 마지막엔 완전한 산의 모습이 황금빛 일출 속에서 나타난다는 내용입니다.

4 단계: 비디오 생성

[Queue] 버튼을 누르면 비디오가 생성됩니다. 768x512 해상도에 총 97 프레임인데 RTX 3070으로도 1분 이내에 생성되네요. 역시나 대단합니다.

아래는 씨드번호만 변경하여 생성한 다른 비디오입니다. 

LTX 0.9.5 Image-to-Video 워크플로 따라하기

Image-to-video 워크플로는 이미지와 텍스트 프롬프트를 입력받아 비디오를 생성합니다.

1 단계: 모델 다운로드

위에서 사용한 모델을 다운로드 받습니다.

2 단계: 워크플로 불러오기

아래의 워크플로를 불러옵니다. 화면에 드롭하거나 Workflow->Open 메뉴를 사용하면 됩니다.

ltx_0.9.5_image-to-video.json
0.01MB

3 단계: 이미지 입력

입력 이미지를 [Load Image] 노드에 선택합니다. 아래의 이미지를 사용하셔도 됩니다.

face_normal.png
1.10MB

4 단계: 프롬프트 검토

입력 이미지와 어울리고 약간의 움직임을 설명하는 프롬프트가 필요합니다. 여기에서는 웃는 얼굴로 바뀌는 모습으로 설정되어 있습니다.

LTXV의 프롬프트는 짧고 단어만 나열하는 것보다, 길고 자세하게 설명하는 텍스트가 더 좋습니다. 이런 프롬프트를 만들기 힘드시다면 ChatGPT를 이용해서 프롬프트를 만드시는 것도 좋습니다.

5 단계: 이미지 생성

[Queue] 단추를 누르면 비디오가 생성됩니다. 아래는 pingpong 모드를 켜둔 상태입니다. ㅎㅎㅎ

첫 프레임과 마지막 프레임을 지정한 비디오

이 워크플로는 첫 프레임과 마지막 프레임을 지정하여 비디오를 생성하는 방법입니다. 당연히 두개의 이미지를 입력해야 합니다.

1 단계: 모델 다운로드

위에서 사용한 모델을 다운로드 받습니다.

2 단계: 워크플로 불러오기

아래의 워크플로를 불러옵니다. 화면에 드롭하거나 Workflow->Open 메뉴를 사용하면 됩니다.

ltx_0.9.5_image-to-video_first_last_frame.json
0.02MB

3 단계: 이미지 입력

입력 이미지를 [Load Image] 노드에 선택합니다. 아래의 이미지를 사용하셔도 됩니다.

ltx_car.png
1.40MB
ltx_birthday_cake.png
0.78MB

4 단계: 프롬프트 검토

입력 이미지와 어울리고 약간의 움직임을 설명하는 프롬프트가 필요합니다. 여기에서는 웃는 얼굴로 바뀌는 모습으로 설정되어 있습니다.

LTXV의 프롬프트는 짧고 단어만 나열하는 것보다, 길고 자세하게 설명하는 텍스트가 더 좋습니다. 이런 프롬프트를 만들기 힘드시다면 ChatGPT를 이용해서 프롬프트를 만드시는 것도 좋습니다.

5 단계: 이미지 생성

[Queue] 단추를 누르면 비디오가 생성됩니다. 모핑된다는 느낌으로 생성하고 싶었는데, 몇번 테스트해봐도 별로 그런 장면이 나오지는 않네요.

참고사항

새로운 비디오 만들기

noise_seed를 바꾸면 새로운 비디오를 생성할 수 있습니다.

비디오 크기 변경

기본 비디오 크기는 768*512입니다. width 와 heigt를 바꾸면 초상화 비디오를 생성할 수 있습니다.

비디오 길이

length를 바꾸면 비디오 길이(프레임의 수)를 바꿀 수 있습니다. 

어려운 동작

LTXV 0.9.5에서 어려운 동작, 예를 들어 옷을 걸린다던지 움직임이 크다던지 하면 아주 크게 실망할 것입니다. 

여러번 생성할 것

비디오를 생성해보시면 아시겠지만, 원하는 비디오를 얻기는 정말 어렵습니다. 씨드번호를 바꿔가며 여러개를 생성해서 제일 좋은 것을 고르는 게 좋습니다.

이상입니다.

이 글은 Stable-diffusion-art.com의 글을 번역하면서 필요에 따라 수정하여 작성한 글입니다.