기타 GGUF 포맷의 사용
GGUF 포맷이란?
GGUF 포맷은 인공지능 모델을 위한 새로운 바이너리 포맷으로서, 특히 로딩 속도가 높고, 유연성이 뛰어나며, 모델의 모든 정보를 하나의 파일로 통합하도록 설계된 포맷입니다. 이 포맷은 2023년 8월에 도입되었으며, GGML 및 GGJT 포맷의 발전된 형태입니다. 이 포맷은 FLUX 이미지 생성 모델을 포함하여, llama.cpp를 사용하는 모델에 특히 적합합니다.
GGUF 포맷을 사용하는 이유
GGUF 포맷은 AI 모델을 보다 간단하면서도 효율적으로 사용하기 위한 목적으로 만들어졌습니다. 즉, 모델을 불러오는 속도를 빠르게 하고, 다양한 플랫폼에서 사용할 수 있으며, 특히 자원이 제한된 기기에서도 사용할 수 있도록 설계되었습니다. 아울러 여러 파일을 사용하는데 따른 복잡한 문제도 피할 수 있습니다.
GGUF 포맷의 장점
- 로딩 속도가 빠름 : GGUF의 내부 고조는 모델 로딩 시간을 최적화합니다. 이는 빠른 응답이 필요한 대화형 응용에서 필수적인 요소입니다.
- 유연성 : 다른 포맷들과는 달리, GGUF는 key-value 쌍 구조를 사용하여 하이퍼파라미터 및 기다 정보를 저장합니다. 이를 통해 기존의 모델과의 호환성을 유지하면서도 GGUF 형식에 새로운 데이터를 추가할 수 있습니다.
- 배포 간소화 : GGUF를 사용하면 모델 구성 및 토큰화 어휘를 포함하여 모든 것이 하나의 파일에 캡슐화됩니다. 따라서 배포가 쉬워지고 파일 누락이나 조직화 실수에 따른 위험을 줄여줍니다.
- 호환성 : GGUF 포맷은 llama.cpp를 포함한 다양한 라이브러리와 호환되므로, 다양한 환경에 FLUX.1 모델을 통합할 수 있습니다.
FLUX + GGUF = 🚀
FLUX 관련 커뮤니티에서는 VRAM 요구량이 많은 FLUX Dev 및 FLUX Schnell 모델에 GGUF 포맷을 채택하여, 저급의 GPU만 탑재한 개인용 컴퓨터와 같이 자원이 한정된 시스템에서도 효율적으로 모델을 불러오고 추론을 할 수 있도록 하였습니다.
FLUX 양자화 모델
GGUF 포맷은 다양한 양자화 버전으로 생성할 수 있어, 모델의 크기, 추론 속도, 품질간에 균형을 맞출 수 있습니다.
- F16 : 최고의 품질로 정밀도가 최우선인 응용분야에 적합합니다.
- Q8_0 : 중간 정도의 최적화를 통해 고품질을 보장하면서도, 한정된 자원의 환경에 적합합니다.
- Q4_0 ~ Q5_0 : 속도에 최적화된 버전으로, 대화형 애플리케이션이나 제약이 심한 환경에 적합합니다.
효율적인 추론
GGUF는 메모리 및 속도를 최적화하여, 고성능 GPU가 필요없이 가정용 하드웨어에서도 FLUX를 사용할 수 있습니다.
GGUF Flux 사용방법
FLUX.1 GGUF 버전은 아래의 Huggingface 저장소에서 받을 수 있습니다.
- FLUX.1-dev-gguf -- black-forest-labs/FLUX.1-dev 모델을 GGUF 포맷으로 직접 변환한 것
- FLUX.1-schnell-gguf -- black-forest0labs/FLUX.1-schnell 모델을 GGUF 포맷으로 직접 변환한 것
이들 모델 파일은 ComfyUI-GGUF 노드나, Forge와 같은 웹UI에서 사용할 수 있습니다. ComfyUI에서 FLUX GGUF 모델을 사용하는 방법은 이 글을 참고하세요.
FLUX 모델의 GGUF 양자화 버전을 사용하면, 고성능 GPU가 없는 일반 가정용 PC와 같은 제한된 자원의 시스템에서도 효과정으로 FLUX를 돌릴 수 있습니다.
GGUF는 양자화 옵션, 광범위한 호환성, 배포 용이성등을 제공함으로써, Flux를 포함한 AI 모델을 쉽게 사용할 수 있게 하는 혁신적인 파일 포맷입니다. 특히 리소스가 제한된 환경에서 AI 모델을 효율적으로 배포하려는 개발자에게 GGUF는 핵심 솔루션임을 입증하고 있습니다.
기타 GGUF 포맷의 사용
이 글에서는 FLUX GGUF 포맷에 대해서 주로 이야기 했고, 대형언어 모델에도 사용될 수 있다고 언급했으나, 제 블로그에서는 여러가지 비디오 모델에도 GGUF 버전을 적용하고 있습니다. 아래의 링크를 확인하세요.
- Stable Diffusion 3.5 GGUF를 ComfyUI에서 사용하기
- Flux-CogVideo 워크플로(ComfyUI)
- Mochi GGUF txt2vid (ComfyUI)
- Flux-LTX txt2vid 워크플로-ComfyUI
- Flux GGUF + SVD 비디오 워크플로(ComfyUI)
맨 위는 Stable Diffusion 3.5 모델의 GGUF 버전을 사용하는 방법이고, 다음 두 개는 CogVideo, Mochi 등 비디오 생성 모델의 GGUF 버전입니다. 마지막의 LTX와 SVD의 경우에는 Flux 모델의 GGUF 버전을 사용한다음 LTX/SVD를 적용한 버전입니다. 참고하세요.
이상입니다.
이 글은 stablediffusion.blog의 글을 번역하며 제가 생성한 결과로 대체하여 작성한 글입니다.