LLM을 작게 만드는 여러가지 압축 기술들
먼저 30초 요약
LLM 압축은 양자화 하나가 아니라 여러 layer로 나뉘어 있습니다. 2025~2026년에 가중치 양자화(BitNet · AutoRound), KV cache 압축(TurboQuant), MoE expert 가지치기(REAP) 네 가지가 서로 다른 위치를 잡았습니다.
각 기법은 다른 시점·다른 대상을 압축합니다. BitNet은 학습 시점에 1.58-bit native로, AutoRound는 학습 후 가중치를, TurboQuant은 운영 시점 KV cache를, REAP은 MoE expert 자체를 줄입니다.
결정적으로 이 기법들은 서로 직교(orthogonal)합니다. NVFP4 양자화 모델에 REAP을 얹어 expert를 50% 자르고, 그 위에 TurboQuant으로 KV cache를 다시 3-bit로 줄이는 식의 조합이 가능합니다.
이 글은 NVFP4 + vLLM 서빙 가이드의 후속입니다. NVFP4가 mainstream 4-bit라면, 그 옆에 어떤 길들이 더 있는지를 정리합니다.
들어가며: 왜 양자화 너머를 봐야 하는가
NVFP4 + vLLM 글에서 다뤘듯이, 2026년에는 frontier 오픈모델을 4-bit로 양자화해서 서빙하는 것이 기본값이 됐습니다. NVFP4·MXFP4·GPTQ 같은 4-bit 포맷이 vLLM에 표준 통합돼 있고, NVIDIA Blackwell이 NVFP4를 1차 시민으로 지원합니다.
그런데 같은 시기에 모델은 더 커지고 있습니다. 오픈소스 LLM 동향 글에서 정리했듯 DeepSeek-V4-Pro 1.6T, GLM-5 744B, Qwen3.6-Max ~1T 같은 모델이 흔해졌습니다. 4-bit 양자화로도 듀얼 Blackwell(192GB VRAM) 헤드룸이 빠듯한 영역입니다. “4-bit 양자화 + α”가 운영자의 새 과제로 떠올랐습니다.
그 α 자리에 들어오는 기법들이 이 글의 주제입니다. 네 가지를 보겠습니다.
BitNet (Microsoft): 학습 시점부터 1.58-bit로 만드는 native quantization
AutoRound (Intel): 학습 후 가중치를 SignSGD로 200 스텝 만에 정교하게 양자화
TurboQuant (Google): 운영 시점에 KV cache를 3-bit로 압축
REAP (Cerebras): 양자화와 직교적으로 MoE expert의 절반을 잘라내는 pruning
각자 다른 layer를 압축하기 때문에 조합하면 곱셈으로 효과가 납니다. 한 모델을 한 번이 아니라 여러 번 줄일 수 있는 방법들입니다.
1. BitNet: 1.58비트 LLM이 가능하다
BitNet은 Microsoft Research가 만든 native low-bit LLM 패밀리입니다. 가장 큰 특징은 “학습된 FP16 모델을 사후 양자화한 것”이 아니라 처음부터 1.58-bit로 학습됐다는 점입니다. 가중치가 -1, 0, +1 세 값(ternary)만 가집니다.
1-1. 왜 1.58비트인가
정확히 1-bit가 아니라 1.58-bit(=log₂3)인 이유는 ternary이기 때문입니다. 가중치마다 세 가지 상태를 표현하므로 정보량은 log₂3 ≈ 1.58 비트입니다. 0을 허용하는 게 BitNet b1.58의 핵심으로, 모델이 “이 가중치는 영향 없음”을 직접 표현할 수 있어 1-bit ({-1, +1}) 대비 표현력이 크게 높아집니다.
중요한 건 양자화 시점입니다. FP16 모델을 학습한 뒤 1.58-bit로 떨어뜨리는 게 아니라, 처음부터 1.58-bit weight로 학습합니다. 그래서 “native 1.58-bit”라고 부릅니다. 학습 중에는 STE(Straight-Through Estimator)로 기울기를 통과시키고 forward에서만 ternary로 양자화하는 quantization-aware training 방식입니다.
1-2. 실제로 얼마나 작아지는가
Microsoft가 2025년 4월에 공개한 BitNet b1.58 2B4T는 2B 파라미터를 4T 토큰으로 학습한 첫 native 1.58-bit 모델입니다. 디스크 크기는 약 400MB로, 같은 2B 클래스의 FP16 모델이 4~5GB인 것과 비교하면 한 자리 수 차이가 납니다.
CPU 추론에서 진가가 드러납니다. x86 CPU 기준 일반 FP16 모델 대비 2.37배~6.17배 가속, 에너지 소비는 71.9%~82.2% 감소합니다. 100B 파라미터급 1.58-bit 모델을 GPU 없이 단일 CPU에서 사람 독서 속도(5~7 tok/s)로 돌릴 수 있다는 보고도 있습니다. 2026년 1월에는 추가 CPU 최적화로 1.15배~2.1배 더 빨라졌습니다.
1-3. BitNet a4.8과 추론 프레임워크
후속 변종 BitNet a4.8은 가중치는 1.58-bit, 활성화는 4-bit로 만든 hybrid 구성입니다. 가중치만 1.58-bit이고 activation은 FP16인 원래 BitNet 대비 메모리 대역폭을 더 줄여 줍니다.
추론은 공식 프레임워크 bitnet.cpp를 사용합니다. CPU/GPU를 지원하고 NPU 지원도 곧 나옵니다. llama.cpp와 비슷한 위치이지만 1.58-bit 전용 커널을 갖춰 동일 모델을 훨씬 빨리 굴립니다.
1-4. 한계
단점도 분명합니다. BitNet은 기존 모델을 사후에 1.58-bit로 만들 수 없습니다. 처음부터 1.58-bit로 학습해야 하므로, DeepSeek-V4나 Qwen 같은 기존 frontier 모델에는 적용 불가입니다. 2026년 5월 기준 BitNet 패밀리에는 2B 외에 큰 모델이 없고, 100B 시연도 실험적 학습본 위주입니다. “기존 모델을 더 작게”가 아니라 “처음부터 작게 학습한 새 모델”이 BitNet의 위치입니다.
2. AutoRound: 200스텝으로 양자화 정확도를 끌어올린다
사후 양자화(Post-Training Quantization, PTQ)는 학습된 FP16 모델을 그대로 받아서 가중치를 더 적은 비트로 떨어뜨리는 방식입니다. NVFP4·GPTQ·AWQ가 다 PTQ입니다. AutoRound는 Intel이 만든 PTQ 알고리즘으로, 같은 4-bit 양자화에서도 정확도 손실을 가장 적게 내는 쪽으로 잡혔습니다.
2-1. SignRound: 학습 가능한 rounding
표준 RTN(Round-to-Nearest) 양자화는 각 가중치를 가장 가까운 양자화 격자로 강제 반올림합니다. 단순하지만 모델 전체 입장에서는 최선이 아닙니다. 어떤 가중치는 약간 위로, 어떤 가중치는 약간 아래로 반올림하는 게 model loss를 더 줄일 수 있는데, RTN은 그 정보를 무시합니다.
AutoRound의 핵심 아이디어는 rounding을 fixed가 아니라 learnable로 만드는 것입니다. 가중치 하나하나에 작은 offset 변수를 두고, layer-wise reconstruction loss를 최소화하는 방향으로 그 offset을 최적화합니다. 동시에 per-block clipping range도 같이 learn 합니다.
2-2. SignSGD와 200 스텝
최적화 방식이 특이합니다. SignSGD(부호만 보는 gradient descent)를 씁니다. 일반 SGD는 gradient 크기를 그대로 쓰지만, SignSGD는 +/-만 보고 동일 step size로 움직입니다. AutoRound는 이를 활용해 정확히 200 스텝만에 수렴합니다. learning rate 5e-3에 linear decay, 거의 hyperparameter tuning이 필요 없습니다.
결과는 인상적입니다. INT2 양자화에서 baseline 대비 최대 2.1배 높은 상대 정확도를 기록했고, INT4에서는 거의 FP16 수준 정확도를 유지합니다.
2-3. 운영 친화: 표준 도구가 모두 지원
실용 측면에서 AutoRound의 강점은 생태계입니다.
지원 데이터 타입: INT2~INT8, FP8 block-wise, MXFP4, NVFP4, GGUF까지. NVFP4 글에서 다룬 Blackwell 친화 포맷도 AutoRound로 변환 가능합니다.
추론 엔진 통합: vLLM, SGLang, Transformers, llm-compressor 모두 표준 backend로 지원합니다.
Hugging Face: OPEA, Kaitchup, fbaldassarri 등 컬렉션을 통해 양자화된 ready-to-use 모델이 누적 약 200만 다운로드.
NVFP4가 “하드웨어 친화 표준 포맷”이라면, AutoRound는 그 포맷을 가장 정확하게 만들어주는 변환 도구에 가깝습니다. 둘은 경쟁이 아니라 짝입니다.
3. TurboQuant: KV cache를 3비트로 줄이는 길
양자화의 대상이 항상 모델 가중치인 것은 아닙니다. 긴 컨텍스트 추론의 진짜 비용은 가중치가 아니라 KV cache입니다. 오픈소스 LLM 글에서 정리했듯, 1M context에서는 KV cache가 모델 가중치보다 크게 부푸는 영역으로 진입합니다.
TurboQuant은 Google Research가 ICLR 2026에 발표한 KV cache 전용 양자화 기법입니다.
3-1. Vector quantization with random rotation
표준 scalar quantization은 차원 하나하나를 독립적으로 양자화합니다. 단순하지만 차원 간 상관(correlation)을 활용하지 못해 손실이 큽니다. 반면 vector quantization은 차원 묶음을 codebook으로 표현해 효율적이지만, codebook 자체를 저장하는 메모리 overhead가 듭니다.
TurboQuant은 그 사이에서 영리한 트릭을 씁니다. 입력 벡터를 random rotation matrix로 회전합니다. 회전된 공간에서는 고차원 벡터의 좌표가 거의 독립적인 Beta 분포로 집중되는 성질이 있어, 코디네이트별로 optimal scalar quantizer를 적용해도 vector quantization과 비슷한 효율을 얻습니다. Codebook을 따로 들고 다니지 않아도 됩니다.
남는 bias 문제는 추가 단계로 해결합니다. 1차 MSE quantizer로 떨어뜨린 뒤, residual에 1-bit Quantized Johnson-Lindenstrauss(QJL) transform을 한 번 더 적용해서 inner product 추정 bias를 잡습니다.
3-2. 성능: 3비트 lossless, H100에서 8배
결과 수치가 인상적입니다.
KV cache를 3-bit로 양자화해도 정확도 손실 거의 0. Fine-tuning이나 training 불필요. Gemma와 Mistral에서 검증됐습니다.
4-bit TurboQuant은 H100 GPU에서 32-bit unquantized 대비 최대 8배 처리량.
3.5 bits/channel에서 quality-neutral, 2.5 bits/channel까지 가도 degradation은 marginal.
동반 기법으로 PolarQuant(AISTATS 2026)도 함께 발표됐는데, 비슷한 vector-aware 양자화로 nearest neighbor search에 최적화돼 있습니다. TurboQuant은 vLLM 커뮤니티 통합본이 있고(0xSero/turboquant, tonbistudio/turboquant-pytorch 등) Triton 커널로 H100·H200에서 직접 돌릴 수 있습니다.
3-3. NVFP4와의 관계
NVFP4가 weight + KV를 4-bit로 함께 가져가는 통합 포맷이라면, TurboQuant은 KV 전용으로 더 공격적으로(3-bit) 압축합니다. 1M context를 쓰지 않으면 NVFP4 KV만으로 충분하지만, 1M context를 실제로 활용하는 워크로드에서는 TurboQuant이 헤드룸을 확보합니다. 양자는 보완 관계입니다.
4. REAP: MoE expert의 절반을 잘라낸다
앞의 셋이 “수치 표현을 줄이는” 양자화 계열이라면, REAP은 다른 카테고리에 있습니다. 양자화가 아니라 pruning, 그것도 MoE expert를 통째로 잘라내는 방식입니다.
4-1. MoE 모델의 expert는 다 같지 않다
오픈소스 LLM 글에서 정리했듯, 2026년 frontier 모델은 거의 모두 fine-grained MoE입니다. Qwen 3.5-35B-A3B만 봐도 layer당 expert가 256개, 그중 token 한 개당 8개만 활성됩니다. 나머지 248개 expert는 그 token에 대해 일하지 않습니다.
그런데 학습된 expert들이 균등하게 중요한 것은 아닙니다. 어떤 expert는 자주 routed되고 출력 magnitude도 크지만, 어떤 expert는 거의 routed되지 않거나 routed돼도 출력이 미미합니다. “routed 빈도 낮음 + 출력 임팩트 낮음” 둘 다 해당되는 expert를 자르면 모델 품질에 미치는 영향이 적습니다.
4-2. Router-weighted Expert Activation Pruning
REAP의 핵심 아이디어는 expert의 saliency를 두 신호로 계산하는 것입니다.
Router gate value: router가 그 expert에 부여한 weight (자주 선택되나)
Expert activation norm: 선택됐을 때 출력 magnitude (영향이 큰가)
두 신호를 곱한 값을 expert의 saliency로 보고, saliency 낮은 expert부터 제거합니다. 기존 expert merging 방법들이 routing을 평균내면서 “fine-grained routing 정보를 잃어버린” 문제를 우회합니다.
중요한 건 one-shot이라는 점입니다. 가지치기 후 fine-tuning이 필요 없습니다. 가중치를 잘라낸 그대로 추론에 쓸 수 있습니다.
4-3. 50% pruning에서도 거의 그대로
검증 결과가 강합니다.
20B~1T 파라미터 SMoE 모델에서 검증됨
Qwen3-Coder-480B를 50% pruning: 비-agentic 코딩 능력 97.6%, agentic SWE-Bench 96.7% 유지
Kimi-K2 등 trillion-scale 모델에서도 50% 압축에서 near-lossless
생성 태스크에서 expert merging 대비 일관되게 우위
Cerebras가 GitHub(CerebrasResearch/reap)과 Hugging Face(cerebras/Kimi-Linear-REAP-35B-A3B-Instruct 등)에 코드와 가지치기된 체크포인트를 공개해뒀습니다.
4-4. 결정적 매력: 양자화 모델에도 그대로 적용
REAP 논문이 강조한 한 가지가 흥미롭습니다. 이미 양자화된 모델에 REAP을 추가로 적용할 때 block scale 재조정이나 re-quantization이 필요 없습니다. 양자화된 expert를 그냥 통째로 빼면 됩니다. 즉 NVFP4 + REAP, AutoRound + REAP, TurboQuant + REAP 같은 조합이 자연스럽게 가능합니다.
5. 네 기법을 한 표로
정리하면 다음과 같습니다. 기존 NVFP4 글의 mainstream 4-bit를 함께 두면 압축 spectrum이 보입니다.
기법 | 시점 | 대상 | 정밀도 | 학습 필요 | 특징 |
|---|---|---|---|---|---|
BitNet | 학습 시점 | 가중치 | 1.58-bit (ternary) | ✅ from-scratch | native quantization, CPU 친화, 기존 모델 변환 불가 |
AutoRound | 학습 후 (PTQ) | 가중치 | INT2~INT8, FP8/NVFP4/MXFP4 | ❌ (200 step optimize) | accuracy-first, vLLM·SGLang 표준 통합 |
NVFP4 (기존 글) | 학습 후 (PTQ) | 가중치 + KV | 4-bit | ❌ | Blackwell 하드웨어 1차 시민 |
TurboQuant | 운영 시점 (online) | KV cache | 3~4-bit (vector) | ❌ | 1M context 워크로드 친화, random rotation + QJL |
REAP | 학습 후 (one-shot) | MoE expert (구조) | 50% 제거 | ❌ | 양자화 직교, fine-tuning 불필요 |
한 줄 정리: BitNet은 “처음부터 작게 학습”, AutoRound는 “학습 후 정밀하게 양자화”, TurboQuant은 “운영 중에 KV cache 압축”, REAP은 “쓸모없는 expert 잘라내기”입니다. 각자 다른 layer를 건드리므로 결합이 가능합니다.
6. 직교 결합: 한 모델을 여러 번 줄이기
서로 다른 layer를 건드린다는 말은 곧 같은 모델에 여러 기법을 동시에 적용 가능하다는 뜻입니다. 결합 시나리오를 정리해보면 다음과 같습니다.
6-1. AutoRound + NVFP4: 정확도 우선 양자화
AutoRound로 NVFP4 변환본을 만들면 SignSGD 200 step 최적화 덕분에 RTN보다 정확도 손실이 적습니다. Blackwell GPU의 NVFP4 하드웨어 친화성 + AutoRound의 정확도 우위가 결합되는 조합입니다. Intel auto-round 레포는 이미 --scheme NVFP4 옵션을 제공합니다.
6-2. NVFP4 + REAP: 가중치 4-bit + expert 50%
Qwen3-Coder-480B 같은 거대 MoE 모델은 NVFP4 4-bit로 양자화해도 480B × 0.5byte ≈ 240GB로 듀얼 Blackwell(192GB)에 안 들어갑니다. 여기에 REAP으로 expert 50%를 자르면 절반인 120GB로 떨어집니다. REAP은 양자화 후 적용해도 re-quantization이 필요 없으므로 운영 파이프라인이 깔끔합니다.
6-3. NVFP4 + TurboQuant: 1M context 워크로드
가중치는 NVFP4 4-bit, KV cache는 TurboQuant 3-bit. 모델이 큰 1M context 워크로드에서는 KV cache가 가중치보다 큰 비중을 차지하므로 KV 압축이 더 큰 효과를 냅니다. 1M context 모델을 진짜 1M context로 굴리려면 거의 필수 조합입니다.
6-4. 운영 시 권장 우선순위
결합 순서에는 권장이 있습니다.
먼저 AutoRound로 정확도 우선 NVFP4 변환본을 만든다 (또는 검증된 변환본을 받는다)
필요하면 REAP으로 MoE expert 50% pruning을 적용한다 (one-shot, fine-tuning 불필요)
운영 시 긴 컨텍스트가 들어오면 TurboQuant으로 KV cache까지 3-bit로
완전히 새 모델을 처음부터 작게 만들 거면 BitNet으로 native 1.58-bit 학습
대부분 운영자는 2번까지로 충분하고, 1M context를 본격적으로 활용할 때 3번이 들어옵니다. 4번은 R&D 영역에 가깝습니다.
7. 빠른 운영 체크리스트
실제 운영에서 이 기법들을 도입하기 전에 한 번 훑어볼 체크리스트입니다.
워크로드 특성부터 확인: 가중치가 큰가, KV cache가 큰가, MoE expert가 많은가에 따라 우선 적용할 기법이 다릅니다.
회귀 평가셋 50+ 케이스 보유: 양자화·가지치기 적용 전후로 동일 평가셋으로 품질 확인. 특히 코딩·에이전트는 회귀가 미묘하게 누적되므로 체크 필수.
NVFP4 변환은 AutoRound 우선 검토: 같은 4-bit라도 변환 도구에 따라 정확도가 다릅니다. HuggingFace 컬렉션의 ready-to-use 모델로 빠르게 비교 가능.
큰 MoE 모델에는 REAP 50% pruning을 옵션으로 고려: Qwen3-Coder-480B, DeepSeek-V4-Pro 같은 1T급 모델은 양자화만으로 헤드룸 부족할 수 있음.
1M context 워크로드라면 TurboQuant·KV quantization 옵션 점검: vLLM·SGLang의 KV cache quantization 활성화 여부와 함께.
BitNet은 “새 학습” 카테고리: 기존 모델을 작게 만드는 도구가 아니므로 R&D 또는 edge/CPU 시나리오 검토용.
결합 시 순서 지키기: 양자화 → pruning → KV 압축 순서가 안전합니다. 반대로 하면 재변환이 필요한 경우가 생깁니다.
추론 엔진 통합 여부 확인: vLLM, SGLang에서 해당 기법의 backend 지원 상태를 미리 체크. 통합 안 된 기법은 직접 커널 작성 부담이 듭니다.
8. 결론: 압축은 한 가지 방법이 아니라 스택입니다
2025~2026년에 LLM 압축은 “양자화”라는 단일 카테고리에서 벗어났습니다. 학습 시점에 줄이는 BitNet, 학습 후에 정밀하게 줄이는 AutoRound, 운영 중에 KV를 줄이는 TurboQuant, expert 자체를 잘라내는 REAP이 각자 다른 layer를 잡으면서 한 모델을 여러 번 줄일 수 있는 시대가 됐습니다.
운영 관점에서는 결국 두 가지가 중요합니다. 첫째, 각 기법이 어떤 layer를 압축하는지 알고 워크로드에 맞게 골라 쓰는 것. 둘째, 직교적으로 결합해서 가용 메모리·지연시간 헤드룸을 확보하는 것입니다. 양자화 하나로 안 풀리는 문제도, AutoRound + REAP + TurboQuant 조합으로는 풀립니다.
시리즈에서 이미 다룬 글들과 함께 보면 그림이 완성됩니다. NVFP4 + vLLM 서빙 가이드는 mainstream 4-bit 양자화의 실전 운영을, 오픈소스 LLM 동향은 압축 대상이 되는 모델들의 아키텍처를, Speculative Decoding은 압축과 함께 적용할 추론 가속을, MLX 가이드는 개인 스케일의 양자화 운영을 다룹니다. 이 글은 그 안에서 “모델 자체를 더 작게 만드는 방법들”에 해당합니다.
참고 자료
BitNet a4.8: 4-bit Activations for 1-bit LLMs (Microsoft Research)
intel/auto-round GitHub — Accuracy-first quantization toolkit
Introducing AutoRound: Intel's Advanced Quantization (HuggingFace blog)
TurboQuant: Redefining AI efficiency with extreme compression (Google Research)
TurboQuant: Online Vector Quantization with Near-optimal Distortion Rate (arXiv)
REAP the Experts: Why Pruning Prevails for One-Shot MoE compression (arXiv)
REAP: One-Shot Pruning for Trillion-Parameter MoE (Cerebras Blog)
Plaid Labs 기술 블로그 — 오픈소스 LLM 동향 2026: DeepSeek-V4·Qwen3.6·GLM-5.1