LLM을 작게 만드는 여러가지 압축 기술들
BitNet, AutoRound, TurboQuant, REAP 네 가지 LLM 압축 기법의 메커니즘과 NVFP4와의 직교 결합 운영 가이드. 양자화 너머 가중치·KV·expert pruning까지 다루는 시리즈 5편.
LLM의 추론속도를 빠르게 만드는 비결, Speculative Decoding이란 무엇인가?
Speculative Decoding 원리부터 n-gram·Medusa·EAGLE-3·MTP·DFlash까지 2026 LLM 추론 가속 기법을 한 번에 정리. NVFP4 양자화와의 이중 가속, vLLM·SGLang 실전 활성화까지 다룹니다.
오픈소스 LLM 동향 2026: DeepSeek-V4·Qwen3.6·GLM-5.1
TEST MARKER 2026-05-11 — inblog API PATCH 진단용
May 11, 2026
개인용 로컬 LLM 추론의 새 기준, MLX
Mac mini M4 Pro 24GB에서 MLX로 30B급 LLM을 실제로 돌려본 벤치마크와 운영 노하우. 개인용/소규모 팀의 로컬 LLM 추론 기준선을 정리합니다.