조태완 - Plaid Labs Tech Blog

Plaid Labs Tech Blog

가상에 머무는 AI를 넘어, 현실 세계의 문제를 스스로 해결하는 에이전트를 만듭니다.

조태완

LLM을 작게 만드는 여러가지 압축 기술들

LLM을 작게 만드는 여러가지 압축 기술들

BitNet, AutoRound, TurboQuant, REAP 네 가지 LLM 압축 기법의 메커니즘과 NVFP4와의 직교 결합 운영 가이드. 양자화 너머 가중치·KV·expert pruning까지 다루는 시리즈 5편.

LLM의 추론속도를 빠르게 만드는 비결, Speculative Decoding이란 무엇인가?

LLM의 추론속도를 빠르게 만드는 비결, Speculative Decoding이란 무엇인가?

Speculative Decoding 원리부터 n-gram·Medusa·EAGLE-3·MTP·DFlash까지 2026 LLM 추론 가속 기법을 한 번에 정리. NVFP4 양자화와의 이중 가속, vLLM·SGLang 실전 활성화까지 다룹니다.

개인용 로컬 LLM 추론의 새 기준, MLX

개인용 로컬 LLM 추론의 새 기준, MLX

Mac mini M4 Pro 24GB에서 MLX로 30B급 LLM을 실제로 돌려본 벤치마크와 운영 노하우. 개인용/소규모 팀의 로컬 LLM 추론 기준선을 정리합니다.

NVIDIA Blackwell 전용 추론 엔진 NVFP4를 활용한 vLLM 로컬 모델 서빙

NVIDIA Blackwell 전용 추론 엔진 NVFP4를 활용한 vLLM 로컬 모델 서빙

NVFP4를 쉬운 비유와 실전 예시로 설명하고, Blackwell 듀얼 GPU에서 vLLM 로컬 서빙을 안정적으로 운영하는 방법을 정리한 가이드입니다.

플래드

RSS·Powered by Inblog