오픈소스 LLM 동향 2026: DeepSeek-V4·Qwen3.6·GLM-5.1
먼저 30초 요약
2026년 1분기에 DeepSeek-V4, GLM-5/5.1, Qwen 3.5/3.6, MiniMax-M2, ByteDance Seed 2.0이 줄줄이 발표되면서 오픈소스 LLM이 폐쇄 모델을 “추격”하는 단계는 끝났습니다. 코딩·에이전트·다국어 벤치마크에서는 이미 일부 영역에서 SOTA를 잡았습니다.
아키텍처 차원의 공통 패턴은 (1) Fine-grained MoE + Shared expert, (2) sparse·compressed attention, (3) 1M+ context, (4) 활성 파라미터 비율 3~5%대 압축입니다. 이름은 다 다르지만 본질은 비슷합니다.
라이선스는 MIT/Apache 2.0이 표준이 되었고, GLM-5는 처음으로 Huawei Ascend만으로 frontier 모델 학습에 성공해 NVIDIA 종속성도 깨지기 시작했습니다.
운영 관점에서는 “어떤 모델을 쓸까”보다 “어떤 추론 인프라를 갖춰둘까”가 더 중요해졌습니다. 같은 시리즈로 NVFP4 + vLLM 듀얼 Blackwell 서빙 가이드와 MLX 로컬 LLM 추론 가이드를 정리해뒀습니다.
들어가며: 왜 지금 오픈소스 LLM 동향을 다시 봐야 하는가
1~2년 전만 해도 오픈소스 LLM은 GPT-4·Claude를 “추격하는” 카테고리였습니다. 그런데 2026년 들어 분위기가 완전히 달라졌습니다. 월 단위로 frontier 오픈모델이 발표되고, 일부 영역에서는 폐쇄 모델을 추월하는 수치가 나오고 있습니다. GLM-5.1은 SWE-Bench Pro에서 GPT-5.4와 Claude Opus 4.6을 모두 넘었고, DeepSeek-V4-Pro-Max는 “open-source 모델 중 최강”이라는 자체 평가를 공식적으로 내놓는 단계까지 왔습니다.
그리고 그 변화의 대부분은 중국 랩(DeepSeek, Alibaba Qwen, Zhipu, MiniMax, ByteDance)에서 일어나고 있습니다. Meta의 Llama 4도 MoE로 전환했지만, 발행 속도와 모델 다양성에서 따라가지 못하는 상황입니다. 이 글은 모델 하나하나의 사용법을 다루지 않습니다. 대신 아키텍처 차원의 공통점·차이점과 앞으로의 방향성을 정리합니다. 트랜스포머 블록 내부에서 어떤 일이 벌어지고 있는지가 핵심입니다.
0. 2025~2026 핵심 릴리즈 타임라인
지난 1년간의 주요 릴리즈를 한 번 훑고 시작하겠습니다.
관전 포인트는 단순합니다. 2026년 1분기에만 frontier 오픈모델이 5개 이상 발표됐고, 그중 4개가 중국발입니다. 같은 분기에 폐쇄 모델 진영에서는 GPT-5.4, Claude Opus 4.6 정도가 갱신됐으니, 발행 속도는 이미 역전된 상태입니다.
1. MoE의 표준화: Fine-grained Expert + Shared Expert
2024년까지 MoE(Mixture of Experts)는 “특이한 선택”이었습니다. 2026년에는 모든 frontier 오픈모델이 MoE입니다. Meta의 Llama도 4세대부터 MoE로 전환했습니다. 그런데 모델별로 MoE 구조 자체가 살짝 다릅니다.
1-1. DeepSeekMoE의 두 가지 발명
DeepSeek-V2/V3/V4의 MoE는 두 가지 핵심 변경에서 시작합니다.
Fine-grained expert segmentation: 표준 MoE의 N개 expert를 mN개로 잘게 쪼개고, 각 expert의 hidden dimension은 1/m로 줄입니다. 활성되는 expert 수도 mK개로 늘립니다. 총 파라미터·활성 파라미터·연산량은 그대로 유지하면서, 활성 expert의 조합 가능성을 mK배로 늘리는 트릭입니다. 더 많은 조합으로 표현하기 때문에 expert가 더 전문화됩니다.
Shared expert isolation: 일부 expert를 항상 활성화되는 “shared”로 분리합니다. 공통 지식은 shared가 담당하고, routed expert는 도메인 특화 지식만 담는 식입니다. 이렇게 분리하면 routed expert 간 redundancy가 줄어듭니다.
DeepSeek-V4-Pro는 이 구조 위에 총 1.6T 파라미터를 49B만 활성화(약 3.1%)합니다. Flash 버전은 284B/13B(4.6%)로 더 가볍습니다. Pro의 1.6T를 FP16으로 들고 다니려면 3TB 이상이 필요하지만, NVFP4 4비트면 약 400GB대로 떨어집니다.
1-2. 다른 모델들이 채택한 구조
DeepSeekMoE 패턴은 사실상 업계 표준이 됐습니다. 모델별로 routing 폭과 shared expert 유무가 살짝 다릅니다.
모델 | Routed Expert | Top-k | Shared Expert | 비고 |
|---|---|---|---|---|
DeepSeek-V4-Pro | fine-grained 다수 | fine-grained | 있음 | DeepSeekMoE v3 계승 |
Qwen 3.5-35B-A3B | 256 | 8 | 1 | 가장 fine-grained 구조 중 하나 |
Llama 4 Maverick | 128 | 1 | 1 | Dense layer와 alternating |
Llama 4 Scout | 16 | 1 | 1 | Maverick보다 expert 적음 |
GLM-5 | 비공개 | 비공개 | 비공개 | fine-grained 추정 |
MiniMax-M2 | 비공개 | 비공개 | 비공개 | 10B 활성 / 230B 총 |
특이한 건 Llama 4가 alternating dense + MoE 구조를 채택한 점입니다. 모든 layer가 MoE가 아니라 dense layer와 MoE layer를 교차 배치합니다. 안정성과 routing overhead 사이의 타협으로 보입니다.
DeepSeek-V4 트랜스포머 블록 전체 구조. Hybrid CSA/HCA Attention + DeepSeekMoE + MTP head. (출처: DeepSeek-V4 Technical Report, Figure 2)
1-3. Multi-Token Prediction (MTP)
DeepSeek-V3가 도입하고 V4도 계승한 학습 기법입니다. 표준 LLM 학습은 다음 1개 토큰을 예측하지만, MTP는 다음 N개 토큰을 순차적으로(병렬이 아니라) 예측합니다. 인과 사슬을 유지하면서 더 풍부한 학습 신호를 받습니다. 데이터 효율이 올라가고, 모델 내부 표현이 더 넓은 컨텍스트를 고려하게 됩니다. 추론 시에는 N개 토큰을 한꺼번에 생성하는 speculative decoding으로도 활용할 수 있어 throughput에도 직접 기여합니다.
1-4. 그런데 Dense는 죽지 않았습니다
2026년 4월에 발표된 Qwen3.6-27B는 Dense 모델인데도 같은 시리즈의 397B MoE를 agentic coding 벤치마크에서 능가했습니다. MoE가 만능이 아니라는 신호입니다. 추론 시점에 expert routing overhead가 없고, 모든 파라미터가 같은 출력에 기여하기 때문에 일관성이 더 잘 잡힌다는 해석이 있습니다.
운영 관점에서는 "하나의 frontier MoE + 도메인 특화 Dense 소형 모델" 조합이 가장 합리적입니다. 일반 응답·복잡 추론은 MoE로, 빠른 코드 보조·임베딩·간단 분류는 Dense로 라우팅하는 식입니다.
2. 어텐션 메커니즘의 분화: CSA, HCA, DSA, Lightning, iRoPE
1M 토큰 컨텍스트를 실용적 비용으로 처리하려면 표준 self-attention의 O(N²) 복잡도로는 불가능합니다. 2025~2026년에 새로운 어텐션 메커니즘이 쏟아져 나왔습니다.
Compressed Sparse Attention(CSA). compressor → lightning indexer → sliding-window 분기. (출처: DeepSeek-V4 Technical Report, Figure 3)
Heavily Compressed Attention(HCA). 128 토큰을 1 엔트리로 압축 후 dense MQA. (출처: DeepSeek-V4 Technical Report, Figure 4)
2-1. DeepSeek Sparse Attention (DSA)
DeepSeek-V3.2에서 도입된 sparse attention입니다. 핵심 컴포넌트는 Lightning Indexer입니다. 모든 토큰 쌍에 대해 어텐션을 계산하는 대신, 가벼운 인덱서로 “지금 토큰과 가장 관련 있는 top-k 토큰”을 골라낸 뒤 그 일부에만 softmax attention을 적용합니다. 멀리 떨어져 있어도 의미적으로 가까운 토큰은 잡고, 무관한 토큰은 건너뛰는 방식입니다.
흥미로운 건 GLM-5가 이 DSA를 자체 구현으로 차용했다는 점입니다. 어텐션 메커니즘 차원에서는 이미 “DeepSeek 방식”이 일종의 표준 후보가 됐다는 신호입니다.
2-2. CSA + HCA: DeepSeek-V4의 하이브리드 압축
DeepSeek-V4는 한 단계 더 나갑니다. 토큰을 어텐션 대상으로만 거르는 게 아니라, KV 표현 자체를 압축합니다.
CSA (Compressed Sparse Attention): 학습된 압축 가중치로 m개 KV 토큰을 1개 엔트리로 압축합니다. 그 압축된 엔트리에 다시 DSA(top-k sparse) + sliding window를 적용해 로컬 디테일까지 잡습니다.
HCA (Heavily Compressed Attention): 더 공격적입니다. CSA의 m보다 훨씬 큰 그룹 크기 m'를 사용하는데, DeepSeek-V4에서는 m' = 128로 잡혀 있습니다. 즉 128개 토큰을 1개 엔트리로 합쳐서 멀리 떨어진 컨텍스트를 거칠게 잡습니다.
로컬은 CSA로 정밀하게, 원거리는 HCA로 거칠게. 결과적으로 1M context 추론에서 FLOPs를 V3.2 대비 27%로, KV cache를 10%로 줄였습니다. V4 트랜스포머 블록은 CSA/HCA Hybrid Attention → DeepSeekMoE FFN → MTP head 출력으로 구성됩니다.
2-3. Lightning Attention: MiniMax의 선형 트릭
MiniMax는 다른 길을 갑니다. 표준 softmax attention 식은 Attention = softmax(QKT/√d) · V로, QKT 행렬이 N×N이라 O(N²)가 됩니다. Lightning Attention은 결합법칙을 활용해 (QKT)V → Q(KTV) 순서로 재배치합니다. KTV는 d×d 차원이라 N과 무관해지고, 복잡도가 O(N²d) → O(Nd²)로 떨어집니다. softmax를 그대로 쓸 수 없어 kernel approximation을 사용하는 게 트릭입니다.
단, 순수 linear attention은 retrieval 정확도가 떨어진다는 단점이 알려져 있습니다. MiniMax는 이를 보완하기 위해 8개 레이어 중 7개는 Lightning, 1개는 표준 Softmax를 교차 배치합니다. Lightning이 long-range 컨텍스트를, Softmax가 retrieval 정밀도를 담당하는 분업 구조입니다. MiniMax-M1은 1M 토큰으로 학습됐지만 4M 토큰까지 inference time extrapolation이 가능하다고 보고됐습니다.
재밌는 후속 이야기 한 가지. MiniMax-M2 자체는 결국 full attention 모델로 회귀했습니다. 회사 블로그가 "Why Did MiniMax M2 End Up as a Full Attention Model?"이라는 제목으로 공식 해설을 냈을 정도로, 하이브리드 어텐션이 모든 워크로드에서 정답은 아니라는 결론입니다.
2-4. iRoPE: Llama 4의 interleaved 패턴
Meta는 또 다른 접근을 합니다. RoPE 레이어와 NoPE 레이어를 인터리브로 배치하는 iRoPE(interleaved RoPE) 구조입니다.
RoPE 레이어: 첫 번째, 두 번째, 세 번째 레이어처럼 자주 등장. Rotary Position Embedding으로 로컬 토큰 순서를 유지합니다.
NoPE 레이어: 네 번째 레이어마다 하나씩 들어가는 “No Position Encoding” 레이어. 위치 정보 없이 causal mask 위에서 전역 어텐션을 수행합니다.
여기에 inference-time temperature scaling을 더해서 학습된 컨텍스트보다 훨씬 긴 입력으로 extrapolation합니다. 이 조합으로 Llama 4 Scout가 10M 토큰이라는 industry-leading context를 달성했습니다. Maverick은 1M로 더 짧지만 expert를 128개로 늘려 표현력을 키운 변종입니다.
2-5. 본질은 같습니다
이름은 다 다르지만 공통점이 명확합니다. (1) 모든 토큰을 어텐션 대상으로 삼지 않습니다(sparsity), (2) KV 표현을 압축합니다(compression), (3) long-range와 short-range를 다른 정밀도로 분리합니다(local/global split). 표준화는 아직 안 됐고 각 랩이 자기 방식을 검증 중입니다. 2027년 안에 1~2개로 수렴할 가능성이 높고, 그 시점이 vLLM·SGLang 같은 추론 엔진의 최적화 변곡점이 될 것입니다.
3. 1M+ 컨텍스트와 KV 캐시 양자화
컨텍스트 윈도우는 2025년에 256K~1M이 표준이 됐고, 2026년에는 Llama 4 Scout가 10M까지 확장했습니다. 다만 “1M context를 지원한다”와 “1M context를 실용적 비용으로 서빙할 수 있다”는 다른 이야기입니다.
1M context의 진짜 비용은 어텐션 FLOPs가 아니라 KV 캐시 메모리입니다. 캐시 크기는 다음 공식을 따릅니다.
KV cache = 시퀀스 길이 × 레이어 수 × 헤드 수 × 헤드 차원 × 2(K,V) × 정밀도(byte)간단한 수치 감각을 잡아보면 다음과 같습니다.
동일 모델에서 8K → 1M으로 컨텍스트만 늘리면 KV 캐시는 약 125배
FP16 → FP4로 정밀도만 낮추면 약 4배 절감
CSA처럼 m개 토큰을 1개로 묶으면 추가로 m배 절감
DeepSeek-V4 vs V3.2의 sequence length별 per-token FLOPs와 누적 KV cache. (출처: DeepSeek-V4 Technical Report, Figure 1)
그래서 “1M context 모델”을 진짜 1M context로 운영하려면 (1) 어텐션 자체가 sparse·compressed여야 하고, (2) KV 캐시까지 양자화돼야 합니다. NVFP4 같은 4비트 포맷이 모델 가중치뿐 아니라 KV cache 압축에도 쓰이는 이유가 여기에 있습니다.
실무 영향은 명확합니다. vLLM의 --enable-prefix-caching, chunked prefill, KV cache quantization 옵션의 중요도가 올라갔습니다. 모델을 받으면 가중치뿐 아니라 KV cache 양자화 지원 여부를 함께 확인해야 합니다. Plaid Labs 환경의 듀얼 Blackwell(192GB VRAM)에서도 DeepSeek-V4-Flash(284B/13B)를 NVFP4 4비트로 띄우면 가중치는 들어가지만, 1M context 전체를 한 번에 활용하려면 KV cache 양자화는 별도로 검증해야 합니다.
4. 호스팅 현실: 프론티어 모델도 결국 4비트로 굴린다
2026년 frontier 오픈모델의 카탈로그 스펙은 FP16/BF16 기준입니다. 그런데 실제로 운영 환경에 올릴 때는 거의 예외 없이 4비트로 양자화된 변환본이 쓰입니다. 모델 크기가 커진 만큼 가중치 적재만으로도 단일 노드 VRAM을 넘어가기 때문입니다.
4-1. 정밀도별로 모델이 얼마나 “무거워”지는가
대략적인 가중치 메모리 계산은 다음과 같습니다. 활성 파라미터가 아니라 총 파라미터 × 정밀도(byte)로 계산해야 합니다. MoE라도 가중치 자체는 전부 메모리에 올라가 있어야 routing이 동작하기 때문입니다.
모델 | 총 파라미터 | FP16 | FP8 | NVFP4 (4비트) |
|---|---|---|---|---|
DeepSeek-V4-Pro | 1.6T | ~3.2 TB | ~1.6 TB | ~400 GB |
GLM-5.1 | 754B | ~1.5 TB | ~754 GB | ~190 GB |
DeepSeek-V4-Flash | 284B | ~568 GB | ~284 GB | ~71 GB |
MiniMax-M2 | 230B | ~460 GB | ~230 GB | ~58 GB |
Qwen 3.5 | 397B | ~794 GB | ~397 GB | ~99 GB |
Llama 4 Maverick | 400B | ~800 GB | ~400 GB | ~100 GB |
실용적 의미는 명확합니다. 듀얼 NVIDIA RTX PRO 6000 Blackwell(192GB VRAM)에서는 GLM-5.1·DeepSeek-V4-Flash·MiniMax-M2·Qwen 3.5·Llama 4 Maverick까지 모두 4비트로 1노드에 들어갑니다. 반면 DeepSeek-V4-Pro(~400GB)는 한 노드를 넘어 멀티 GPU 노드 또는 8GPU H100/H200 클래스가 필요합니다.
4-2. NVFP4가 “기본값”이 된 이유
단순히 4비트라고 다 같지 않습니다. NVFP4는 4비트 가중치에 보정 스케일(블록 스케일링)을 함께 두는 포맷이라, 4비트의 메모리 이점은 유지하면서 정확도 손실을 크게 줄입니다. NVIDIA Blackwell 세대 GPU에서는 NVFP4 연산이 하드웨어 차원에서 최적화돼 있어, FP8 대비 처리량·지연시간이 한 단계 더 좋아집니다.
그래서 2026년 frontier 오픈모델은 발표 직후 거의 동시에 NVFP4 변환본(보통 RedHatAI 또는 Hugging Face 커뮤니티 변환본)이 올라옵니다. 가중치 양자화뿐 아니라 KV cache까지 4비트로 두면 1M context 운영이 비로소 현실적인 비용으로 떨어집니다. NVFP4 + vLLM의 실전 운영 노하우는 NVFP4 + vLLM 듀얼 Blackwell 서빙 가이드에 정리해뒀습니다.
4-3. 개인용 스케일: MLX의 4비트 양자화도 같은 패턴
흥미로운 점은 이 4비트 패턴이 기업용 서버뿐 아니라 개인용 Apple Silicon에서도 동일하다는 사실입니다. Mac mini M4 Pro 24GB에서 30B급 모델을 띄울 때도 4비트 양자화본(mlx-community)이 표준입니다. gemma-4-26b-a4b-it-4bit는 15GB, Qwen3.6-35B-A3B-4bit는 19GB로, FP16이었다면 절대 들어갈 수 없는 크기를 4비트라서 한 장비에 담을 수 있습니다.
즉 “프론티어 오픈모델 → 4비트 양자화 → 단일 노드/단일 장비 운영”이라는 흐름은 스케일만 다르지 본질은 같습니다. 듀얼 Blackwell에서 GLM-5.1을 돌리는 것과 Mac mini에서 Qwen3.6-35B를 돌리는 것이 같은 패턴이라는 뜻입니다. Apple Silicon + MLX 환경의 실측 기록은 MLX 로컬 LLM 추론 가이드에 정리해뒀습니다.
운영 측면의 한 줄 결론. 2026년 frontier 오픈모델은 발표 스펙(FP16)으로 운영되지 않습니다. 실제로 깔리는 건 NVFP4 같은 4비트 변환본이고, 어떤 모델을 띄울지보다 4비트 변환본의 품질 회귀 테스트와 KV cache 양자화 옵션을 함께 검증하는 능력이 더 중요해졌습니다.
5. 추론 모드(Reasoning)와 환각 억제 RL
2024년 OpenAI o1과 2025년 DeepSeek-R1로 시작된 “think 모델”의 흐름이 2026년에는 frontier 모델 안에 모드 형태로 통합됐습니다. 단일 가중치에서 inference time에 think/no-think를 토글하는 방식입니다.
5-1. 모델별 reasoning 통합
DeepSeek-V4-Pro-Max: V4-Pro의 “최대 reasoning effort” 모드. 같은 가중치지만 추론 단계를 길게 가져가는 옵션으로, agentic·코딩 벤치마크에서 최고 점수를 냅니다.
Qwen 3 hybrid reasoning: think/no-think를 클라이언트가 토글합니다. 일상 응답에는 no-think, 복잡한 수학·코드에는 think를 사용합니다.
MiniMax-M2: plan-execute-verify 형태의 에이전트 워크플로우에 특화. Terminal-Bench와 SWE-Bench-style 작업에서 강합니다.
5-2. GLM-5의 Slime: 비동기 RL과 환각 압축
GLM-5는 reasoning 모드보다는 환각 억제 쪽에 무게를 실었습니다. 핵심은 Slime이라는 비동기 RL 인프라입니다. 일반적인 RL은 데이터 생성(롤아웃)과 모델 학습(grad update)이 동기적으로 묶여 있어, 한 단계가 끝나야 다음이 시작됩니다. Slime은 두 과정을 분리해서 데이터 생성을 비동기로 독립 실행합니다. trajectory를 더 많이, 더 다양하게 모을 수 있어 RL 효율이 크게 올라갑니다.
결과는 인상적입니다. GLM-4.7의 90% 환각률을 GLM-5에서 34%로 압축했습니다. Claude Sonnet 4.5의 이전 기록을 깨고 Artificial Analysis Omniscience Index에서 35점 개선을 기록했습니다.
5-3. GLM-5.1: 같은 베이스에서 6주 만에 long-horizon SOTA
GLM-5의 흥미로운 후속도 함께 봐야 합니다. GLM-5.1(2026-04-07)은 새 베이스 모델이 아니라 GLM-5의 post-training 업그레이드입니다. 가중치 규모(754B/44B)와 라이선스(MIT) 모두 그대로지만, 벤치마크 점수가 6주 만에 크게 달라졌습니다.
SWE-Bench Pro 55.1 → 58.4 — GPT-5.4(57.7), Claude Opus 4.6(57.3), Gemini 3.1 Pro까지 모두 추월. 코딩 SOTA를 폐쇄 모델에서 오픈 모델로 가져왔습니다.
NL2Repo 35.9 → 42.7, Terminal-Bench 2.0 56.2 → 63.5, CyberGym 48.3 → 68.7. 코딩·에이전트 벤치마크 전반에서 큰 폭 상승.
핵심 변화는 long-horizon agentic 능력입니다. GLM-5는 일찍 plateau에 도달해 수백 라운드를 못 갔는데, GLM-5.1은 655 iterations 자율 최적화로 벡터 DB 처리량을 6.9배로 올리거나, 8시간 안에 Linux 데스크톱을 from-scratch로 구축하는 식의 장기 작업이 가능합니다.
기술적 의미가 큽니다. 같은 베이스 모델에 RL 인프라(Slime)와 더 많은 trajectory만 추가해서 SOTA를 갈아치웠다는 뜻이기 때문입니다. 베이스 모델 학습보다 post-training/RL 효율이 차별화 포인트라는 신호이고, 이는 다른 랩이 따라하기 쉽지 않은 “인프라 해자”에 해당합니다.
5-4. 단일 모델, 다중 모드
운영 관점에서 의미가 큽니다. 같은 가중치로 cost/latency vs quality 트레이드오프를 inference time에 조정할 수 있다는 뜻입니다. 두 종류의 워크로드를 한 모델로 모두 서빙할 수 있어 GPU 할당과 모델 풀 관리가 단순해집니다. 단 reasoning 모드는 출력 토큰이 길어지므로 latency·비용 추적은 별도로 관리해야 합니다.
6. 라이선스와 하드웨어 종속성의 변화
라이선스 측면에서도 변화가 큽니다.
라이선스 | 해당 모델 | 특징 |
|---|---|---|
MIT | DeepSeek-V4, GLM-5/5.1, MiniMax-M1/M2 | 가장 자유. 상업적 사용·fine-tuning에 제약 거의 없음 |
Apache 2.0 | Qwen 3.5/3.6, Seed-Coder | 상업적 사용 자유. 특허 보호 조항 포함 |
Llama Community License | Llama 4 시리즈 | MAU 7억 이상 서비스는 별도 협의. 일부 사용 제한 |
2024~2025년에 MIT/Apache 라이선스 frontier 모델이 늘면서 “open-weight”의 의미가 “open-source”에 점점 가까워지고 있습니다. 동시에 “open”의 정의는 가중치(weights), 학습 코드(training code), 학습 데이터(training data) 세 층으로 분화되고 있습니다. 가중치만 공개한 모델, 학습 코드까지 공개한 모델, 데이터 구축 방법까지 공개한 모델(예: ByteDance Seed-Coder)이 모두 다른 카테고리로 인식되기 시작했습니다.
하드웨어 종속성에서는 더 흥미로운 변화가 있습니다. GLM-5는 frontier 오픈모델로는 처음으로 Huawei Ascend 칩(MindSpore 스택)만으로 학습됐습니다. 28.5T 토큰을 NVIDIA GPU 없이 학습했다는 사실 자체가 미·중 칩 제재 환경에서 의미가 큽니다. Huawei의 대안 스택이 frontier급 학습까지 가능하다는 점이 증명됐기 때문입니다.
시장적 함의는 단순하지 않습니다. 중국 랩이 오픈 가중치로 글로벌 디벨로퍼 표준을 만들면 그 모델을 서빙하는 추론 인프라 시장도 따라옵니다. NVFP4 같은 NVIDIA 포맷이 표준이 되면 NVIDIA 종속성이 강화되지만, 동시에 다른 하드웨어 벤더(AMD MI300, Huawei Ascend)가 NVFP4를 차용하면 오히려 종속성은 약화됩니다. 향후 12~24개월의 핵심 관전 포인트입니다.
6-3. 오픈 진영의 균열: Qwen3.6-Max·Muse Spark의 폐쇄 전환
한 가지 결이 다른 흐름도 같은 시기에 일어나고 있습니다. 오픈으로 시장을 키운 두 회사가 거의 같은 시점에 플래그십을 폐쇄로 돌렸습니다.
Qwen3.6-Max-Preview (Alibaba, 2026-04-20): Qwen 시리즈 역사상 첫 closed-weight 플래그십입니다. 1T 규모 sparse MoE, 256K context. Alibaba Cloud Model Studio(dashscope, bailian) API로만 접근 가능하고, 가격은 입력 $1.04/M, 출력 $6.24/M입니다. SWE-Bench Pro, Terminal-Bench 2.0, SkillsBench, QwenClawBench, QwenWebBench, SciCode 등 6개 코딩·에이전트 벤치마크에서 1위를 기록했고, Artificial Analysis Intelligence Index 52점을 받았습니다. 동시에 Qwen Code 무료 티어가 종료됐습니다. 단 Qwen3.5-Plus·Qwen3-Coder-Plus·Qwen3-VL 등 기존 시리즈는 open-weight를 유지합니다.
Muse Spark (Meta, 2026-04-08): Meta Superintelligence Labs(MSL)의 첫 모델입니다. Alexandr Wang을 영입하며 Scale AI에 $14.3B를 투자해 만든 조직이고, 9개월간 from-scratch로 재구축됐습니다. Llama와는 별개 라인이며 폐쇄입니다. 가중치 공개 계획 없음. native multimodal(음성·텍스트·이미지 입력 → 텍스트 출력)이고, "Contemplating" 모드가 핵심인데 sub-agent들을 병렬로 돌리는 reasoning 구조로 Google Gemini Deep Think와 OpenAI GPT-5.4 Pro의 long reasoning에 직접 대응합니다. Meta AI(Facebook·Instagram·WhatsApp) 백엔드로 즉시 투입됐습니다. Meta는 2026년에 자본지출 $115B~$135B를 책정해 2025 대비 거의 두 배로 늘렸습니다.
두 사례의 공통점이 흥미롭습니다. 오픈으로 채택을 끌어모은 뒤, 진짜 차별화 가능한 플래그십은 폐쇄로 가져가는 패턴입니다. Meta는 Llama로 7억 사용자급 디벨로퍼 생태계를 만들었고, Alibaba는 Qwen 시리즈로 9.4억 다운로드를 기록했습니다. 그 자산을 유지하면서, 가장 강한 모델로는 API 수익을 잡는 "이층 구조"로 가는 모습입니다.
운영 관점에서 의미. 폐쇄 모델은 (1) 라이선스·약관·서비스 가용성·가격 변경 리스크가 추가되고, (2) 자체 호스팅 불가능하므로 데이터 주권·지연시간·비용 통제권을 부분 포기해야 합니다. 코딩·에이전트처럼 폐쇄 플래그십이 압도적인 영역에서는 폐쇄를 쓰되, 같은 워크로드의 fallback은 오픈 frontier(DeepSeek-V4-Pro, GLM-5.1)로 항상 준비해두는 게 합리적입니다.
7. 주요 모델 한눈에 비교
2026년 5월 기준으로 의미 있는 frontier 오픈모델을 한 표로 정리했습니다.
모델 | 총/활성 | 라이선스 | Context | 아키텍처 특이점 |
|---|---|---|---|---|
DeepSeek-V4-Pro | 1.6T / 49B | MIT | 1M | CSA+HCA 하이브리드, MTP, Pro-Max reasoning |
DeepSeek-V4-Flash | 284B / 13B | MIT | 1M | Pro의 경량형. 듀얼 Blackwell 운영 후보 |
GLM-5 | 744B / 44B | MIT | 200K | DSA, Slime 비동기 RL, Huawei Ascend 학습. 환각률 90%→34% |
GLM-5.1 | 744B / 44B | MIT | 200K | GLM-5 post-training. SWE-Bench Pro 58.4(SOTA), 655-iter long-horizon |
Qwen 3.5-35B-A3B | 35B / 3B | Apache 2.0 | 256K | 256 expert + 1 shared, top-8 routing |
Qwen 3.5 | 397B / 17B | Apache 2.0 | 256K | 201개 언어, 다국어 최강 |
Qwen 3.6-27B | 27B Dense | Apache 2.0 | 256K | Dense인데 397B MoE 능가(coding) |
MiniMax-M2 | 230B / 10B | MIT | 1M | Full attention 회귀, agent 워크플로우 |
Llama 4 Scout | 109B / 17B | Llama license | 10M | iRoPE, 16 expert, 가장 긴 context |
Llama 4 Maverick | 400B / 17B | Llama license | 1M | iRoPE, 128 expert, 네이티브 멀티모달 |
ByteDance Seed-Coder | 8B Dense | 오픈소스 | - | 코드 데이터 구축 방법까지 공개 |
Qwen3.6-Max-Preview | ~1T MoE | Closed (API only) | 256K | Qwen 첫 폐쇄 플래그십. SWE-Bench Pro 등 6개 1위 |
Meta Muse Spark | 비공개 | Closed (API only) | 비공개 | MSL 첫 모델. Contemplating 병렬 reasoning, native multimodal |
Plaid Labs처럼 듀얼 Blackwell(192GB) 정도 환경에서 “지금 무엇을 띄울 것인가”라고 묻는다면, DeepSeek-V4-Flash, Qwen 3.5, MiniMax-M2가 가장 현실적인 후보입니다. DeepSeek-V4-Pro와 GLM-5.1은 NVFP4 양자화로 한 노드에 들어가긴 하지만 헤드룸이 빠듯합니다.
8. 앞으로 12~24개월, 어디로 갈 것인가
현재 흐름에서 비교적 확실하게 예측할 수 있는 방향성을 정리합니다.
활성 파라미터 비율의 추가 압축: 현재 4% 안팎에서 2~3%대까지 내려갈 가능성이 있습니다. 다만 활성 비율이 더 줄면 expert routing의 분산이 커져 품질 회귀 위험이 있어, 새로운 routing 알고리즘이 함께 와야 합니다.
어텐션 메커니즘의 표준화: 현재 CSA/HCA/DSA/Lightning/iRoPE가 난립 상태입니다. 2027년 안에 1~2개로 수렴할 가능성이 높고, 그 시점에 vLLM·SGLang 같은 추론 엔진의 최적화 강도가 한 단계 더 올라갑니다. MiniMax-M2가 full attention으로 회귀한 사례가 있듯, 모든 워크로드에 맞는 단일 정답은 없다는 점도 함께 드러나고 있습니다.
멀티모달의 기본화: Llama 4가 신호탄(early fusion native multimodal)이었고, frontier 오픈모델은 곧 모두 native multimodal로 갑니다. 비디오·오디오 능력은 폐쇄 모델과의 격차가 여전히 큽니다.
추론 모드의 세분화: think/no-think 토글에서 “effort level” 슬라이더로 진화합니다. 클라이언트가 요청별로 cost/quality를 조정하는 패턴이 표준이 됩니다.
RL 인프라의 진화: GLM-5의 Slime처럼 비동기 RL 인프라 자체가 모델 차별화 요소가 됩니다. 환각 억제, 도구 사용, 코드 실행 같은 영역은 RL 인프라의 품질에 직접 좌우됩니다.
하드웨어 다양화: NVIDIA + Huawei Ascend + AMD MI300 시리즈의 3강 구도가 굳어집니다. 어느 포맷(NVFP4, MXFP4, FP6)이 다중 벤더 표준으로 자리잡느냐가 추론 인프라 시장의 향배를 결정합니다.
Dense 소형 모델의 재부상: Qwen 3.6-27B처럼 도메인 특화 Dense가 일반 frontier MoE를 특정 워크로드에서 능가하는 사례가 늘어납니다. “frontier 1개 + 도메인 특화 N개” 패턴이 강화됩니다.
"오픈 + 폐쇄 플래그십" 이층 구조의 확산: Meta Muse Spark와 Qwen3.6-Max-Preview가 보여준 패턴이 다른 랩으로 번질 가능성이 큽니다. 중·하위 라인은 오픈, 플래그십은 폐쇄로 분리해서 채택과 수익화를 동시에 노리는 전략입니다. 디벨로퍼는 이제 한 회사의 오픈 모델과 폐쇄 모델을 워크로드별로 골라 쓰게 됩니다.
“open”의 정의 분화: 가중치 공개 → 학습 코드 공개 → 학습 데이터/레시피 공개로 단계가 나뉘고, 각 단계에서 별도의 영향력 다툼이 시작됩니다. 데이터 거버넌스 이슈와 정면으로 얽힙니다.
9. 빠른 운영 체크리스트
오픈소스 LLM 동향을 운영에 반영할 때 한 번 훑어볼 수 있는 체크리스트입니다.
특정 모델에 록인되지 않도록 vLLM·SGLang 기반 추론 인프라 표준화: 모델은 월 단위로 바뀝니다. 인프라는 안 바뀌게 만드세요.
NVFP4 같은 저정밀 포맷 운영 경험 확보: MoE 시대에는 양자화가 선택이 아닙니다. NVFP4 + vLLM 가이드에 실전 노하우를 정리해뒀습니다.
KV cache 양자화·prefix caching 옵션 활성화 여부 점검: 1M context 모델을 진짜 1M context로 쓰려면 모델뿐 아니라 추론 엔진 옵션이 함께 맞춰져야 합니다.
워크로드별 회귀 평가셋(최소 50 케이스) 보유: 모델 교체가 잦아질수록 자체 평가셋이 의사결정의 기준이 됩니다. 양자화 변환본 간 품질 차이도 함께 봅니다.
think/no-think 토글을 클라이언트에서 다룰 수 있는 라우팅 구조: 같은 모델에서 두 모드를 골라 쓸 수 있게 미리 추상화해두면 마이그레이션이 쉬워집니다.
frontier MoE + 도메인 Dense의 이원화 풀: 단일 frontier 모델로 모든 워크로드를 처리하는 건 비효율적입니다. 임베딩·간단 분류는 Dense 소형이 더 빠르고 쌉니다.
라이선스 호환성 검토: MIT/Apache는 안전하지만 Llama license는 사용량 임계점이 있습니다. 제품에 묶기 전 법무 검토 한 번은 필요합니다.
개인용·소규모 팀이라면 Apple Silicon + MLX도 대안으로 보유: MLX 가이드에서 Mac mini로 4bit 30B급 모델을 실제로 띄운 기록을 정리했습니다.
10. 결론: 오픈소스 LLM은 더 이상 추격하는 입장이 아닙니다
2026년 1분기 한 분기 동안 frontier 오픈모델이 5개 이상 발표됐고, 코딩·에이전트·다국어 같은 영역에서는 이미 일부 오픈모델이 SOTA를 잡았습니다. 발행 속도, 라이선스 자유도, 하드웨어 다양성 모든 면에서 오픈소스 진영이 “추격자”에서 “표준 제시자”로 위치를 옮기는 중입니다. 동시에 Meta Muse Spark와 Qwen3.6-Max-Preview처럼 같은 회사의 플래그십은 폐쇄로 돌아가는 흐름도 나타났습니다. "전부 오픈"이 아니라 "오픈 베이스 + 폐쇄 플래그십" 이층 구조가 굳어지는 단계입니다.
아키텍처 차원에서 보면 결국 같은 그림으로 수렴하고 있습니다. Fine-grained MoE + Shared expert + Sparse·Compressed Attention + Reasoning mode + 4비트 양자화 친화 구조. 트랜스포머 블록의 형태가 2026년에 한 번 더 진화한 것이고, 이 패턴이 2027~2028년의 표준이 될 가능성이 높습니다. 운영 측면에서도 같은 수렴이 있습니다. 발표 스펙은 FP16이지만 실제 호스팅은 거의 모두 NVFP4 같은 4비트 변환본입니다. 듀얼 Blackwell의 GLM-5.1이든 Mac mini의 Qwen3.6 4bit든, 같은 4비트 패턴의 다른 스케일일 뿐입니다.
운영 관점에서는 결국 두 가지가 중요합니다. 첫째, 어떤 모델 한 개에 록인되지 않는 추론 스택을 갖추는 것. 둘째, 월 단위로 갱신되는 모델 풀에서 자기 워크로드에 맞는 모델을 빠르게 평가·교체할 수 있는 체계를 만드는 것입니다. 같은 시리즈로 NVFP4 + vLLM 듀얼 Blackwell 서빙 가이드와 MLX 로컬 LLM 추론 가이드를 정리해뒀습니다. 모델은 계속 바뀌어도, 그 위의 운영 스택은 우리가 통제할 수 있는 자산으로 만들어둘 수 있습니다.
참고 자료
DeepSeek-V4: A million-token context that agents can actually use (HF blog)
Why Did MiniMax M2 End Up as a Full Attention Model? (HF blog)
MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention (arXiv)
Introducing Muse Spark: Scaling Towards Personal Superintelligence (Meta AI Blog)
Qwen3.6-Max-Preview: Smarter, Sharper, Still Evolving (Qwen Blog)
Plaid Labs 기술 블로그 — Speculative Decoding이란 무엇인가? (LLM 추론 가속 가이드)
Plaid Labs 기술 블로그 — LLM을 작게 만드는 여러가지 압축 기술들 (BitNet · AutoRound · TurboQuant · REAP)