Plaid Labs Tech Blog

가상에 머무는 AI를 넘어, 현실 세계의 문제를 스스로 해결하는 에이전트를 만듭니다.

See All Frontend Backend & Infra AI Research AI Automation UXUI Design

Prometheus, Loki, LiteLLM, Langfuse로 만든 AI 기반 장애 분석 시스템

Prometheus, Loki, LiteLLM, Langfuse로 만든 AI 기반 장애 분석 시스템

AI AutomationBackend & Infra

LLM을 작게 만드는 여러가지 압축 기술들

LLM을 작게 만드는 여러가지 압축 기술들

BitNet, AutoRound, TurboQuant, REAP 네 가지 LLM 압축 기법의 메커니즘과 NVFP4와의 직교 결합 운영 가이드. 양자화 너머 가중치·KV·expert pruning까지 다루는 시리즈 5편.

LLM의 추론속도를 빠르게 만드는 비결, Speculative Decoding이란 무엇인가?

LLM의 추론속도를 빠르게 만드는 비결, Speculative Decoding이란 무엇인가?

Speculative Decoding 원리부터 n-gram·Medusa·EAGLE-3·MTP·DFlash까지 2026 LLM 추론 가속 기법을 한 번에 정리. NVFP4 양자화와의 이중 가속, vLLM·SGLang 실전 활성화까지 다룹니다.

오픈소스 LLM 동향 2026:
DeepSeek-V4·Qwen3.6·GLM-5.1

오픈소스 LLM 동향 2026: DeepSeek-V4·Qwen3.6·GLM-5.1

TEST MARKER 2026-05-11 — inblog API PATCH 진단용

개인용 로컬 LLM 추론의 새 기준, MLX

개인용 로컬 LLM 추론의 새 기준, MLX

Mac mini M4 Pro 24GB에서 MLX로 30B급 LLM을 실제로 돌려본 벤치마크와 운영 노하우. 개인용/소규모 팀의 로컬 LLM 추론 기준선을 정리합니다.

Prometheus, Loki, LiteLLM, Langfuse로 만든 AI 기반 장애 분석 시스템

Prometheus, Loki, LiteLLM, Langfuse로 만든 AI 기반 장애 분석 시스템

AI AutomationBackend & Infra

LLM을 작게 만드는 여러가지 압축 기술들

LLM을 작게 만드는 여러가지 압축 기술들

BitNet, AutoRound, TurboQuant, REAP 네 가지 LLM 압축 기법의 메커니즘과 NVFP4와의 직교 결합 운영 가이드. 양자화 너머 가중치·KV·expert pruning까지 다루는 시리즈 5편.

LLM의 추론속도를 빠르게 만드는 비결, Speculative Decoding이란 무엇인가?

LLM의 추론속도를 빠르게 만드는 비결, Speculative Decoding이란 무엇인가?

Speculative Decoding 원리부터 n-gram·Medusa·EAGLE-3·MTP·DFlash까지 2026 LLM 추론 가속 기법을 한 번에 정리. NVFP4 양자화와의 이중 가속, vLLM·SGLang 실전 활성화까지 다룹니다.

오픈소스 LLM 동향 2026:
DeepSeek-V4·Qwen3.6·GLM-5.1

오픈소스 LLM 동향 2026: DeepSeek-V4·Qwen3.6·GLM-5.1

TEST MARKER 2026-05-11 — inblog API PATCH 진단용

개인용 로컬 LLM 추론의 새 기준, MLX

개인용 로컬 LLM 추론의 새 기준, MLX

Mac mini M4 Pro 24GB에서 MLX로 30B급 LLM을 실제로 돌려본 벤치마크와 운영 노하우. 개인용/소규모 팀의 로컬 LLM 추론 기준선을 정리합니다.

부하테스트를 통한 실시간 스트리밍 및 대시보드 서비스 NUVION 개선기

부하테스트를 통한 실시간 스트리밍 및 대시보드 서비스 NUVION 개선기

실시간 스트리밍, 장치 이벤트, 대시보드 조회가 함께 들어오는 NUVION 백엔드에서 부하테스트로 병목을 특정하고, 코드와 실행 조건을 함께 정리해 개선한 과정.

Backend & Infra

실시간 영상은 왜 쿠버네티스에서 어려웠을까: WebRTC 스트리밍 아키텍처 개선기

실시간 영상은 왜 쿠버네티스에서 어려웠을까: WebRTC 스트리밍 아키텍처 개선기

Kurento를 쿠버네티스에 직접 올리며 겪은 NAT·포트 문제, VM 우회를 거쳐 STUNner로 쿠버네티스 네이티브 WebRTC 아키텍처로 정착한 NUVION 운영 기록.

Backend & Infra

Plaid Labs AI 에이전트 Part. 2:
필요한 Context만 사용하는 방법

Plaid Labs AI 에이전트 Part. 2: 필요한 Context만 사용하는 방법

플래드랩스가 필요한 context를 뽑을 수 있었던 방법

NVIDIA Blackwell 전용 추론 엔진 NVFP4를 활용한 vLLM 로컬 모델 서빙

NVIDIA Blackwell 전용 추론 엔진 NVFP4를 활용한 vLLM 로컬 모델 서빙

NVFP4를 쉬운 비유와 실전 예시로 설명하고, Blackwell 듀얼 GPU에서 vLLM 로컬 서빙을 안정적으로 운영하는 방법을 정리한 가이드입니다.

사내 디자인 시스템 구축기 (Part.2)

사내 디자인 시스템 구축기 (Part.2)

자주 변하는 컬러와 타이포를 Figma Tokens Studio로 토큰화해 관리하고 코드와 동기화한 Plaid Labs 사내 디자인 시스템 운영기 2편. 운영 규칙과 도입 효과 정리.

OIDC+RBAC 기반 외부 개발자 ArgoCD 권한 공유하기

OIDC+RBAC 기반 외부 개발자 ArgoCD 권한 공유하기

수 많은 개발 협력 도구들... 계정 관리, 권한 관리 많이 어려우셨죠? OIDC와 RBAC를 통해 일관되게 관리해보세요!

Backend & Infra

개발자에게 이쁨 받는 디자이너 되기 - 디자인 시스템 편

개발자에게 이쁨 받는 디자이너 되기 - 디자인 시스템 편

디자이너 작업물이 실제 제품으로 구현될 때 생기는 커뮤니케이션 비용을 줄이는 디자인 시스템 기반 협업 방식. 개발자와 일관성 있게 협업하는 법을 정리.

Plaid Labs AI 에이전트 Part. 1: 어제의 회고와 오늘의 이슈로 받는 브리핑

Plaid Labs AI 에이전트 Part. 1: 어제의 회고와 오늘의 이슈로 받는 브리핑

매일 아침 자동으로 해주는 브리핑 에이전트

AI AutomationBackend & Infra

사내 디자인 시스템 구축기 (Part.1)

사내 디자인 시스템 구축기 (Part.1)

B2B·B2C 프로젝트를 동시에 진행하며 반복되는 컴포넌트 문제를 푸는 Plaid Labs 사내 디자인 시스템 구축기 1편. 타이포·아이콘·컬러 시스템 설계 과정.

초기 로딩 속도 3초에서 0.8초로: Plaid 홈페이지 성능 최적화

초기 로딩 속도 3초에서 0.8초로: Plaid 홈페이지 성능 최적화

제가 홈페이지를 개발하며 마주쳤던 성능 저하의 원인들을 분석하고, 이미지 최적화, 번들 사이즈 축소, 그리고 렌더링 전략을 통해 어떻게 로딩 속도를 0.8초 대까지 단축시켰는지 그 구체적인 과정을 공유하려 합니다.

mTLS와 실제 서비스 적용 사례

mTLS와 실제 서비스 적용 사례

mTLS를 이용한 미디어 서버 통신을 보호하세요!

Backend & Infra

Kubernetes 기반 하이브리드(GCP+On-Premise) 클라우드 구축기

Kubernetes 기반 하이브리드(GCP+On-Premise) 클라우드 구축기

쿠버네티스와 Tailscale을 활용한 하이브리드 클라우드를 이용해 비용과 성능 사이의 균형을 찾아보세요.

Backend & Infra

TanStack Query의 모든 것

TanStack Query의 모든 것

여러 프로젝트를 진행하면서 다양한 기술과 도구들을 사용해왔는데, 그중에서도 특히 서버 상태 관리에 큰 도움을 주는 TanStack Query에 대해 정리해보려 합니다.

플래드

RSS·Powered by Inblog