2026-04-28 article

Claude Code 대신 나만의 AI 에이전트를 만들 수 있을까: 로컬 LLM 머신 견적

TL;DR 하드웨어만 놓고 보면 지금은 로컬 머신보다 API가 가장 합리적입니다. 그래도 로컬을 산다면 제 기준에서는 MacBook Pro M5 Max 128GB가 가장 맞습니다.

#local-llm #claude-code #ai-agent #openrouter #series-local-vs-api

시작하기 전에

3년차 프론트엔드 개발자로 M1 Pro 맥북을 3년 넘게 쓰고 있습니다. Claude Code는 25년 7월부터 구독했고, 지금은 3.5개월치 대화 히스토리가 쌓여 있습니다.

히스토리를 들여다보다 보니 패턴이 보이기 시작했습니다. 에이전트가 어떤 툴을 반복해서 호출하는지, 어떤 루프의 형태로 작업을 풀어내는지. 이 패턴이 쌓이면서 자연스럽게 생긴 질문이 있습니다. 이걸 로컬로 직접 만들 수 있을까.

먼저 전제를 하나 짚겠습니다. 프론티어급 성능이 필요하다면 로컬 AI는 선택지가 아닙니다. 그 성능을 감당할 수 있는 하드웨어의 최소 사양이 개인 예산을 벗어나기 때문입니다.

예산이 하드웨어를 결정하고, 하드웨어가 돌릴 수 있는 모델을 결정합니다. 그 모델로 하려는 작업이 가능한지는 그 다음에 판단하는 겁니다. 이 순서가 싫다면 로컬 AI는 처음부터 선택지가 아닙니다.

이 글은 그 전제 위에서 직접 견적을 낸 기록입니다. 연산 능력·생태계·가격·유지보수 기준으로 하드웨어 3종을 비교했고, API(OpenRouter)도 나란히 놓았습니다. 에이전트 설계와 모델 품질 실측은 다음 편에서 진행 예정입니다.

바쁜 사람용 결론

총비용과 리스크까지 놓고 보면, 지금 가장 합리적인 선택지는 로컬 머신이 아니라 API라고 봅니다. 초기 구매 비용이 없고, GPU·RAM·SSD 가격 상승 리스크를 지지 않습니다. 전력·소음·발열·AS·중고 GPU 리스크도 없습니다. 개인 개발자처럼 사용량이 일정하지 않다면, 400만~800만원짜리 장비를 사는 것보다 API로 쓰는 만큼 내는 편이 더 합리적일 수 있습니다.

로컬 하드웨어를 산다면 선택지는 이렇게 갈립니다.

RTX 3090 단일/듀얼: CUDA 생태계와 MoE tg가 강점입니다. 다만 중고 GPU, 조립 PC, 전력, 소음, 유지보수를 함께 봐야 합니다.
AMD AI Max+ 395: 128GB 통합 메모리와 가격이 매력적입니다. 다만 M5 Max보다 메모리 대역폭이 낮고, ROCm 세팅과 공개 벤치마크 조건을 확인해야 합니다.
MacBook Pro M5 Max 128GB: 가장 비싸지만 제 사용 조건에서는 로컬 옵션 중 총합이 가장 좋습니다. 작업 머신 업그레이드, 128GB 통합 메모리, 낮은 유지보수 비용, 안정적인 AS를 한 번에 해결하기 때문입니다.
ASUS Ascent GX10: 128GB 완성품이라는 점은 좋지만, 대역폭과 소프트웨어 성숙도를 생각하면 가격 대비 애매합니다.

그래서 제 결론은 이렇습니다. 총비용과 리스크까지 보면 API가 가장 합리적입니다. 먼저 OpenRouter로 에이전트 설계와 워크플로우를 검증하고, 그래도 로컬이 필요하다고 판단되면 제 기준에서는 MacBook Pro M5 Max 128GB입니다.

추론 속도를 결정하는 세 가지 스펙

하드웨어를 고를 때 봐야 할 스펙은 세 가지입니다. 이 세 가지가 추론 속도와 직결됩니다.

VRAM (모델이 올라가는가)

모델 전체가 VRAM에 올라가야 추론이 가능합니다. VRAM이 모델 크기보다 작으면 돌릴 수 없습니다. 진입 조건입니다. KV 캐시도 VRAM을 씁니다. 컨텍스트가 길어질수록 KV 캐시가 커지므로 VRAM 여유가 중요합니다.

GPU VRAM과 시스템 RAM은 별개입니다. 일반 PC의 RAM이 64GB여도 GPU VRAM이 24GB라면 올릴 수 있는 모델은 24GB 기준입니다. 반면 Apple Silicon과 AMD AI Max+ 395는 통합 메모리 구조라 GPU와 시스템이 같은 메모리를 씁니다. 모델에 할당 가능한 메모리가 훨씬 큽니다.

메모리 대역폭 (tg를 결정)

토큰을 하나 생성할 때마다 모델 가중치 전체를 메모리에서 읽어야 합니다. 출력이 한 토큰씩 순차적으로 나오는 구조상 병렬화가 어렵고, 결국 메모리를 얼마나 빠르게 읽는가가 tg 속도를 결정합니다. 이론 tg ≈ 메모리 대역폭 ÷ 모델 크기(bytes)가 성립하는 이유입니다.

RTX 3090(936 GB/s)이 AMD AI Max+ 395(256 GB/s)보다 Dense 모델 tg가 2배 이상 빠른 것, MoE가 저대역폭 하드웨어에서도 선방하는 것(토큰당 접근 가중치가 적음) — 모두 이 원리에서 나옵니다.

연산 능력 FLOPS (pp를 결정)

입력 토큰을 처리할 때는 전체를 한꺼번에 병렬 연산합니다. 얼마나 많은 연산을 동시에 처리할 수 있는가, 즉 FLOPS가 pp 속도를 결정합니다. GPU는 수천 개의 연산 코어가 있어 pp가 tg보다 수 배 빠릅니다. pp는 컨텍스트가 길어질수록 부하가 커집니다.

LLM 추론 속도란?

LLM 추론 속도는 두 단계로 나뉩니다.

pp (prefill): 입력 토큰을 한꺼번에 처리하는 속도. 명세·파일·대화 히스토리를 읽는 단계. 연산량(FLOPS)에 비례합니다
tg (token generation): 출력 토큰을 하나씩 생성하는 속도. 실제 코드가 나오는 단계. 메모리 대역폭에 비례합니다

코딩 에이전트에서는 pp와 tg 모두 중요합니다. 에이전트는 루프를 돌 때마다 파일 내용·툴 출력·이전 대화를 컨텍스트로 읽습니다. 세션이 길어질수록 컨텍스트가 쌓이고 pp 부하도 커집니다. pp가 느리면 전체 루프 속도가 떨어집니다. tg는 코드 출력이 길어질수록 기다리는 시간에 직접 영향을 줍니다.

아래 수치 기준입니다:

이론 tg: 메모리 대역폭 ÷ 모델 크기(bytes) 로 계산한 이론 최대값
실측 효율: 실제 벤치마크 기준 GPU ~51–55%, Apple Silicon ~57–74%. AMD AI Max+ 395는 CPU+GPU 하이브리드 실행 구조라 단순 대역폭 공식이 적용되지 않습니다 (아래 AMD 섹션 참고)
예상 tg: 이론값 × 실측 효율
예상 pp: tg 대비 약 3–5배 빠른 속도 추정. MoE는 활성 파라미터가 적어 pp도 Dense 대비 빠릅니다

모든 수치는 추정값이며 실측이 아닙니다. 실측은 다음 편에서 진행 예정입니다.

비교 기준 모델

각 하드웨어에서 동일한 모델로 비교합니다. Dense 2종, MoE 2종을 기준으로 잡았습니다.

모델	벤더	타입	활성 파라미터	Q4_K_M VRAM	SWE-bench Verified
Qwen3.6-27B	Alibaba	Dense	27B	~16.8GB	77.2%
Gemma 4 27B	Google	Dense	27B	~16GB	78.5%
Qwen3.6-35B-A3B	Alibaba	MoE	3B (전체 35B 중)	~21GB	—
Gemma 4 26B-A4B	Google	MoE	3.8B (전체 26B 중)	~18GB	—

수치 출처: Qwen3.6-27B의 벤치마크와 모델 구조는 Qwen Hugging Face model card를 기준으로 했습니다. Claude Sonnet 4.6은 Anthropic 발표를 기준으로 했습니다. Gemma 4 27B는 공개 비교 자료의 수치라 참고값으로만 봅니다 (Will It Run AI, 확인: 2026.04.29).

왜 이 4개인가

Dense 2종은 Claude Sonnet 4.6(79.6%)과 2.4%p 내에 있는 코딩 벤치마크 상위 오픈소스 모델입니다. Q4_K_M 기준 ~16–17GB라 RTX 3090 24GB에 여유 있게 올라갑니다. 두 모델을 같은 하드웨어에서 비교하면 속도 차이는 거의 없고, 품질 차이가 실측 대상입니다.

MoE 2종은 Dense와 하드웨어 적합도가 어떻게 갈리는지 보기 위한 대조군입니다. 활성 파라미터가 3–3.8B로 적어 같은 VRAM에서 tg가 Dense 대비 3배 이상 빠릅니다. 저대역폭 하드웨어에서 특히 두드러집니다. 두 MoE는 활성 파라미터 수 차이(3B vs 3.8B)로 속도에 소폭 차이가 납니다.

Dense는 매 토큰마다 전체 파라미터에 접근합니다. 대역폭이 높을수록 유리합니다.

MoE는 활성 expert만 연산합니다. 전체 모델을 VRAM에 올려야 하지만 토큰당 메모리 접근량이 훨씬 적습니다. 저대역폭 하드웨어에서 상대적 우위가 커집니다.

가격을 보기 전에: 지금 부품값이 얼마나 올랐나

GPU·RAM·SSD 신품은 우선순위에서 밀렸습니다. 2025년 이후 가격이 크게 올라 개인이 신품으로 맞추는 게 현실적이지 않습니다.

DDR5 RAM: 해외 DDR5 32GB kit 기준으로 2025년 중반 $80–120에서 2026년 3월 $300–500까지 오른 사례가 있습니다. 국내 견적에서는 DDR5 64GB 중고가가 73–120만원으로 확인됐습니다 (CraftRigs, 2026.03.12, 직접 확인: 2026.04.28)
SSD (NAND): Kingston 관계자가 NAND wafer 가격이 2025년 1분기 대비 246% 올랐다고 언급했습니다. Gartner는 2026년 말까지 DRAM·SSD 합산 가격이 2025년 대비 130% 오를 것으로 추정했습니다 (Tom’s Hardware, 2026.01, Gartner, 2026.02.26, 확인: 2026.04.29)
GPU: 메모리 원가 상승이 신품가에 반영되고 있습니다. RTX 5090 국내 신품가는 624–689만원으로 확인했습니다 (국내 쇼핑몰 직접 확인: 2026.04.28)

이 때문에 GPU·RAM·SSD는 당근마켓 중고가를 기준으로 했고, CPU·메인보드·파워·케이스·쿨러는 조립 PC 경험이 없어서 컴퓨존 신품 조립가로 견적을 뽑았습니다 (2026.04.28 기준, OS 미포함).

반면 MacBook은 정가를 유지하고 있습니다. 중고가 방어도 준수한 편입니다. 부품 시가가 견적에 직접 영향을 주는 커스텀 PC와 다른 점입니다.

커스텀 PC: RTX 3090 · 5090

가격

플랫폼	구성	견적
보급형 (단일 GPU용)	i5-14600KF · Z790 메인보드 · SSD 1TB · 850W 파워 · 공랭쿨러 · 케이스 · 조립	154만원
고사양 (듀얼 GPU용)	Core Ultra 5 245K · Z890 메인보드 · 1350W 파워 · 360mm 수랭쿨러 · 케이스 · 조립	215만원

RAM·SSD 당근마켓 중고가 (별도):

부품	스펙	중고가
DDR5 RAM	64GB (32GB×2)	73–120만원
SSD	2TB	31–52만원

구성	VRAM	플랫폼	GPU	RAM 64GB	SSD 2TB	합계
3090 단일 (보급형)	24GB	154만원	120–135만원	73–120만원	(1TB 포함)	347–409만원
3090 단일 (고사양)	24GB	215만원	120–135만원	73–120만원	31–52만원	439–522만원
3090 듀얼 (고사양)	48GB	215만원	240–270만원	73–120만원	31–52만원	559–657만원
4090 단일 (고사양)	24GB	215만원	375만원	73–120만원	31–52만원	694–762만원
5090 완성 PC 중고	32GB	—	(포함)	64GB 포함	2TB 포함	750만원
5090 단일 DIY 중고 GPU	32GB	215만원	550–610만원	73–120만원	31–52만원	869–997만원

연산 능력

항목	RTX 3090	RTX 4090	RTX 5090
VRAM	24GB GDDR6X	24GB GDDR6X	32GB GDDR7
메모리 대역폭	936 GB/s	1,008 GB/s	1,792 GB/s
TDP	350W	450W	575W
NVLink	지원 (3090만)	미지원	미지원

모델과 속도

RTX 3090 단일(24GB) 기준, 실측 효율 51% 적용. 이론 tg = 936 GB/s ÷ 모델 크기.

Dense

모델	양자화	VRAM	이론 tg	예상 tg	예상 pp (추정)
Qwen3.6-27B	Q4_K_M	16.8GB	56 t/s	~28 t/s	~85–140 t/s
Gemma 4 27B	Q4_K_M	~16GB	59 t/s	~30 t/s	~90–145 t/s

MoE

모델	양자화	VRAM	예상 tg*	예상 pp (추정)
Qwen3.6-35B-A3B	UD-Q4_K_M	~21GB	~80–100 t/s	~200–300 t/s
Gemma 4 26B-A4B	Q4_K_M	~18GB	~70–90 t/s	~180–270 t/s

* MoE는 토큰당 활성 파라미터(3–3.8B)만 접근하므로 단순 대역폭 공식이 맞지 않습니다. 예상 tg는 활성 파라미터 기반 추정입니다. Gemma 4 26B-A4B는 활성 파라미터가 3.8B로 Qwen(3B)보다 많아 소폭 느립니다.

Dense 두 모델은 VRAM이 비슷해 tg 차이가 거의 없습니다. Dense 대비 MoE의 tg가 3배 이상 빠릅니다.

실측 참고 (llama.cpp · LLaMA 3 · RunPod 2024.05 · GPU-Benchmarks-on-LLM-Inference)

GPU	모델	실측 tg	이론 tg	실측 효율
RTX 3090 단일	LLaMA 3 8B Q4_K_M	111.7 t/s	217 t/s	51%
RTX 4090 단일	LLaMA 3 8B Q4_K_M	127.7 t/s	234 t/s	55%
RTX 3090 듀얼	LLaMA 3 70B Q4_K_M	16.3 t/s	—	—

스펙 출처: RTX 3090·4090·5090의 VRAM, 메모리 대역폭, TDP는 TechPowerUp GPU Database를 기준으로 했습니다 (3090, 4090, 5090, 확인: 2026.04.29). 실측 tg는 GPU-Benchmarks-on-LLM-Inference를 참고했습니다.

RTX 4090은 대역폭이 3090 대비 7.7% 높아 tg가 10–20% 빠릅니다. VRAM은 24GB로 동일합니다.

RTX 5090(32GB)은 Qwen3.6-27B FP8(~28GB, vLLM)과 Blackwell FP8 가속을 쓸 수 있는 유일한 개인용 GPU입니다. Dense 예상 tg ~33–40 t/s, MoE는 대역폭 1,792 GB/s로 이보다 훨씬 빠릅니다.

3090 듀얼: NVLink와 추론의 현실

RTX 3090은 NVLink 3.0을 지원하는 몇 안 되는 소비자용 GPU입니다 (4090·5090은 미지원). GPU 간 112.5 GB/s 양방향 대역폭을 제공해 PCIe 4.0 x16(~31.5 GB/s)보다 약 4배 빠릅니다. NVLink를 쓰면 VRAM이 48GB로 풀링되고, 텐서 패럴렐 추론 효율이 PCIe 방식 대비 40–60% 향상됩니다.

다만 NVLink 브릿지(3090 전용)는 국내에서 구하기 어렵습니다. 해외 직구 기준 ~$79 + 배송이고 국내 중고 매물이 거의 없습니다. 그리고 추론(training이 아닌 inference)에서 NVLink의 핵심 이점은 VRAM 용량 확보와 텐서 패럴렐 효율 개선이지, decode 속도 자체의 2배 향상이 아닙니다. decode 속도는 각 GPU의 개별 대역폭(936 GB/s)이 병목입니다.

시스템 총액도 봐야 합니다. 3090 듀얼 고사양 구성이 559–657만원인데, 이 순간 Bosgame M5(479만원, 128GB 통합)가 비교 대상으로 들어옵니다. VRAM은 48GB vs 128GB입니다.

4090 단일을 제외한 이유

VRAM이 24GB로 3090과 동일합니다. tg가 10–20% 빠르지만 GPU 중고가가 375만원으로 시스템 총액 694–762만원입니다. 이 차이를 정당화하기 어렵습니다.

생태계

CUDA 생태계가 가장 성숙합니다. llama.cpp, vLLM, Ollama 모두 NVIDIA GPU를 1순위로 지원합니다. 새 모델이 나오면 GGUF·AWQ 형태로 빠르게 배포됩니다.

유지보수

데스크탑 PC 조립과 관리 경험이 필요합니다. 소음과 발열이 있습니다. 3090 단일 350W, 듀얼이면 700W+를 지속 소비합니다. PC 경험이 없다면 초기 세팅 비용이 추가됩니다.

AMD AI Max+ 395 미니PC

가격

Bosgame M5 (Ryzen AI Max+ 395, 128GB 통합, 2TB) 기준입니다.

11번가: 479만원
쿠팡: 499만원
bosgamepc.com 직구: $2,599 (약 375만원, 2026.04 기준)

연산 능력

항목	AMD AI Max+ 395
메모리	128GB 통합 (LPDDR5X)
메모리 대역폭	256 GB/s
TDP	120W (참고)

스펙 출처: AMD 공식 제품 페이지와 TechPowerUp CPU Database를 기준으로 했습니다 (AMD, TechPowerUp, 확인: 2026.04.29).

대역폭 256 GB/s는 이 글의 128GB 플랫폼 중 가장 낮습니다. M5 Max(614 GB/s)의 40% 수준입니다. 메모리가 128GB여도 빠른 게 아닙니다.

모델과 속도

AMD AI Max+ 395는 해석이 가장 까다로운 플랫폼입니다. Radeon 8060S GPU(256 GB/s)와 Zen 5 CPU가 동시에 메모리에 접근하는 하이브리드 실행 구조라 일부 벤치마크에서는 대역폭 ÷ 모델 크기 공식보다 높은 값이 나옵니다. 다만 양자화 레벨·백엔드·모델 구조가 다르면 직접 비교가 어렵습니다. 같은 Dense Q4 조건으로 보수적으로 보면, tg는 메모리 대역폭이 높은 M5 Max가 유리하다고 보는 게 자연스럽습니다.

공개 벤치마크에는 AMD AI Max+ 395에서 높은 decode/prefill이 나온 사례가 있습니다. 하지만 정확한 양자화 레벨과 실행 조건이 명확하지 않아 이 글의 정량 비교 근거로 쓰지 않았습니다. 아래 수치는 동일 Q4 조건을 가정한 보수적 추정이며, pp는 직접 실측 전까지 숫자로 단정하지 않습니다.

Dense — 동일 Q4 조건의 보수적 추정

모델	양자화	VRAM	예상 tg	예상 pp (추정)
Qwen3.6-27B	Q4_K_M	16.8GB	~15–22 t/s	실측 필요
Gemma 4 27B	Q4_K_M	~16GB	~16–23 t/s	실측 필요

MoE — 활성 파라미터가 적어 Dense보다 빠를 것으로 추정

모델	양자화	VRAM	예상 tg*	예상 pp (추정)
Qwen3.6-35B-A3B	Q4_K_M	~21GB	~30–45 t/s	실측 필요
Gemma 4 26B-A4B	Q4_K_M	~18GB	~25–40 t/s	실측 필요

* MoE 이론 tg 단순 계산 불가. 동일 모델 실측 데이터 없음, 대역폭과 Dense 기준 보수적 추정입니다.

외부 벤치만 보면 AMD AI Max+ 395의 tg와 pp가 예상보다 훨씬 높게 나오는 사례가 있습니다. 하지만 이 글의 비교 모델과 양자화 조건이 같지 않아 그대로 가져오지는 않았습니다. 특히 pp는 ROCm 드라이버, 커널 파라미터, CPU/GPU 분산 방식에 따라 크게 달라질 수 있어 직접 실측이 필요합니다.

생태계

Linux에서는 ROCm 7 + llama.cpp 조합이 안정적입니다. Windows는 Vulkan backend로 떨어지고 엣지 케이스가 많습니다. CUDA 대비 커뮤니티 자료와 새 모델 지원 속도가 제한적입니다.

유지보수

완성품이라 조립 필요 없습니다. Bosgame·GMKtec 같은 소규모 브랜드라 AS가 불안합니다. 직구 구매면 고장 시 처리가 복잡합니다.

MacBook Pro M5 Max

가격

제품	가격
MacBook Pro M5 Max 128GB, 2TB (16인치)	806만원 (애플스토어 교육할인)

연산 능력

항목	M5 Max
메모리	128GB 통합 (LPDDR5X)
메모리 대역폭	614 GB/s (40-core GPU)
칩 전력	공식 미공개
추론 스택	MLX / llama.cpp (Metal)

스펙 출처: Apple 공식 MacBook Pro 기술 사양과 Apple Newsroom을 기준으로 했습니다 (Apple Support, Apple Newsroom, 확인: 2026.04.29). 가격은 Apple Store 교육할인 기준으로 직접 확인했습니다 (2026.04.28).

통합 메모리 구조라 GPU VRAM과 시스템 RAM의 구분이 없습니다. 128GB 전체를 모델 로딩과 KV 캐시에 쓸 수 있습니다.

모델과 속도

M3 Max 실측 기준(50.7 t/s 실측 / ~87 t/s 이론 = 58% 효율, 70B 기준 74%) 적용. Apple Silicon + MLX는 하드웨어 특성상 단순 대역폭 공식 외 최적화가 있어 아래 수치는 참고값입니다.

Dense

모델	양자화	VRAM	이론 tg	예상 tg	예상 pp (추정)
Qwen3.6-27B	Q4_K_M	16.8GB	37 t/s	~25–27 t/s	~100–150 t/s
Gemma 4 27B	Q4_K_M	~16GB	38 t/s	~28 t/s	~105–155 t/s

MoE

모델	양자화	VRAM	예상 tg*	예상 pp (추정)
Qwen3.6-35B-A3B	4bit (MLX)	~18GB	~40–55 t/s	~150–220 t/s
Gemma 4 26B-A4B	4bit (MLX)	~17GB	~35–50 t/s	~135–200 t/s

* MoE 이론 tg 단순 계산 불가. MLX 4bit 기준 추정입니다. Gemma 4 26B-A4B는 활성 파라미터 3.8B로 Qwen(3B)보다 많아 소폭 느립니다.

실측 참고 (GPU-Benchmarks-on-LLM-Inference)

기기	모델	실측 tg	비고
M3 Max 40-Core 64GB	LLaMA 3 8B Q4_K_M	50.7 t/s	실측
M3 Max 40-Core 64GB	LLaMA 3 70B Q4_K_M	7.5 t/s	실측
M5 Max 128GB	—	미발표	대역폭 비례 추정만 가능

생태계

MLX와 Metal 스택은 성숙했습니다. llama.cpp Metal 백엔드도 안정적입니다. vLLM은 macOS에서 동작하지 않고, CUDA 기반 파인튜닝 도구도 사용 불가입니다. Hugging Face 생태계 지원은 CUDA 대비 후순위입니다.

유지보수

완성품이고 애플 AS망이 전국에 있습니다. 소음이 적고, 개발 머신과 AI 서버를 겸할 수 있습니다.

ASUS Ascent GX10: 제외

신품 574만원, 중고 530만원. GB10 Superchip 기반, 128GB, GB10 TDP 140W, 대역폭 273 GB/s입니다. TensorRT-LLM 없이 Ollama만 쓰면 AMD AI Max+ 395와 비슷한 속도에 더 비쌉니다. llama.cpp GB10 지원이 아직 성숙하지 않아 선택지에서 뺐습니다.

스펙 출처: ASUS 공식 기술 사양과 NVIDIA DGX Spark 사양을 기준으로 했습니다 (ASUS, NVIDIA DGX Spark, 확인: 2026.04.29). 가격은 국내 신품·중고 매물을 직접 확인했습니다 (2026.04.28).

나란히 놓고 보면

동일 모델 기준으로 하드웨어를 비교합니다. 모든 속도는 추정값입니다.

Dense — Qwen3.6-27B · Gemma 4 27B (Q4_K_M, ~16–17GB)

두 Dense 모델은 VRAM이 비슷해 하드웨어별 속도 차이가 거의 없습니다. 차이는 품질에서 나오며 다음 편에서 실측합니다.

하드웨어	가격	VRAM	예상 tg (Qwen)	예상 tg (Gemma)	예상 pp
RTX 3090 단일	347–409만원	24GB	~28 t/s	~30 t/s	~85–145 t/s
AMD AI Max+ 395	479–500만원	128GB	~15–22 t/s †	~16–23 t/s †	실측 필요 †
MacBook Pro M5 Max	806만원	128GB	~25–27 t/s	~28 t/s	~100–155 t/s
OpenRouter	무료~과금	—	50–150 t/s	50–150 t/s	—

MoE — Qwen3.6-35B-A3B (3B 활성) · Gemma 4 26B-A4B (3.8B 활성)

하드웨어	가격	VRAM	예상 tg (Qwen)	예상 tg (Gemma)	예상 pp
RTX 3090 단일	347–409만원	24GB	~80–100 t/s	~70–90 t/s	~180–300 t/s
AMD AI Max+ 395	479–500만원	128GB	~30–45 t/s †	~25–40 t/s †	실측 필요 †
MacBook Pro M5 Max	806만원	128GB	~40–55 t/s	~35–50 t/s	~135–220 t/s

† AMD AI Max+ 395의 tg는 동일 Q4 조건을 가정한 보수적 추정입니다. 외부 ROCm + llama.cpp 벤치에서는 더 높은 값이 나오지만, 양자화 레벨과 모델 조건이 달라 직접 비교에는 쓰지 않았습니다. pp는 직접 실측 전까지 숫자로 비교하지 않습니다.

읽히는 패턴입니다:

Dense 두 모델: 하드웨어 관점에서 거의 동일하게 동작합니다. 벤더 선택은 품질 실측 이후에 의미가 생깁니다
Dense vs MoE: 같은 하드웨어에서 MoE가 더 빠릅니다. 3090에서 특히 두드러집니다
MoE 두 모델: Gemma 4 26B-A4B가 활성 파라미터(3.8B)가 많아 Qwen(3B)보다 소폭 느립니다
AMD AI Max+ 395: pp 잠재력은 큽니다. 다만 공개 벤치의 양자화 조건이 명확하지 않아 이 글에서는 pp 숫자를 비교하지 않았습니다. tg는 256 GB/s 대역폭 한계가 있어 동일 Q4 조건에서는 M5 Max보다 느리게 보는 게 보수적입니다
M5 Max: Dense와 MoE 모두 균형 잡힌 성능. AMD보다 메모리 대역폭이 높아 tg에서 유리하고, 설정 없이 바로 이 수준이 나옵니다
RTX 3090: MoE tg에서 강점. Dense tg도 AMD보다 빠르고, 로컬 옵션 중 시스템 총액이 347–409만원으로 가장 낮은 진입점입니다

결론

선택지는 두 가지로 좁혀집니다.

OpenRouter(하드웨어 없음): 초기 비용 없이 바로 시작할 수 있습니다. Qwen3.6-27B 등을 무료 티어에서 즉시 쓸 수 있고, 에이전트 설계와 워크플로우를 먼저 검증하는 데 적합합니다.

MacBook Pro M5 Max 128GB: 로컬을 선택한다면 이 옵션입니다. 통합 메모리라 128GB 전체를 모델과 KV 캐시에 쓸 수 있습니다. Dense와 MoE 모두 균형 잡힌 속도가 나오고, AMD보다 메모리 대역폭이 높아 tg에서 유리합니다. AMD AI Max+ 395는 pp 잠재력과 가격이 매력적이지만, 공개 벤치의 양자화 조건이 명확하지 않고 ROCm 세팅 의존도도 감안해야 합니다. 커스텀 PC는 총 비용과 조립·유지보수 부담이 따릅니다. GPU·RAM·SSD 시가 변동에서 자유롭고 AS도 안정적입니다.

저의 경우엔 OpenRouter로 에이전트를 먼저 설계하고, 검증이 되면 M5 Max로 옮기는 순서를 생각하고 있습니다.

개인적으로는

일반적으로 충분히 유효한 결론이지만, 저의 경우엔 이런 점들이 추가로 작용했습니다.

M1 Pro를 3년 넘게 썼고 교체 사이클이 다가오고 있습니다. M5 Max 128GB는 “로컬 AI 서버를 따로 산다”가 아니라 “어차피 교체할 맥북을 128GB로 간다”는 결정입니다. 교육할인을 받을 수 있는 것도 변수입니다. 프리랜서로서 본업 퍼포먼스 향상이 장비 업그레이드와 함께 바로 체감된다는 것도 큽니다.