학습용 칩 vs 추론용 칩,
무엇이 다를까?
Mac mini M4에서 추론은 빠른데 학습은 왜 그렇게 느릴까? NVIDIA H100/B200, Google TPU v6e Trillium, 퓨리오사 RNGD까지, 학습 칩과 추론 칩의 본질적인 설계 차이를 실전 경험과 함께 풀어봅니다.
📑 목차
1. 시작하며 — 내 Mac mini M4의 두 얼굴
책상 위 작은 회색 알루미늄 박스 하나, Mac mini M4. 처음 손에 들었을 때 무게에 깜짝 놀랐다. 너무 가벼웠기 때문이다. 그런데 이 작은 녀석으로 LLaMA 3.1 8B 모델을 돌려보면 토큰이 초당 28개 정도로 술술 나온다. 챗지피티 무료 버전을 쓰는 것과 비슷한 체감 속도다. 팬 소리도 거의 들리지 않고, 전체 시스템이 22와트 정도밖에 먹지 않는다. 그저 신기할 따름이다.
▲ Apple Mac mini M4 (2024) — 책상 위 작은 알루미늄 박스가 8B 모델 추론을 초당 28토큰으로 돌린다
출처: Wikimedia Commons
그런데 같은 모델로 LoRA 파인튜닝을 시도해 봤다. 데이터셋은 5만 줄짜리, 그렇게 큰 작업도 아니라고 생각했다. 그런데 진행률이 38%까지 올라가는 데 4시간이 넘게 걸렸다. 남은 시간이 거의 7시간 가까이 표시됐다. 그러는 동안 GPU 온도는 89도까지 치솟았고, 통합 메모리는 16GB 중 14.8GB가 차서 시스템 전체가 끈적해졌다. 결국 중간에 학습을 멈출 수밖에 없었다.
같은 칩, 같은 모델, 같은 데이터인데 추론은 빠르고 학습은 느리다. 게다가 그냥 느린 정도가 아니라 거의 못 쓸 만큼 느렸다. 왜 이런 차이가 나는 걸까? 그리고 데이터센터에는 왜 학습 전용 칩과 추론 전용 칩이 따로 있는 걸까? 이번 글에서는 그 본질적인 차이를 풀어보고, 구글의 TPU, 엔비디아의 GPU, 한국 스타트업 퓨리오사의 NPU가 각자 어떤 자리를 차지하고 있는지 차근차근 살펴본다.
2. 학습과 추론, 무엇이 다른가
딥러닝 모델의 생애주기는 크게 두 단계로 나뉜다. 첫째는 학습(Training), 즉 데이터를 보여주면서 모델의 파라미터를 조금씩 업데이트해 나가는 단계다. 둘째는 추론(Inference), 다 만들어진 모델에 입력을 넣고 결과를 받아내는 단계다. 그런데 이 두 단계는 컴퓨터가 해야 하는 연산의 종류와 양이 완전히 다르다.
2-1. 학습은 두 번 일한다 — Forward + Backward
학습 단계에서 모델은 같은 데이터를 두 번 처리한다. 먼저 입력을 받아 출력까지 통과시키는 정방향 연산(Forward Pass)을 한 번 한다. 그다음 출력과 정답을 비교해 오차(Loss)를 구하고, 이 오차를 모델의 모든 가중치에 대해 미분하는 역방향 연산(Backward Pass)을 한 번 더 한다. 그리고 마지막으로 옵티마이저가 가중치를 업데이트한다. 즉, 한 번의 학습 스텝에는 정방향, 역방향, 업데이트라는 세 가지 무거운 작업이 모두 들어간다.
2-2. 추론은 한 번만 일한다 — Forward Only
반면 추론 단계에서는 정방향 연산만 하면 끝난다. 미분도 필요 없고, 옵티마이저도 필요 없다. 그래서 학습 코드에서는 흔히 loss.backward() 와 optimizer.step() 이 호출되지만, 추론 코드에서는 torch.no_grad() 컨텍스트 안에서 forward만 한 번 돌고 끝난다.
flowchart LR
subgraph TR [Training - 학습]
direction TB
T1[입력 데이터]
T2[Forward Pass]
T3[Loss 계산]
T4[Backward Pass]
T5[Optimizer Step]
T1 --> T2 --> T3 --> T4 --> T5
T5 -->|반복| T1
end
subgraph IN [Inference - 추론]
direction TB
I1[입력 데이터]
I2[Forward Pass]
I3[출력 결과]
I1 --> I2 --> I3
end
style TR fill:#4c1d95,stroke:#7c3aed,color:#f1f5f9
style IN fill:#064e3b,stroke:#10b981,color:#f1f5f9
style T4 fill:#7f1d1d,stroke:#ef4444
style T5 fill:#7f1d1d,stroke:#ef4444
▲ 학습은 5단계 순환, 추론은 3단계 단방향. 빨간 노드(역전파, 옵티마이저)가 학습 비용의 90%를 차지한다
2-3. 메모리 사용량의 격차
학습이 무거운 진짜 이유는 메모리에 있다. 정방향 연산만 한다면 모델의 가중치만 메모리에 올려놓으면 된다. 그런데 역방향 연산을 위해서는 정방향에서 거쳐 갔던 모든 중간 활성화값(Activations)을 기억해 둬야 한다. 가중치를 업데이트하려면 그래디언트를 저장해야 하고, Adam 같은 옵티마이저는 1차 모멘텀과 2차 모멘텀을 또 따로 저장한다.
구체적으로 LLaMA 3.1 8B 모델로 계산해 보자. FP16 정밀도 기준으로 가중치는 16GB 정도다. 그런데 학습 시에는 같은 크기의 그래디언트가 16GB, Adam의 옵티마이저 상태가 32GB, 활성화값이 12GB 추가로 쌓인다. 합치면 76GB가 넘는다. 추론에는 19GB면 충분한 모델이 학습에서는 76GB를 요구한다. 약 4배 차이다. Mac mini M4의 16GB 통합 메모리가 학습에서 OOM을 일으키는 게 당연한 결과다.
| 구분 | 가중치 | 그래디언트 | 옵티마이저 | 활성화 | 합계 |
|---|---|---|---|---|---|
| 추론 (FP16) | 16 GB | — | — | 0.8 GB | 19 GB |
| 학습 (FP16+Adam) | 16 GB | 16 GB | 32 GB | 12 GB | 76 GB |
▲ LLaMA-3.1 8B 기준 메모리 분해 — 학습은 추론 대비 약 4배 메모리 필요
2-4. 정밀도(Precision)의 자유도
또 하나 중요한 차이는 숫자의 정밀도다. 학습 단계에서는 그래디언트가 매우 작은 값을 가질 수 있고, 누적 오차가 학습 안정성에 직접 영향을 준다. 그래서 보통 BF16이나 FP16, 적어도 FP8까지는 보장해야 한다. 너무 정밀도를 낮추면 학습이 망가진다.
반면 추론은 다 만들어진 모델을 쓰는 단계라 양자화(Quantization)가 자유롭다. INT8, INT4까지 떨어뜨려도 정확도 손실이 거의 없는 경우가 많다. 모델 크기를 4분의 1, 8분의 1로 줄일 수 있다는 뜻이다. 그래서 추론 전용 칩들은 INT8/INT4 가속기를 큰 비중으로 넣고, 학습 칩들은 BF16/FP8을 위한 텐서 코어에 더 많은 트랜지스터를 할당한다.
3. 왜 학습은 무겁고 추론은 가벼운가
위에서 살펴본 메모리 차이는 결국 칩 설계자에게 두 가지 선택지를 남긴다. 모든 단계를 다 잘하는 만능형 칩을 만들 것인가, 아니면 추론에만 극도로 최적화된 칩을 만들 것인가. NVIDIA의 GPU는 전자, 퓨리오사의 RNGD는 후자, Google의 TPU는 그 중간 어딘가에 있다.
4. NVIDIA GPU — 만능형 강자
현재 AI 반도체 시장에서 NVIDIA의 점유율은 압도적이다. 학습이든 추론이든 일단 NVIDIA부터 시작한다는 말이 농담이 아니다. 그 이유는 단순한 하드웨어 성능을 넘어서 CUDA라는 거대한 소프트웨어 생태계 때문이다. 거의 모든 딥러닝 프레임워크가 CUDA를 기본으로 가정하고 만들어졌고, 사실상 표준이 되어 버렸다.
▲ NVIDIA H100 Tensor Core GPU — 호퍼 아키텍처, 80GB HBM3, 700W TDP. 학습 데이터센터의 표준
출처: Wikimedia Commons (Geekerwan, CC BY)
4-1. H100 — 학습의 표준
NVIDIA H100은 호퍼(Hopper) 아키텍처를 기반으로 한 학습용 GPU의 표준이다. 80GB의 HBM3 메모리, 3.35TB/s의 메모리 대역폭, 4세대 텐서 코어, 그리고 트랜스포머 엔진이 핵심이다. 트랜스포머 엔진은 BF16과 FP8을 자동으로 섞어서 쓰는 기능으로, 정확도는 유지하면서 속도와 메모리를 동시에 챙기는 기술이다.
H100 한 장으로 8B 모델은 충분히 학습할 수 있고, 70B 모델도 NVLink로 묶인 8장 노드면 전체 가중치를 분산시켜 학습이 가능하다. 데이터센터에서는 H100이 8장 들어간 노드를 다시 InfiniBand로 수십, 수백 개 묶어서 클러스터를 구성한다.
4-2. H200과 B200 — 메모리와 아키텍처의 도약
H200은 H100과 같은 호퍼 아키텍처지만 메모리를 80GB HBM3에서 141GB HBM3e로 키웠다. 대역폭도 4.8TB/s로 약 43% 증가했다. 연산 성능 자체는 같지만, 큰 모델을 한 장에 올릴 수 있게 되어 추론 처리량이 눈에 띄게 늘었다.
2024년 발표된 B200은 블랙웰(Blackwell) 아키텍처로 완전히 새로운 세대다. 두 개의 다이를 NV-HBI 인터페이스로 묶어 한 칩처럼 만들었고, 192GB의 HBM3e 메모리를 탑재했다. FP4 정밀도까지 지원하기 때문에 추론 처리량은 H100 대비 4배에서 5배까지 뛴다. 학습에서도 GPT-3 학습이 H100/H200 대비 거의 절반 시간으로 끝난다는 MLPerf 벤치마크 결과가 발표됐다.
B200의 공식 제품 사진과 NVIDIA의 GTC 발표 자료는 NVIDIA DGX B200 공식 페이지에서 확인할 수 있다. NV-HBI로 두 다이가 한 칩처럼 결합된 거대한 패키지가 인상적이다.
4-3. NVIDIA의 진짜 강점 — 생태계
NVIDIA가 다른 AI 칩 회사들을 압도하는 이유는 사실 칩이 아니라 소프트웨어다. CUDA, cuDNN, NCCL, TensorRT, Triton Inference Server까지, 학습부터 서빙까지의 모든 단계에 대한 도구가 갖춰져 있다. PyTorch, JAX 같은 프레임워크가 NVIDIA를 1순위로 지원하기 때문에 새 모델이 나오면 가장 먼저 NVIDIA에서 돌아간다.
다만 가격은 무겁다. H100 한 장이 약 4만 달러, B200은 그보다 더 비싸다. 클라우드에서 빌려도 H100 8장 노드는 시간당 약 24달러부터 시작한다. 학습은 어쩔 수 없이 NVIDIA로 가더라도, 추론까지 비싼 학습용 GPU로 돌리는 건 점점 비효율적이라는 인식이 퍼지고 있다.
5. Google TPU — 텐서 연산의 거인
Google이 직접 만들고 자기 데이터센터에서만 쓰는 AI 칩이 TPU(Tensor Processing Unit)다. 2016년 1세대 TPU가 알파고 이세돌 9단의 대국 때 처음 화제가 됐고, 지금은 6세대 트릴리움(Trillium, v6e)까지 왔다. Google Cloud에서 빌려서 쓸 수 있다.
▲ Google TPU v3 — 시스톨릭 어레이 기반의 텐서 연산 가속기. 현재는 v6e Trillium까지 발전
출처: Wikimedia Commons
5-1. 시스톨릭 어레이의 단순함
TPU의 심장은 시스톨릭 어레이(Systolic Array)라는 구조다. 수천 개의 작은 곱셈-누산기(MAC)가 격자 형태로 배열되어 있고, 데이터가 한쪽 끝에서 들어가 격자를 따라 흐르면서 한꺼번에 행렬 곱셈을 처리한다. GPU가 SIMT라는 일반화된 병렬 모델을 쓰는 반면, TPU는 행렬 곱셈에만 극단적으로 최적화되어 있다.
그 결과 TPU는 트랜스포머 학습에서 매우 높은 MFU(Model FLOPs Utilization)를 기록한다. 잘 튜닝하면 60%에 육박하는데, NVIDIA GPU에서 일반적으로 35~45% 수준임을 감안하면 효율이 좋다. 다만 행렬 연산이 아닌 작업, 예를 들어 동적 그래프나 비정형 입력 처리는 GPU가 더 유연하다.
최신 v6e Trillium의 자세한 사양과 다이샷은 Google Cloud 공식 블로그에서 확인할 수 있다.
5-2. v6e Trillium — 학습과 추론의 균형
최신 TPU v6e는 칩당 32GB의 HBM, 칩당 918 TFLOPS의 BF16 성능, 그리고 4세대 SparseCore를 갖췄다. 이전 세대인 v5e 대비 학습 성능이 4배 이상, 추론 처리량이 3배 이상 늘었다. 흥미로운 점은 같은 v6e 슬라이스를 학습과 추론 모두에 쓸 수 있는 일종의 "융통성(fungibility)" 이 강조되었다는 것이다.
TPU 슬라이스라는 표현은 여러 칩을 묶은 단위를 뜻한다. v6e-8은 8개의 칩이 ICI(Inter-Chip Interconnect)로 연결된 한 묶음으로, 단일 VM에 붙어 추론 워크로드에 최적화된 구성이다. 더 큰 학습에는 v6e-256, v6e-1024 같은 큰 슬라이스를 쓴다. 칩 간 대역폭이 3.5Tbps에 달해 대규모 분산 학습에서 통신 오버헤드를 크게 줄여 준다.
5-3. JAX와 XLA의 강점
TPU의 또 다른 무기는 컴파일러다. XLA(Accelerated Linear Algebra) 컴파일러가 JAX/TensorFlow 코드를 받아서 TPU의 하드웨어 특성에 맞게 최적의 실행 계획을 세운다. PyTorch도 PJRT를 통해 TPU에서 돌릴 수 있지만, 가장 자연스러운 조합은 역시 JAX 와 TPU다.
Google 내부에서는 Gemini 같은 초거대 모델을 모두 TPU로 학습하고 서빙한다. 외부 사용자 입장에서는 Google Cloud를 통해서만 접근할 수 있다는 게 단점이지만, 대규모 사전학습을 비용 효율적으로 돌리려는 회사들에는 매력적인 선택지다.
6. 퓨리오사 RNGD — 한국형 추론 NPU
퓨리오사AI(FuriosaAI)는 2017년 한국에서 설립된 AI 반도체 스타트업이다. 1세대 워보이(Warboy) 칩을 거쳐, 2024년 핫칩스에서 발표한 2세대 RNGD(레니게이드)가 2026년 1월부터 양산에 들어갔다. 추론 전용으로 설계된 NPU(Neural Processing Unit)다.
▲ 퓨리오사 RNGD 칩 패키지 — 중앙의 메인 다이와 양쪽 HBM3 메모리 모듈이 보인다 (TSMC 5nm 공정, 약 400억 트랜지스터)
출처: FuriosaAI 공식 자료
▲ 실제 PCIe 카드에 탑재된 RNGD — 한 손에 잡히는 크기지만 H100급 추론 성능을 180W로 제공한다
출처: FuriosaAI 공식 자료
6-1. 텐서 컨트랙션 프로세서 아키텍처
RNGD의 가장 큰 특징은 TCP(Tensor Contraction Processor)라는 새로운 아키텍처다. 2024년 ISCA 학회에서 발표된 논문 기반의 설계로, 시스톨릭 어레이보다 더 유연한 텐서 연산을 지원한다. 행렬 곱셈뿐 아니라 LLM에서 자주 쓰이는 다양한 텐서 컨트랙션 패턴을 효율적으로 처리할 수 있게 만들어졌다.
스펙도 인상적이다. TSMC 5nm 공정으로 약 400억 개의 트랜지스터, 칩당 512 TFLOPS, 48GB HBM3 메모리, 1.5TB/s 메모리 대역폭, PCIe 5세대 x16 지원. 그런데 전력은 단 180W. 같은 추론 워크로드를 H100에서 돌릴 때 700W를 먹는 것과 비교하면 약 4분의 1 수준이다.
6-2. 추론 전용이라는 결단
RNGD는 추론만 한다. 학습은 지원하지 않는다. 처음 들으면 한계처럼 느껴지지만, 실제로는 의도적인 결단이다. 데이터센터에서 AI 워크로드의 비용 구조를 보면, 학습은 한 번 큰돈을 쓰고 끝나지만 추론은 서비스가 돌아가는 동안 계속 돈을 먹는다. 사용자 100만 명이 매일 모델을 호출하면 추론 비용이 학습 비용을 금세 넘어간다.
그래서 추론에 특화된 칩이 필요해진다. 학습용 회로(역전파, 옵티마이저용 메모리 등)를 빼고, 그 자리에 추론에 더 도움이 되는 회로를 넣는다. RNGD는 INT8과 FP8 추론에 모든 최적화를 집중하고, 멀티테넌시(Multi-tenancy) 기능까지 넣어 한 칩을 2개, 4개, 8개의 가상 NPU로 나누어 쓸 수 있게 했다. 쿠버네티스 환경에서 여러 모델을 동시에 서빙하기에 좋다.
6-3. 한국 기업이 만든 칩이라는 의미
NVIDIA, Google, AMD, Intel 같은 거대 기업이 지배하는 AI 반도체 시장에서, 한국 스타트업이 직접 칩을 설계하고 양산까지 끌고 갔다는 건 기술적 의미가 크다. KT, 사우디 아람코, LG 등 국내외 기업들이 이미 RNGD 도입을 검토하거나 시작했고, 데이터 주권이나 공급망 다변화 관점에서도 의미 있는 옵션이 됐다.
물론 NVIDIA의 CUDA 생태계와 비교하면 소프트웨어 스택은 아직 따라가는 중이다. 퓨리오사는 vLLM, Hugging Face Transformers와 호환되는 furiosa-llm 라이브러리를 제공하면서 PyTorch 생태계와의 격차를 좁히고 있다.
▲ RNGD 서버 — 빨간 알루미늄 케이싱의 PCIe 카드 8장이 한 시스템에 들어가 데이터센터 추론 노드로 동작한다
출처: FuriosaAI 공식 자료
7. Apple M4 — 통합 메모리의 매력
다시 처음 이야기로 돌아와서, Mac mini M4 같은 Apple Silicon은 어디에 속하는 걸까? 결론부터 말하자면 추론 쪽에 가깝지만, 데이터센터 추론 칩과는 또 다른 자리에 있다.
▲ Apple M4 다이샷 — 16개 Neural Engine 코어와 GPU, CPU가 통합 메모리를 공유하는 구조
출처: Wikimedia Commons (Geekerwan, CC BY)
7-1. 통합 메모리 아키텍처(UMA)
Apple Silicon의 가장 큰 특징은 CPU, GPU, Neural Engine이 모두 같은 메모리를 공유한다는 점이다. 데스크탑에서 GPU에 데이터를 보내려면 PCIe를 통해 한 번 복사해야 하는 단계가 있는데, M4에서는 그 단계가 없다. 그래서 모델을 메모리에 한 번 올려놓으면 어떤 처리 유닛이든 바로 접근할 수 있다.
Mac mini M4 기본형은 16GB, M4 Pro는 24GB, M4 Max는 최대 128GB까지 메모리를 넣을 수 있다. 그리고 이 메모리는 모두 HBM 수준은 아니지만 LPDDR5X 기반의 꽤 빠른 메모리고, 칩 다이에 직접 붙어 있다. 8B 모델을 4비트로 양자화하면 약 4.5GB이므로 16GB Mac mini에서도 충분히 돌아간다.
▲ Mac mini M4 후면 — Thunderbolt 4 포트와 HDMI, 작은 폼팩터에 통합 메모리 구조가 들어 있다
출처: Wikimedia Commons
7-2. MLX와 Neural Engine
Apple은 MLX라는 자체 머신러닝 프레임워크를 만들어 오픈소스로 공개했다. PyTorch와 비슷한 API를 제공하면서 내부적으로는 Metal과 Neural Engine을 활용해 Apple Silicon에 최적화된다. 같은 모델을 llama.cpp로 돌릴 때보다 MLX로 돌릴 때 30~50% 빠른 경우가 많다.
Neural Engine은 16개 코어로 38 TOPS의 성능을 낸다. 다만 이는 추론에서 정수 연산을 가속하는 용도지, 학습용 텐서 연산기는 아니다. 학습에는 GPU(MPS 백엔드)가 쓰인다. 그런데 Apple GPU의 학습 성능은 데이터센터 GPU와 비교하면 상당히 떨어진다.
7-3. 학습이 느린 진짜 이유
Mac mini M4에서 학습이 느린 이유는 크게 세 가지다. 첫째, GPU의 텐서 연산 성능 자체가 H100 대비 약 30분의 1 수준이다. 둘째, 통합 메모리는 빠르긴 해도 HBM3의 4.8TB/s에 비해 한참 낮은 대역폭이다. 셋째, 학습은 발열이 심해 작은 폼팩터에서는 스로틀링이 쉽게 발생한다. 이 세 가지가 겹쳐 같은 작업이 26배 느려지는 결과로 나타난다.
그렇다고 Mac mini M4를 폄하할 수는 없다. 개인 개발자가 모델을 실험하고, 추론을 로컬에서 빠르게 돌려보고, 작은 LoRA 어댑터를 만들어 보는 용도로는 더없이 좋은 머신이다. 가격도 90만원대부터 시작한다. 학습은 클라우드에 맡기고, 추론과 실험은 Mac에서 한다는 분업이 점점 일반화되고 있다.
8. 실전 선택 가이드
지금까지 살펴본 칩들을 한 표로 정리해 보자.
| 칩 | 메모리 | 정밀도 | 학습 | 추론 | 가격대 |
|---|---|---|---|---|---|
| NVIDIA H100 | 80GB HBM3 | FP8/FP16 | ★★★★★ | ★★★★ | 매우 높음 |
| NVIDIA B200 | 192GB HBM3e | FP4/FP8 | ★★★★★ | ★★★★★ | 매우 높음 |
| Google TPU v6e | 32GB HBM/칩 | BF16/INT8 | ★★★★★ | ★★★★ | 클라우드 |
| 퓨리오사 RNGD | 48GB HBM3 | FP8/INT8 | — | ★★★★★ | 중간 |
| Apple M4 | 16~64GB UMA | FP16/INT4 | ★ | ★★★ | 저렴 |
| Apple M4 Max | 36~128GB | FP16/INT4 | ★★ | ★★★★ | 중간 |
8-1. 시나리오별 칩 선택
스타트업 LLM 학습 — H100 클러스터
사전학습이나 풀 파인튜닝을 빠르게 끝내고 싶다면 NVIDIA H100 또는 B200 클러스터가 가장 안전한 선택이다. AWS, Lambda Labs, CoreWeave 같은 클라우드에서 시간 단위로 빌릴 수 있다. CUDA 생태계가 가장 풍부해서 새 모델 코드도 바로 돌아간다.
대규모 사전학습 — Google TPU v6e Pod
100B 이상 초거대 모델을 효율적으로 사전학습하려면 TPU v6e Pod가 강력한 옵션이다. ICI 대역폭이 높아서 통신 오버헤드가 적고, JAX/XLA 조합으로 MFU를 높게 유지할 수 있다. Google Cloud에 종속된다는 점만 빼면 비용 효율이 좋다.
자체 추론 서비스 — 퓨리오사 RNGD
대규모 사용자 트래픽을 받는 추론 서비스를 운영한다면, 학습용 GPU 대신 추론 전용 NPU를 쓰는 게 전력비 면에서 훨씬 유리하다. 퓨리오사 RNGD는 같은 토큰 처리량을 H100의 약 4분의 1 전력으로 낸다. 한국 기업이라 기술 지원도 가깝다.
개인 개발/실험 — Mac mini M4 또는 M4 Pro
로컬에서 모델을 실험하고 빠르게 추론을 돌려보는 용도로 Mac mini M4 시리즈는 가성비가 매우 좋다. 4비트 양자화된 8B~14B 모델을 조용한 환경에서 돌릴 수 있다. 학습은 클라우드에 맡기고, Mac은 개발 환경으로만 쓰는 분업이 합리적이다.
flowchart TB
A[시작: 무엇을 하려는가?]
A --> B{학습 or 추론?}
B -->|학습| C{모델 크기?}
B -->|추론| D{배치 크기?}
C -->|100B+| E[H100 클러스터
B200 NVL72
TPU v6e Pod]
C -->|<70B| F[H100 1~8장
TPU v6e-8]
D -->|대량 서빙| G[퓨리오사 RNGD
B200 추론 노드]
D -->|개인용| H[Mac mini M4
M4 Max]
style A fill:#7c3aed,stroke:#6d28d9
style E fill:#4c1d95,stroke:#7c3aed
style F fill:#4c1d95,stroke:#7c3aed
style G fill:#1e3a8a,stroke:#3b82f6
style H fill:#064e3b,stroke:#10b981
▲ 의사결정 트리 — 무엇을 하는지, 모델 크기는 얼마인지에 따라 칩을 고른다
9. 비용 효율과 미래 전망
AI 반도체 시장은 지금 학습과 추론을 분리하는 흐름이 강해지고 있다. 그 이유는 비용 구조 때문이다. 거대 언어 모델을 한 번 학습시키는 데 수백만 달러가 들지만, 그 모델로 서비스를 운영하면 매달 수십억 원의 추론 비용이 누적된다. 학습은 끝이 있고, 추론은 끝이 없다.
flowchart TB
subgraph WORK [AI 워크로드 비용 구조]
direction LR
A[모델 사전학습
1회성 큰 비용] --> B[파인튜닝
주기적 중간 비용]
B --> C[추론 서빙
지속적 누적 비용]
end
subgraph CHIP [최적 칩 매칭]
direction LR
D[H100/B200
TPU v6e Pod]
E[H100/H200
TPU v6e]
F[퓨리오사 RNGD
B200/Apple M4]
end
A -.->|학습 중심| D
B -.->|혼합 워크로드| E
C -.->|추론 전용 최적| F
style A fill:#7c2d12,stroke:#ea580c
style B fill:#854d0e,stroke:#ca8a04
style C fill:#064e3b,stroke:#10b981
style D fill:#4c1d95,stroke:#7c3aed
style E fill:#4c1d95,stroke:#7c3aed
style F fill:#1e3a8a,stroke:#3b82f6
▲ 워크로드 단계별 비용 구조와 그에 맞는 칩 선택 — 추론에 점점 더 큰 비중이 실리는 중
이런 변화 속에서 추론 전용 NPU 시장이 커지고 있다. 퓨리오사 외에도 미국의 Groq, Cerebras, SambaNova, 영국의 Graphcore, 이스라엘의 Habana(Intel) 등 많은 회사들이 추론 시장을 노린다. 각자 다른 아키텍처를 들고 나오지만 핵심은 같다. 학습용 회로를 빼고, 그 자리를 추론 효율로 채워 전력 대비 처리량을 극대화한다는 것이다.
한편 NVIDIA도 가만히 있지 않는다. B200에 이은 B300, 그리고 Rubin 세대로 가면서 학습 성능과 추론 성능을 동시에 끌어올리고 있다. CUDA 생태계라는 해자가 워낙 깊기 때문에, 추론 시장에서도 NVIDIA를 완전히 밀어내기는 어렵다. 결국 NVIDIA가 만능형 강자로 남으면서 그 옆에 추론 특화 칩들이 자리 잡는 구도가 당분간 이어질 것으로 보인다.
마지막으로 개인 개발자 입장에서 정리하자면, 자기가 어떤 작업을 하는지부터 명확히 하는 게 우선이다. 학습이 주된 작업이라면 클라우드 GPU가 답이고, 추론이 주된 작업이라면 Mac mini M4 같은 로컬 머신이나 추론 전용 클라우드(예: Groq Cloud)가 답이다. 그 사이를 부드럽게 오가는 워크플로우를 만드는 것이 2026년 AI 개발자에게 요구되는 새로운 역량이다.
자주 묻는 질문 (FAQ)
물론 가능하고, 실제로 많은 회사들이 그렇게 쓰고 있습니다. NVIDIA H100이나 B200은 추론도 매우 잘합니다. 다만 비용 효율이 떨어집니다. 학습 칩에는 역전파를 위한 회로와 옵티마이저용 메모리가 들어가 있는데, 추론에서는 이 회로가 놀게 됩니다. 같은 추론 처리량을 퓨리오사 RNGD로 내면 전력비를 약 4분의 1로 줄일 수 있어서, 추론 트래픽이 큰 서비스일수록 분리가 유리합니다.
완전히 불가능하지는 않습니다. LoRA처럼 학습 가능한 파라미터 수를 크게 줄인 어댑터 학습은 가능합니다. 다만 시간이 매우 오래 걸리고, 16GB 모델에서는 메모리가 빠듯합니다. M4 Pro 24GB나 M4 Max 64GB+ 모델이라면 7B 모델 LoRA는 충분히 시도해 볼 수 있습니다. 풀 파인튜닝이나 사전학습은 사실상 어렵습니다.
현재 RNGD는 주로 데이터센터 고객을 대상으로 판매되고 있습니다. PCIe 카드 형태로 제공되며, 서버에 장착해서 사용합니다. 가격대는 정확히 공개되지 않았지만 NVIDIA H100보다 저렴한 수준으로 알려져 있습니다. 개인 개발자가 직접 구매하기보다는 RNGD를 도입한 클라우드 서비스를 통해 시간 단위로 빌려 쓰는 것이 현실적입니다.
워크로드에 따라 다릅니다. 잘 정의된 트랜스포머 학습이라면 TPU가 MFU(연산 활용률) 면에서 더 효율적인 경우가 많습니다. 반면 동적 그래프, 비정형 입력, 강화학습처럼 유연성이 필요한 작업은 GPU가 더 강합니다. 또한 생태계 면에서 PyTorch와 호환성은 GPU가 압도적이고, JAX 생태계라면 TPU가 자연스럽습니다. 사용하는 프레임워크와 모델 구조를 고려해서 결정하면 됩니다.
FP8, INT8 정도의 양자화는 대부분의 LLM에서 정확도 손실이 1~2% 이내로 매우 작습니다. INT4까지 낮추면 손실이 좀 더 커지지만, AWQ, GPTQ 같은 정교한 양자화 기법을 쓰면 INT4에서도 거의 원본 성능을 유지하는 경우가 많습니다. 학습 시에는 정밀도 손실이 누적될 수 있어 주의가 필요하지만, 추론에서는 적극적으로 양자화를 활용하는 것이 비용과 메모리 면에서 큰 이득입니다.
정리하며
학습용 칩과 추론용 칩의 차이는 결국 "한 번 일하느냐 두 번 일하느냐"의 차이입니다. 같은 Mac mini M4 안에서도 추론은 빠르고 학습은 느린 이유가 바로 이 구조적 비용의 차이에서 옵니다. 데이터센터에서는 NVIDIA, Google, 퓨리오사가 각자 다른 자리를 잡고, 개인 개발자는 Apple Silicon이나 클라우드를 적절히 섞어 쓰는 시대로 가고 있습니다. 자신이 무엇을 만들고 있는지부터 명확히 한다면, 어떤 칩이 답인지는 자연스럽게 따라옵니다.
📚 참고 자료 및 이미지 출처
- • FuriosaAI RNGD 공식 페이지
- • Google Cloud — Trillium TPU GA
- • NVIDIA H100 공식 페이지
- • NVIDIA DGX B200 공식 페이지
- • Apple ML Research — Exploring LLMs with MLX
- • Chips and Cheese — RNGD at Hot Chips 2024
- • Wikimedia Commons — Mac mini M4 카테고리
- • Wikimedia Commons — NVIDIA H100 사진
- • Wikimedia Commons — Google TPU 사진
'AI' 카테고리의 다른 글
| GPT Image 2 프롬프트 스킬 완벽 가이드 - wuyoscar의 162개 프롬프트 라이브러리 분석 (1) | 2026.04.30 |
|---|---|
| ChatGPT image 2.0 Chameleon 실 사용 후기 (vs 나노바나나 2) (0) | 2026.04.22 |
| 구글, 벡터 DB 대신 지속성 메모리 사용하는 에이전트 시스템 공개 - Always-On Memory Agent 완벽 분석 (0) | 2026.04.13 |
| Flux 2.0 MAX로 인스타 AI 인플루언서 만들기 — 실제 API 크레딧 결제 후 사용 후기 (0) | 2026.04.09 |
| 오픈소스 RealVisXL V5.0으로 AI 버추얼 인물 생성 후기 — ComfyUI + PuLID + RunPod 실전 가이드 (0) | 2026.04.08 |