2. TPU란 무엇인가?

오늘은 구글이 만든 AI 전용 칩, TPU의 내부 구조(MXU, VPU, VMEM)와 이들이 거대한 슈퍼컴퓨터로 연결되는 방식에 대해 알아보겠습니다.

1. TPU의 내부 구조: 3가지 핵심 부품

TPU 칩 안을 들여다보면, 크게 세 가지 핵심 유닛이 쉴 새 없이 돌아가고 있습니다.

1. MXU (Matrix Multiply Unit)

역할: TPU의 존재 이유입니다. 오직 행렬 곱셈만을 위해 태어난 장치입니다.
특징: 시스톨릭 어레이(Systolic Array) 구조를 사용합니다. (뒤에서 자세히 설명)
성능: TPU v5e 기준으로 코어당 초당 약 200조 번(2e14)의 연산을 수행합니다.

2. VPU (Vector Processing Unit)

역할: 행렬 곱셈 이외의 일반적인 계산을 담당합니다.
작업: 활성화 함수(ReLU 등), 벡터 간 덧셈/곱셈, 합계 구하기(Reduction) 등.

3. VMEM (Vector Memory)

역할: 칩 내부에 있는 작은 임시 저장소입니다.
중요성: HBM(메인 메모리)보다 용량은 작지만(약 128MB), 속도(대역폭)는 훨씬 빠릅니다.
핵심: MXU는 HBM에 있는 데이터를 직접 건드릴 수 없습니다. 반드시 HBM → VMEM으로 데이터를 복사해온 뒤에야 연산이 가능합니다.

2. 데이터의 흐름: HBM과 병목 현상

TPU의 작업 흐름은 다음과 같습니다.

HBM에 있는 거대한 데이터를 VMEM으로 가져옵니다.
MXU가 VMEM에 있는 데이터를 가져와 미친 듯이 곱셈을 합니다.
결과를 다시 VMEM에 썼다가, HBM으로 돌려보냅니다.

💡 여기서 성능의 핵심!
VMEM의 대역폭은 HBM보다 약 22배나 빠릅니다.
따라서 데이터를 HBM에서 가져오는 횟수를 줄이고, 한 번 VMEM에 가져온 데이터를 최대한 재사용(Reuse)해야 최고의 성능을 낼 수 있습니다. (이것이 이전 글에서 말한 '산술 강도'를 높이는 방법입니다.)

3. TPU 네트워킹: 칩들은 어떻게 대화하는가?

TPU 하나만으로는 거대 모델을 감당할 수 없습니다. 수천 개의 TPU를 연결해야 하는데, 이때 연결 방식이 GPU와는 조금 다릅니다.

1. ICI (Inter-Chip Interconnect)

방식: TPU 칩끼리 직접 연결된 초고속 네트워크입니다.
구조: 토러스(Torus) 구조를 사용합니다. 즉, 내 옆, 위, 아래에 있는 이웃 칩들과 직접 손을 잡고 있는 형태입니다. (GPU가 복잡한 스위치 장비를 통해 연결되는 것과 대조적입니다.)
장점: 스위치 같은 중계 장비가 필요 없어 구조가 단순하고 확장이 쉽습니다.

2. DCN (Data Center Network)

방식: TPU 묶음(Pod)과 다른 Pod, 혹은 CPU 호스트끼리 통신하는 일반적인 데이터센터 네트워크입니다.
속도: ICI보다 훨씬 느립니다. 따라서 모델을 쪼갤 때, 빈번한 통신은 ICI로 해결하고 DCN 사용은 최소화해야 합니다.

3. PCIe : 호스트와의 연결

방식: CPU(주인)와 TPU(가속기)를 연결하는 통로입니다.
속도: 가장 느립니다. HBM 대역폭보다 약 100배 느립니다. 데이터를 CPU에서 TPU로 옮기는 건 꽤 시간이 걸리는 일입니다.

4. 심화: 시스톨릭 어레이 (Systolic Array)란?

MXU가 행렬 곱셈을 처리하는 방식인 '시스톨릭 어레이'는 TPU의 가장 큰 특징입니다.

의미: 'Systolic'은 심장 박동(수축)을 뜻합니다. 데이터가 심장 박동처럼 리듬에 맞춰 흐른다는 뜻입니다.
작동 원리:
1. 일반적인 CPU/GPU는 데이터를 레지스터에서 가져와서 계산하고 다시 저장합니다. (Load-Store 방식)
2. 시스톨릭 어레이는 데이터가 수만 개의 연산 유닛(ALU) 사이를 물 흐르듯이 통과합니다.
3. 왼쪽에서 데이터가 들어오고, 위에서 가중치가 내려오면서, 교차점에서 곱해지고 더해지며 옆으로 전달됩니다.
장점: 데이터를 한 번 읽어서 수만 번 재사용하므로 에너지 효율과 연산 밀도가 압도적으로 높습니다.

5. 핵심 요약

TPU는 단순합니다: 거대한 행렬 곱셈 기계(MXU)에 초고속 메모리(HBM)를 붙여놓은 것입니다.
속도의 계급도:
- VMEM ↔ MXU: 빛의 속도 (가장 빠름)
- HBM ↔ VMEM: 고속도로 (빠름, 하지만 병목의 주원인)
- ICI (칩 간 통신): 국도 (꽤 빠름)
- DCN/PCIe: 비포장도로 (느림, 최대한 피해야 함)
최적화의 목표: 느린 HBM이나 네트워크를 기다리느라 빠른 MXU가 노는 일이 없도록, 데이터 이동과 연산을 겹쳐서(Overlap) 수행하는 것입니다.

이 글은 Google Cloud TPU 아키텍처 기술 문서를 바탕으로 재구성되었습니다.

'AI > GPU' 카테고리의 다른 글

1. Rooflines에 관한 모든것 (1)	2026.01.25

gamxong

2. TPU란 무엇인가?

1. TPU의 내부 구조: 3가지 핵심 부품

1. MXU (Matrix Multiply Unit)

2. VPU (Vector Processing Unit)

3. VMEM (Vector Memory)

2. 데이터의 흐름: HBM과 병목 현상

3. TPU 네트워킹: 칩들은 어떻게 대화하는가?

1. ICI (Inter-Chip Interconnect)

2. DCN (Data Center Network)

3. PCIe : 호스트와의 연결

4. 심화: 시스톨릭 어레이 (Systolic Array)란?

5. 핵심 요약

'AI > GPU' 카테고리의 다른 글

댓글

티스토리툴바

2. TPU란 무엇인가?

1. TPU의 내부 구조: 3가지 핵심 부품

1. MXU (Matrix Multiply Unit)

2. VPU (Vector Processing Unit)

3. VMEM (Vector Memory)

2. 데이터의 흐름: HBM과 병목 현상

3. TPU 네트워킹: 칩들은 어떻게 대화하는가?

1. ICI (Inter-Chip Interconnect)

2. DCN (Data Center Network)

3. PCIe : 호스트와의 연결

4. 심화: 시스톨릭 어레이 (Systolic Array)란?

5. 핵심 요약

'AI > GPU' 카테고리의 다른 글

관련글

댓글

티스토리툴바