본문 바로가기

AI/GPU3

3. Sharded Matrices and How to Multiply Them 1. 왜 Sharding이 필요한가?수천~수만 개의 TPU나 GPU에서 LLM을 학습할 때, 우리는 본질적으로 단일 장비에서 수행하는 것과 동일한 계산을 수행한다.차이점은 단 하나:모델 파라미터와 입력이 단일 디바이스의 HBM에 들어가지 않는다는 것 그래서 배열을 여러 디바이스에 나눠 저장해야 한다. 이를 sharding(파티셔닝)이라고 한다. LLM의 계산 대부분은 행렬 곱셈이므로, 결국 문제는 다음으로 귀결된다:“디바이스에 분산된 행렬을 어떻게 곱할 것인가?”2. Sharding 표기법 Device Mesh우리는 디바이스들을 2D 또는 3D 격자(mesh)로 본다.예:Mesh({‘X’: 2, ‘Y’: 2})→ 2x2 격자, 총 4개 디바이스Sharding 표기행렬 A[I, J]를 다음과 같이 표기한다.. 2026. 2. 22.
2. TPU란 무엇인가? 오늘은 구글이 만든 AI 전용 칩, TPU의 내부 구조(MXU, VPU, VMEM)와 이들이 거대한 슈퍼컴퓨터로 연결되는 방식에 대해 알아보겠습니다. 1. TPU의 내부 구조: 3가지 핵심 부품TPU 칩 안을 들여다보면, 크게 세 가지 핵심 유닛이 쉴 새 없이 돌아가고 있습니다.1. MXU (Matrix Multiply Unit)역할: TPU의 존재 이유입니다. 오직 행렬 곱셈만을 위해 태어난 장치입니다.특징: 시스톨릭 어레이(Systolic Array) 구조를 사용합니다. (뒤에서 자세히 설명)성능: TPU v5e 기준으로 코어당 초당 약 200조 번(2e14)의 연산을 수행합니다.2. VPU (Vector Processing Unit)역할: 행렬 곱셈 이외의 일반적인 계산을 담당합니다.작업: 활성화 .. 2026. 1. 25.
1. Rooflines에 관한 모든것 0. 시작하면서현업에서 GPU 관련 업무를 수행하고 있지만, 정작 그 내부 구조에 대해서는 깊이 있게 알지 못한다는 아쉬움이 늘 있었습니다. AI라는 영역 역시 업무와 가깝게 맞닿아 있으면서도, 기반 지식이 부족하다 보니 여전히 멀게만 느껴졌습니다. 이에 GPU의 내부 구조와 동작 원리를 밑바닥부터 파악해보고자 센터장님께서 추천해주신 아티클을 공부해보게 되었습니다. 1. 개요딥러닝 모델을 돌리다 보면 문득 궁금해집니다. "왜 이 알고리즘은 50초가 아니라 50ms가 걸릴까? 혹은 왜 5ms로 줄일 수는 없을까?"모델 내부에서 실제로 어떤 일이 벌어지고 있길래 시간이 소요되는 걸까요? 오늘은 딥러닝 성능 최적화의 핵심인 연산(Computation)과 통신(Communication), 그리고 이를 분석하는 .. 2026. 1. 25.