본문 바로가기

분류 전체보기156

3. Sharded Matrices and How to Multiply Them 1. 왜 Sharding이 필요한가?수천~수만 개의 TPU나 GPU에서 LLM을 학습할 때, 우리는 본질적으로 단일 장비에서 수행하는 것과 동일한 계산을 수행한다.차이점은 단 하나:모델 파라미터와 입력이 단일 디바이스의 HBM에 들어가지 않는다는 것 그래서 배열을 여러 디바이스에 나눠 저장해야 한다. 이를 sharding(파티셔닝)이라고 한다. LLM의 계산 대부분은 행렬 곱셈이므로, 결국 문제는 다음으로 귀결된다:“디바이스에 분산된 행렬을 어떻게 곱할 것인가?”2. Sharding 표기법 Device Mesh우리는 디바이스들을 2D 또는 3D 격자(mesh)로 본다.예:Mesh({‘X’: 2, ‘Y’: 2})→ 2x2 격자, 총 4개 디바이스Sharding 표기행렬 A[I, J]를 다음과 같이 표기한다.. 2026. 2. 22.

2. TPU란 무엇인가? 오늘은 구글이 만든 AI 전용 칩, TPU의 내부 구조(MXU, VPU, VMEM)와 이들이 거대한 슈퍼컴퓨터로 연결되는 방식에 대해 알아보겠습니다. 1. TPU의 내부 구조: 3가지 핵심 부품TPU 칩 안을 들여다보면, 크게 세 가지 핵심 유닛이 쉴 새 없이 돌아가고 있습니다.1. MXU (Matrix Multiply Unit)역할: TPU의 존재 이유입니다. 오직 행렬 곱셈만을 위해 태어난 장치입니다.특징: 시스톨릭 어레이(Systolic Array) 구조를 사용합니다. (뒤에서 자세히 설명)성능: TPU v5e 기준으로 코어당 초당 약 200조 번(2e14)의 연산을 수행합니다.2. VPU (Vector Processing Unit)역할: 행렬 곱셈 이외의 일반적인 계산을 담당합니다.작업: 활성화 .. 2026. 1. 25.

1. Rooflines에 관한 모든것 0. 시작하면서현업에서 GPU 관련 업무를 수행하고 있지만, 정작 그 내부 구조에 대해서는 깊이 있게 알지 못한다는 아쉬움이 늘 있었습니다. AI라는 영역 역시 업무와 가깝게 맞닿아 있으면서도, 기반 지식이 부족하다 보니 여전히 멀게만 느껴졌습니다. 이에 GPU의 내부 구조와 동작 원리를 밑바닥부터 파악해보고자 센터장님께서 추천해주신 아티클을 공부해보게 되었습니다. 1. 개요딥러닝 모델을 돌리다 보면 문득 궁금해집니다. "왜 이 알고리즘은 50초가 아니라 50ms가 걸릴까? 혹은 왜 5ms로 줄일 수는 없을까?"모델 내부에서 실제로 어떤 일이 벌어지고 있길래 시간이 소요되는 걸까요? 오늘은 딥러닝 성능 최적화의 핵심인 연산(Computation)과 통신(Communication), 그리고 이를 분석하는 .. 2026. 1. 25.

소프티어부트캠프 5기 후기, 채용전환까지 1. 시작하면서저는 2025년 겨울에 현대자동차그룹이 주관하는 소프티어 부트캠프를 수료했습니다.지원부터 최종 채용까지, 과정 곳곳에서 궁금한 점이 많았는데 당시 다른 분들의 후기가 정말 큰 도움이 되었습니다.그래서 저도 가장 최근에 부트캠프를 수료한 사람으로서, 지원을 고민하시는 분들께 조금이나마 도움이 되고자 후기를 남기게 되었습니다. 결과적으로 좋은 성과를 얻었지만, 최대한 객관적인 시선으로 솔직하게 작성해보겠습니다. 2. 지원과정 제가 지원했을 당시의 소프티어 부트캠프는, 다른 부트캠프들과 달리 면접이 없었습니다.제 기억으로는 자기소개서도 크게 없었던 것으로 기억합니다. 선발 과정은 오직 두 번의 코딩테스트로만 이루어졌습니다.덕분에 별도로 크게 준비하지 않아도, 취업 준비를 하면서 자연스럽게 병행할.. 2025. 4. 28.

이전 1 2 3 4 ··· 39 다음

티스토리툴바