 |
|
|
안녕하세요, AI 서비스 & 솔루션 프로바이더 베스핀글로벌입니다.
AWS re:Invent 2025의 [KEY004]을 확인해보시기 바랍니다.
|
☑️ Keynote
| 세션명 |
Infrastructure Innovations |
| 세션코드 |
KEY004 |
| 발표일자 |
2025.12.04 |
| 강연자 |
Peter DeSantis, Dave Brown |
| 키워드 |
Tranium 3, Graviton 5, S3 Vectors, Lambda Managed Instances |
핵심 내용
및 요약 |
AWS는 하드웨어(칩)부터 소프트웨어(서버리스, 벡터 검색)까지 AI 워크로드를 위한 모든 인프라 스택을 혁신하여, 고객에게 최고 수준의 가격 대비 성능과 탄력성을 제공하는 것을 목표 |
|
1. AI 시대를 위한 AWS 핵심 인프라 원칙

AI 혁신이 클라우드 인프라의 혁신을 이끌 것이며, AWS의 핵심 원칙(보안, 가용성, 성능, 탄력성, 비용, 민첩성)은 중요해질 것입니다.
• 탄력성 (Elasticity): AI 워크로드의 전례 없는 수요 증가에 대응하기 위해, S3와 같은 수준의 탄력성을 AI 워크로드에 제공하는 것을 목표로 합니다.
• 비용 (Cost): AI 모델 구축 및 실행 비용 절감을 위해 Tranium과 같은 자체 칩에 대규모 투자를 진행하고 있습니다.
• 나이트로 시스템 (Nitro System): 2010년부터 시작된 깊은 투자 사례로, 가상화를 전용 하드웨어로 옮겨 jitter 문제를 제거하고 AWS가 자체 칩을 설계하게 된 기반이 되었습니다.
|
2. 컴퓨팅 혁신: Graviton 프로세서 및 Graviton 5

• Direct-to-Silicon Cooling): 칩의 뚜껑(lid)을 제거하고 히트싱크를 실리콘에 직접 연결하여 열 저항을 낮추고 팬 전력을 33% 절감했습니다. 이는 전체 시스템 스택을 제어하는 AWS만이 할 수 있는 혁신입니다.
• Graviton 5 발표: 이전 세대 대비 5배 이상 증가한 L3 캐시를 포함한 192 코어를 단일 패키지로 제공합니다. Graviton 5로 구동되는 M9g 인스턴스는 M8g 대비 최대 25% 향상된 성능을 제공합니다
• Apple의 Graviton 활용: Apple의 Pam Murashidi 부사장은 핵심 서비스를 Swift로 재작성하고 Graviton으로 마이그레이션하여 40%의 성능 향상과 30%의 비용 절감을 달성했다고 밝혔습니다.
|
3. 서버리스의 진화: Lambda Managed Instances

• Lambda Managed Instances: 서버리스의 단순함(자동 확장, 운영 관리 불필요)을 유지하면서 EC2 인스턴스 유형을 직접 선택할 수 있는 유연성을 제공합니다. 이는 비디오 처리, ML 전처리 등 역사적으로 Lambda 외부에서 실행되던 워크로드를 서버리스 모델로 가져올 수 있게 합니다. 핵심은 "서버의 부재"가 아닌 "서버 관리의 부재"라고 정의했습니다.
|
4. AI 추론을 위한 Bedrock 및 Project Mantle

• Project Mantle: Amazon Bedrock의 많은 모델을 구동하는 새로운 추론 엔진입니다.
• Bedrock 서비스 티어: 고객이 요청의 긴급도에 따라 Priority, Standard, Flex 세 가지 서비스 레벨을 선택할 수 있게 하여 리소스 할당의 지능화를 가능하게 합니다.
• Journal: 장시간 실행되는 요청을 위한 내구성 있는 트랜잭션 로그로, 오류 발생 시 중단된 지점부터 작업을 재개하여 시스템의 내결함성(fault tolerant)을 크게 향상시킵니다.
• 기밀 컴퓨팅 (Confidential Computing): 추론 중 모델 가중치와 고객 데이터를 보호하기 위해 통합되었습니다.
|
5. 데이터의 연결: Vector Search와 S3 Vectors

• Nova Multimodal Embeddings Model: 텍스트, 문서, 이미지, 비디오, 오디오를 모두 지원하여 이 모든 개념을 공유된 벡터 공간으로 변환하는 최첨단 임베딩 모델입니다.
• S3 Vectors (GA): S3의 비용 효율성과 확장성을 벡터 스토리지에 적용한 기능입니다.
수십억 개의 벡터 데이터베이스에서 100밀리초 미만의 쿼리 시간을 달성하기 위해 벡터 이웃(vector neighborhoods)을 미리 계산하는 혁신적인 접근 방식을 사용했습니다.
• 12 Labs의 S3 Vectors 활용: Jay Lee (12 Labs CEO)는 AWS S3 Vectors와의 통합을 통해 수백만 시간 분량의 비디오를 분석하고 검색하는 비디오 인텔리전스 솔루션을 효율적으로 제공하고 있다고 소개했습니다.
|
6. AI 인프라의 정점: Tranium 3

• 비용 효율성: Tranium 3는 가장 까다로운 AI 워크로드에서 최대 40% 더 낮은 비용을 제공할 것으로 예상됩니다.
• 2세대 Tranium Ultra Server: 144개의 Tranium 3 칩을 포함하며, 360 페타플롭스의 컴퓨팅 성능과 20TB의 HBM을 제공합니다.
• Tranium 3 슬레드 디자인: Tranium 3 가속기와 고속 I/O를 위한 Graviton 프로세서, 고속 네트워킹을 위한 Nitro 카드 등 AWS의 맞춤형 칩 3종이 모두 탑재되어 있습니다.
• 개발자 도구:
- NIKKI (Neuron Kernel Interface): Q1에 정식 출시 예정이며, 파이썬 환경에서 Tranium 하드웨어에 대한 직접적인 제어와 성능 최적화를 가능하게 합니다 (오픈 소스화 예정).
- Neuron Explorer: 상세한 프로파일링 데이터를 분석하고 자동으로 병목 현상을 감지하며 최적화를 제안하는 도구입니다.
• Pytorch 네이티브 지원: 코드를 to(cuda)에서 .to(neuron)으로 한 줄만 변경하면 Tranium에서 모델을 실행할 수 있게 되어 접근성이 극대화됩니다.
• Decart AI의 Tranium 3 활용: Dean Lettersdorf (Decart AI CEO)는 Tranium 3와 NIKKI를 사용하여 실시간 라이브 비주얼 인텔리전스(예: 실시간 카툰 변환)를 구현했으며, 최첨단 GPU 대비 4배 더 나은 FPS 성능을 달성했다고 발표했습니다.
|
|
|