안녕하세요, AI 서비스 & 솔루션 프로바이더 베스핀글로벌입니다.
AWS re:Invent 2025의 [KEY004]을 확인해보시기 바랍니다.

☑️ Keynote

세션명 Infrastructure Innovations
세션코드 KEY004
발표일자 2025.12.04
강연자 Peter DeSantis, Dave Brown
키워드 Tranium 3, Graviton 5, S3 Vectors, Lambda Managed Instances
핵심 내용
및 요약
AWS는 하드웨어(칩)부터 소프트웨어(서버리스, 벡터 검색)까지 AI 워크로드를 위한 모든 인프라 스택을 혁신하여, 고객에게 최고 수준의 가격 대비 성능과 탄력성을 제공하는 것을 목표

1. AI 시대를 위한 AWS 핵심 인프라 원칙

AI 혁신이 클라우드 인프라의 혁신을 이끌 것이며, AWS의 핵심 원칙(보안, 가용성, 성능, 탄력성, 비용, 민첩성)은 중요해질 것입니다.

• 탄력성 (Elasticity): AI 워크로드의 전례 없는 수요 증가에 대응하기 위해, S3와 같은 수준의 탄력성을 AI 워크로드에 제공하는 것을 목표로 합니다.
• 비용 (Cost): AI 모델 구축 및 실행 비용 절감을 위해 Tranium과 같은 자체 칩에 대규모 투자를 진행하고 있습니다.
• 나이트로 시스템 (Nitro System): 2010년부터 시작된 깊은 투자 사례로, 가상화를 전용 하드웨어로 옮겨 jitter 문제를 제거하고 AWS가 자체 칩을 설계하게 된 기반이 되었습니다.

 

2. 컴퓨팅 혁신: Graviton 프로세서 및 Graviton 5

• Direct-to-Silicon Cooling): 칩의 뚜껑(lid)을 제거하고 히트싱크를 실리콘에 직접 연결하여 열 저항을 낮추고 팬 전력을 33% 절감했습니다. 이는 전체 시스템 스택을 제어하는 AWS만이 할 수 있는 혁신입니다.
• Graviton 5 발표: 이전 세대 대비 5배 이상 증가한 L3 캐시를 포함한 192 코어를 단일 패키지로 제공합니다. Graviton 5로 구동되는 M9g 인스턴스는 M8g 대비 최대 25% 향상된 성능을 제공합니다
• Apple의 Graviton 활용: Apple의 Pam Murashidi 부사장은 핵심 서비스를 Swift로 재작성하고 Graviton으로 마이그레이션하여 40%의 성능 향상과 30%의 비용 절감을 달성했다고 밝혔습니다.

3. 서버리스의 진화: Lambda Managed Instances

• Lambda Managed Instances: 서버리스의 단순함(자동 확장, 운영 관리 불필요)을 유지하면서 EC2 인스턴스 유형을 직접 선택할 수 있는 유연성을 제공합니다. 이는 비디오 처리, ML 전처리 등 역사적으로 Lambda 외부에서 실행되던 워크로드를 서버리스 모델로 가져올 수 있게 합니다. 핵심은 "서버의 부재"가 아닌 "서버 관리의 부재"라고 정의했습니다.

4. AI 추론을 위한 Bedrock 및 Project Mantle

• Project Mantle: Amazon Bedrock의 많은 모델을 구동하는 새로운 추론 엔진입니다.
• Bedrock 서비스 티어: 고객이 요청의 긴급도에 따라 Priority, Standard, Flex 세 가지 서비스 레벨을 선택할 수 있게 하여 리소스 할당의 지능화를 가능하게 합니다.
• Journal: 장시간 실행되는 요청을 위한 내구성 있는 트랜잭션 로그로, 오류 발생 시 중단된 지점부터 작업을 재개하여 시스템의 내결함성(fault tolerant)을 크게 향상시킵니다.
• 기밀 컴퓨팅 (Confidential Computing): 추론 중 모델 가중치와 고객 데이터를 보호하기 위해 통합되었습니다.

5. 데이터의 연결: Vector Search와 S3 Vectors

• Nova Multimodal Embeddings Model: 텍스트, 문서, 이미지, 비디오, 오디오를 모두 지원하여 이 모든 개념을 공유된 벡터 공간으로 변환하는 최첨단 임베딩 모델입니다.
• S3 Vectors (GA): S3의 비용 효율성과 확장성을 벡터 스토리지에 적용한 기능입니다.
수십억 개의 벡터 데이터베이스에서 100밀리초 미만의 쿼리 시간을 달성하기 위해 벡터 이웃(vector neighborhoods)을 미리 계산하는 혁신적인 접근 방식을 사용했습니다.
• 12 Labs의 S3 Vectors 활용: Jay Lee (12 Labs CEO)는 AWS S3 Vectors와의 통합을 통해 수백만 시간 분량의 비디오를 분석하고 검색하는 비디오 인텔리전스 솔루션을 효율적으로 제공하고 있다고 소개했습니다.

6. AI 인프라의 정점: Tranium 3

• 비용 효율성: Tranium 3는 가장 까다로운 AI 워크로드에서 최대 40% 더 낮은 비용을 제공할 것으로 예상됩니다.
• 2세대 Tranium Ultra Server: 144개의 Tranium 3 칩을 포함하며, 360 페타플롭스의 컴퓨팅 성능과 20TB의 HBM을 제공합니다.
• Tranium 3 슬레드 디자인: Tranium 3 가속기와 고속 I/O를 위한 Graviton 프로세서, 고속 네트워킹을 위한 Nitro 카드 등 AWS의 맞춤형 칩 3종이 모두 탑재되어 있습니다.
• 개발자 도구:
- NIKKI (Neuron Kernel Interface): Q1에 정식 출시 예정이며, 파이썬 환경에서 Tranium 하드웨어에 대한 직접적인 제어와 성능 최적화를 가능하게 합니다 (오픈 소스화 예정).
- Neuron Explorer: 상세한 프로파일링 데이터를 분석하고 자동으로 병목 현상을 감지하며 최적화를 제안하는 도구입니다.
•  Pytorch 네이티브 지원: 코드를 to(cuda)에서 .to(neuron)으로 한 줄만 변경하면 Tranium에서 모델을 실행할 수 있게 되어 접근성이 극대화됩니다.
•  Decart AI의 Tranium 3 활용: Dean Lettersdorf (Decart AI CEO)는 Tranium 3와 NIKKI를 사용하여 실시간 라이브 비주얼 인텔리전스(예: 실시간 카툰 변환)를 구현했으며, 최첨단 GPU 대비 4배 더 나은 FPS 성능을 달성했다고 발표했습니다.