안녕하세요, AI 서비스 & 솔루션 프로바이더 베스핀글로벌입니다.
AWS re:Invent 2025의 [세션명]을 확인해보시기 바랍니다.

☑️ Keynote

세션명 Behind the curtain: How Amazon’s AI innovations are powered by AWS
세션코드 INV211
발표일자 2025.12.02
강연자 Paul Roberts (Director of Tech, AWS), Dave Treadwell (SVP, Amazon eCommerce Foundation), Jesse Levinson (CTO, Zoox), Eric Orme (VP, Prime Video)
키워드 Amazon Rufus, Agentic AI & Spec Studio, Zoox Robotaxi, Prime Video : Science meets storytelling
핵심 내용
및 요약
Amazon의 주요 사업부 리더들이 등단하여 AWS를 활용한 AI 혁신 사례를 발표함
 - Prime Day 규모와 Amazon의 AI 쇼핑 어시스턴 'Rufus,
 - AI 에이전트를 통한 개발 생산성 혁신
 - Zoox의 로봇 택시와 자율주행 시뮬레이션 인프라
 - Prime Video의 실시간 스포츠 분석 기술

1. Intro : Amazon Prime Day

1.1 개요

Amazon Prime 회원은 2억 명 이상이며, 작년 기준 90억 개 이상의 패키지를 당일 또는 익일 배송합니다. 
 

1.2 준비 과정

실제 이벤트 몇 달 전부터 'Game Days(모의 훈련)', 'Well-Architected 리뷰', '용량 관리 훈련' 등을 수행하여 아키텍처가 효율적으로 확장 가능한지 검증합니다. 

1.3 AWS 인프라 활용 현황

• Amazon EC2 (Graviton): Amazon.com 트래픽의 40% 이상을 자체 칩인 Graviton 인스턴스로 처리하여 효율을 높입니다.
• Amazon ElastiCache: 일일 1,500조(quadrillion) 건 이상의 요청을 처리하며, 광고 서비스의 경우 분당 1.4조 건의 요청을 소화합니다.
• Amazon EBS: 하루 최대 1 엑사바이트(Exabyte)의 데이터를 전송합니다.
• Amazon DynamoDB: 초고속 NoSQL 데이터베이스로서 10밀리초 미만의 응답 속도를 유지합니다.
• Amazon CloudFront: 3조 건 이상의 HTTP 요청을 전송합니다.
• AWS Outposts: 풀필먼트 센터(물류 창고) 내부의 로봇 제어 시스템을 관리합니다. 단일 센터에서 7,000대의 로봇에게 5억 2,400만 건 이상의 명령을 전송합니다.

2. Amazon Stores: Rufus (Paul Roberts)

2.1 Rufus (개인형 AI 쇼핑 어시스턴트) 심층 분석

• 작동 원리: Amazon의 제품 카탈로그, 웹 데이터, 커뮤니티 Q&A 등을 학습한 커스텀 LLM과 Amazon Bedrock을 결합합니다. 'Agentic Ability'를 통해 외부 데이터(예: 아디다스 공식 홈페이지의 제품 설명)를 실시간으로 조회하고 추론하여 답변의 정확도를 높입니다. 



• 사용자 경험(UX): 단순 텍스트가 아닌 이미지, 추천 위젯, 예상 질문(Blue pills/Prompt caching)을 포함한 풍부한 응답(Rich response)을 제공하며, 모바일 앱에서 데스크톱으로 이동해도 대화 문맥이 유지됩니다.



• 비즈니스 성과: Rufus를 사용하는 고객은 구매 완료율이 약 60% 더 높은 것으로 나타납니다. 



2.2 인프라 및 성능 최적화

• 하드웨어: Prime Day 트래픽 처리를 위해 87,000개 이상의 AWS Trainium 및 Inferentia 칩을 사용합니다.
• 소프트웨어 최적화: Amazon ECS 상에서 지속적 배치(Continuous Batching) 기술을 적용하여 요청을 동적으로 그룹화합니다. 이를 통해 GPU 활용률을 극대화하고, 응답을 스트리밍 방식으로 전송하여 '첫 토큰 대기 시간(Time to first token)'을 1밀리초 미만으로 단축합니다.
• 효율성: 분당 300만 토큰을 처리하면서도 비용을 4.5배 절감하고, 와트당 성능을 54% 향상시킵니다.

3. Amazon eCommerce Foundation: AI Native 개발 (Dave Treadwell)

3.1 Agentic AI (에이전트 중심의 운영 혁신)

• 규모: Amazon 내부적으로 21,000개 이상의 AI 에이전트를 운영 중이며, 이를 통해 2025년 기준 20억 달러 이상의 비용 절감을 달성할 것으로 예상합니다.



• 주소 보정 에이전트 사례:
 - 문제: 고객이 입력한 주소가 상업지인지 거주지인지 불분명하여 배송 오류 발생합니다.
 - 해결: 에이전트가 정부 웹사이트를 크롤링하거나 고객 메모를 분석하여 주소 유형을 예측합니다.
 - 성과: 초기 배송 결함(First-time delivery defects)을 74.4% 줄이고, 수작업 검토 시간을 2,500시간 절감합니다.

3.2 Spec Studio와 AI Native 개발

• 개념 (Spec-Driven Development): 개발자가 코드를 직접 짜는 대신 사양(Spec)을 작성하면 AI가 코드를 생성하고, 반대로 기존 코드를 사양으로 변환하는 'Code to Spec, Spec to Code'의 순환 구조를 확립합니다.



• Spec Studio: 기존 레거시 코드베이스를 사양으로 변환해 주는 내부 도구로, 이미 15,000개 이상의 스펙이 생성됩니다. 이를 도입한 파일럿 팀들의 개발 속도(Velocity)가 4.5배 증가합니다.





• 목표: 2026년까지 조직의 75%가 이 AI Native 방식을 채택하도록 추진합니다.

4. Zoox: 자율주행과 대규모 시뮬레이션 (Jesse Levinson)

4.1 로보택시 기술 스택 (Perception to Planning)

• 차량 구조: 운전대/페달이 없는 완전 자율주행 차량. 카메라, 라이다(LiDAR), 레이더, 열화상 센서, 마이크를 융합하여 360도 대칭형 인지 시스템 구축합니다.



• AI 파이프라인: 인지(Perception) → 예측(Prediction, 타 객체의 행동 확률 계산) → 모션 플래닝(Planning)의 단계를 거쳐 주행 경로를 결정합니다.

4.2 하이브리드 인프라 및 시뮬레이션

• 디지털 트윈(Digital Twin): 실제 도로 주행만으로는 검증할 수 없는 엣지 케이스(예: 갑자기 튀어나오는 아이)를 검증하기 위해, AWS S3에 페타바이트 규모의 데이터를 저장하고 가상 도시 환경에서 수백만 번의 시뮬레이션을 수행합니다. Diffusion 모델을 활용해 시나리오를 생성합니다.



• 컴퓨팅 효율화:
  - SageMaker HyperPod: 수만 개의 GPU를 활용한 대규모 분산 학습 시 발생하는 인프라 장애를 자동으로 감지하고 복구하여 학습 중단을 방지합니다.



  - EC2 Capacity Blocks: 새로운 모델 검증(Clearance runs)과 같이 짧은 시간 동안 대규모 GPU(P5, P6 인스턴스)가 필요한 스파이크성 워크로드를 위해, 대기열 없이 GPU 용량을 확실하게 예약/확보하여 사용합니다.

5. Prime Video: 스포츠 분석 및 방송 혁신 (Eric Orme)

5.1 Thursday Night Football (TNF) 및 NASCAR 실시간 분석

• TNF (NFL): 'Defensive Alerts'(수비 블리츠 예측), 'Pocket Health'(쿼터백 압박 시각화) 등 5가지 핵심 기능(Prime Insights)을 제공합니다. 수백 개의 추적 센서와 비디오 프레임을 실시간으로 처리합니다.





• NASCAR (The Burn Bar): 각 차량의 연료 소비량을 예측하는 모델입니다.
차량 텔레메트리 데이터를 Amazon ECS/Fargate(수집) → Kinesis(스트리밍) → Flink(처리) → DynamoDB(저장) 파이프라인을 통해 처리하며, 이 모든 시스템을 3개월 만에 구축합니다.




5.2 NBA 하이라이트 요약 및 핵심 플레이 탐색

EDC (Event Detection Classification): 경기 중 3점 슛, 덩크, 모멘텀 변화 등 주요 이벤트를 실시간으로 감지하고 태깅하는 시스템. Amazon Bedrock(Claude)과 SageMaker를 활용하여 공식 리그 데이터에 깊이 있는 맥락 정보를 결합합니다.
엣지 컴퓨팅: 중계 트럭 내부에 서버를 두고 ECS Anywhere를 통해 클라우드와 동일한 컨테이너 모델을 배포, 현장에서 초저지연 데이터 처리를 수행합니다.
방송 스튜디오: 13,000평방피트 규모에 2,300개의 LED 스크린(30억 픽셀)을 설치하고, AWS 기반의 실시간 데이터를 시각화하여 해설자가 데이터 속에 들어가 있는 듯한 몰입형 방송을 구현합니다.