☑️ Keynote

세션명	Deep dive on Amazon S3
세션코드	STG407
발표일자	2025.12.01
강연자	James Bornholt, Seth Markle
키워드	1, 가용성 (Availability) & 장애 설계 (Design for Failure) 2. 강력한 쓰기 후 읽기 일관성 (Strong Read-After-Write Consistency) 3. 쿼럼 기반 알고리즘 (Quorum-Based Algorithm) 4. 상관 관계 장애 (Correlated Failures) & 회색 장애 (Gray Failures) 5. 글로벌 관점의 헬스 체크 & 글로벌 레이트 리미터
핵심 내용 및 요약	Amazon S3는 99.99% 가용성과 강력한 일관성 달성을 위해 시스템 및 서버 레벨에서 장애 설계를 합니다. 1. 시스템 레벨에서는 쿼럼 기반 알고리즘 및 복제된 저널/증인 시스템을 도입하여 일관성을 보장하고 동적 재구성으로 장애 발생 시에도 서비스 가용성을 유지합니다. 2. 서버 레벨에서는 상관 관계 장애에 대비하여 데이터를 여러 장애 도메인에 복제하고, 과부하 같은 회색 장애는 재시도와 LIFO 큐 처리로 관리합니다. 3. 헬스 체크를 통한 시스템의 자가 치유를 도모하되, 글로벌 레이트 리미터를 활용하여 로컬 시스템의 잘못된 결정을 방지함으로써 전역적인 안정성을 확보합니다.

5. 총평

본 세션은 Amazon S3가 극한의 규모와 엄격한 SLA를 만족시키기 위해 가용성과 일관성을 어떻게 구조적으로 설계했는지 심도 있게 보여줍니다. 단순한 장애 복구를 넘어 쿼럼, 저널, 동적 재구성 같은 고급 분산 시스템 개념을 적용하여 일관성 문제를 해결하고, 회색 장애나 혼잡 붕괴 등 복잡한 장애 모드까지 예측하고 대응하는 치밀함이 돋보입니다. 특히, 시스템의 자가 치유 능력과 글로벌 관점의 통제(Global Rate Limiter)를 강조하며 로컬 의사결정의 위험성을 경계하는 접근 방식은 대규모 분산 시스템 설계의 모범 사례를 제시합니다.

☑️ Keynote

Overview of monitoring in Amazon RDS

1. 개요 및 설계 목표

2. 시스템 레벨 가용성 및 일관성 확보

2-1. 쿼럼 기반 메타데이터 인덱스 (Quorum-Based Index)

2-2. 강력한 쓰기 후 읽기 일관성 확보 (Strong Read-After-Write Consistency)

3. 서버 레벨의 장애 유형과 대응 전략

S3 엔지니어링팀은 개별 노드 자체의 장애에 대비합니다.

3-1. 상관 관계 장애 (Correlated Failures) 대비

3-2. 상관 관계 장애 (Correlated Failures) 대비

3-3. 혼잡 붕괴 (Congestive Collapse)

4. Self-healing Systems(자가 치유 시스템)

S3는 운영자가 수동으로 개입하지 않고 시스템이 스스로 장애를 감지하고 자가 치유(Self-healing)하도록 설계되었습니다.

4-1. 상관 관계 장애 (Correlated Failures) 대비

5. 총평