|
안녕하세요, AI 서비스 & 솔루션 프로바이더 베스핀글로벌입니다.
AWS re:Invent 2025의 [Accelerating incident response through AIOps]을 확인해보시기 바랍니다.
|
☑️ Keynote
| 세션명 |
Accelerating incident response through AIOps |
| 세션코드 |
COP334 |
| 발표일자 |
2025.12.05 |
| 강연자 |
Pratul Chakre, Andres Silva |
| 키워드 |
1. AI Ops
2. Cloudwatch
3. Unified Data Management
4. MCP Server
5. CloudWatch Investigations
6. AWS DevOps Agent |
| 핵심 내용 및 요약 |
ㆍAI Ops를 통해 클라우드 운영의 대응 속도를 혁신적으로 가속하는 방법 |
|
Accelerating incident response through AIOps
|
1. 세션 목적
CloudWatch와 AI Ops 기술을 활용해 운영 자동화, 인시던트 대응 속도 향상, 데이터 기반 의사결정 고도화 방향을 설명합니다.
|
2. Formula 1 비유로 설명한 AI Ops의 필요성
2-1. F1의 발전: 67초 -> 2.3초, 96% 개선
- F1 피트스톱은 기술·데이터·프로세스 최적화로 2초대까지 단축합니다.
- 300개 이상의 센서, 날씨·트랙 정보 등 수십억 데이터 기반 실시간 의사결정이 가능합니다.
- → AI Ops의 목표와 동일: 운영 효율 극대화 & 실시간 문제 해결을 지원합니다.
2-2. 운영 환경의 유사성
- F1의 계획된/비계획 피트스톱 = 클라우드 환경의 계획된 변경 / 인시던트 대응과 상응합니다.
- F1은 40초 내 비계획 피트스톱을 해결하지만 반면 우리 인시던트는 수 시간입니다.
- 즉, AI Ops를 통해 인시던트 해결을 분 단위로 단축해야 합니다.
|

3. Unified Telemetry
3-1. 문제
로그와 메트릭이 여러 서비스, 계정, 지역에 분산되어 있어 AIOps가 어렵습니다. 즉, 데이터 중앙화가 필요합니다.
3-2. Unified Data Management 기능
- 모든 텔레메트리를 CloudWatch에서 일원화 관리합니다.
- 데이터 소스 자동 활성화 (VPC Flow Logs 등)
- 서드파티 로그 자동 수집 (CrowdStrike 등)
- S3 Table 연동 → Athena/AI 분석 가능
- Telemetry Pipeline
- 수집
- 변환(OpenTelemetry, OCSF)
- enrich
- 라우팅
3-3. Open Standards 지원
- OpenTelemetry
- OCSF(Open Cybersecurity Schema Framework)
- 관측 + 보안 로그 모두 표준화하여 단일 분석이 가능합니다.
|

4. CloudWatch의 AI 기능 강화
4-1. Natural Language Query (NLQ)
- 사용자는 자연어로 말하면 → 시스템이 SQL/Log Insights/PPL 쿼리 자동 생성합니다.
- 예시) "지난 1시간 동안 500 에러가 많은 순으로 Top 10 로그 보여줘"
4-2. CloudWatch Investigations
- AI가 인시던트 뿌리 원인을 탐색하여 제시합니다.
- 연관 리소스 및 시간대별 이상 탐지 자동 제공합니다.
4-3. Application Map
- 애플리케이션 간 종속성 자동 구성을 지원합니다.
- Instrumentation 없어도 맵 생성이 가능합니다.
- 인시던트 영향을 빠르게 파악할 수 있습니다
4-4. GAIO Observatory
- GenAI 애플리케이션과 LLM 호출, 벡터DB, 프롬프트 실패율 등을 관측합니다.
|
5. Agentic AI - DevOps Agent
- Matt Garman이 발표한 AWS DevOps Agent는 운영 자동화 에이전트로 티켓 요약, RCA 초안 생성, remediate 제안, 배포 과정 트러블슈팅 등을 지원합니다.
|
6. AI Opas 도입 로드맵
6-1. Telemetry 확보 & 통합 (센서 데이터 확보)
6-2. Predictive analytics (시뮬레이션/전략)
6-3. Real-time adjustments (AIOps 기반 자동화)
6-4. Autonomous Ops (완전 자동화)
|
7. AIOps를 위한 MCP 서버
7-1. 역할
7-2. 제공 MCP 서버
- CloudWatch MCP
- Application Signals MCP
- CloudTrail MCP
7-3. 사용 예시
- 개발 환경(예: Quiro, VS Code Q Developer)에서 자연어 명령
- “새 버전 배포했는데 지연(latency) 확인해줘”
- 필요한 Telemetry API 자동 호출
- 자동 추천
- 로그/메트릭 기반 문제 탐지
- Alarm 추천
- Auto-remediation 가능
|

8.CloudWatch Investigations - AI 기반 인시던트 분석 도구
8-1. 목적
- 인시던트 발생 시 “어디서부터 봐야 하는지”를 AI가 자동으로 분석합니다.
- 탐지 → 관찰 → 가설 → 원인 → 해결 → 보고서 생성까지 자동화가 가능합니다.
8-2. 주요 기능
- 토폴로지 자동 생성
- 애플리케이션 구조를 CloudWatch/CloudTrail/NTT 등을 통해 자동 탐색합니다.
- 관련 Telemetry만 집중적으로 분석도 가능합니다.
- Hypothesis 생성
- “이 문제가 발생한 원인은 X로 판단된다”
- 예: S3 버킷 정책 Deny로 Lambda 실패 → SLO 오류 증가
- Always-on Anomaly Detection
- 로그 2개의 구간 비교 → 이상 패턴을 즉시 탐지할 수 있습니다.
- Incident Report 자동 생성
- Amazon 내부 COE(Cause of Error) 템플릿 기반
- 5 Whys 포함
- 메트릭, 로그, 원인, 영향, 해결책 포함
- PDF/Markdown Export 가능
|
9. AWS DevOps Agent - 자율 운영 시작점
9-1. 특징
- “Frontier Agent” 형태로 AWS + 멀티클라우드 + 온프렘 환경을 모두 지원합니다.
- 이상 징후를 스스로 찾아서 문제를 예방합니다.
- 기존 Investigations가 “반응형(incident handling)”이라면 → DevOps Agent는 “예방형(proactive prevention)”입니다.
9-2. 목표
- 문제 탐지
- 자동 수정
- 보고서 생성
- 사람은 검증 또는 아예 검증 없이 진행 가능
|
10. 전체 전략 요약
10-1. CloudWatch Natural Language Query
- 팀이 자연어로 Telemetry를 다룰 수 있게 준비
10-2. CloudWatch Investigations 활성화
10-3. MCP Automations 도입
- 개발 단계에서 메트릭/로그/알람 구성을 AI가 자동 안내
10-4. AWS DevOps Agent 도입
- 자율 운영으로 넘어감 (사전 탐지 및 자동 수정)
|