안녕하세요, AI 서비스 & 솔루션 프로바이더 베스핀글로벌입니다.
AWS re:Invent 2025의 [Accelerating incident response through AIOps]을 확인해보시기 바랍니다.

☑️ Keynote

세션명 Accelerating incident response through AIOps
세션코드 COP334
발표일자 2025.12.05
강연자 Pratul Chakre, Andres Silva
키워드 1. AI Ops
2. Cloudwatch 
3. Unified Data Management 
4. MCP Server
5. CloudWatch Investigations
6. AWS DevOps Agent
핵심 내용 및 요약 ㆍAI Ops를 통해 클라우드 운영의 대응 속도를 혁신적으로 가속하는 방법

Accelerating incident response through AIOps

 

1. 세션 목적

CloudWatch와 AI Ops 기술을 활용해 운영 자동화, 인시던트 대응 속도 향상, 데이터 기반 의사결정 고도화 방향을 설명합니다.

 

2. Formula 1 비유로 설명한 AI Ops의 필요성

2-1. F1의 발전: 67초 -> 2.3초, 96% 개선

  • F1 피트스톱은 기술·데이터·프로세스 최적화로 2초대까지 단축합니다.
  • 300개 이상의 센서, 날씨·트랙 정보 등 수십억 데이터 기반 실시간 의사결정이 가능합니다.
  • → AI Ops의 목표와 동일: 운영 효율 극대화 & 실시간 문제 해결을 지원합니다.

2-2. 운영 환경의 유사성

  • F1의 계획된/비계획 피트스톱 = 클라우드 환경의 계획된 변경 / 인시던트 대응과 상응합니다.
  • F1은 40초 내 비계획 피트스톱을 해결하지만  반면 우리 인시던트는 수 시간입니다.
  • 즉, AI Ops를 통해 인시던트 해결을 분 단위로 단축해야 합니다.

3. Unified Telemetry 

3-1. 문제

로그와 메트릭이 여러 서비스, 계정, 지역에 분산되어 있어 AIOps가 어렵습니다. 즉, 데이터 중앙화가 필요합니다.

 

3-2. Unified Data Management 기능

  • 모든 텔레메트리를 CloudWatch에서 일원화 관리합니다.
  • 데이터 소스 자동 활성화 (VPC Flow Logs 등)
  • 서드파티 로그 자동 수집 (CrowdStrike 등)
  • S3 Table 연동 → Athena/AI 분석 가능
  • Telemetry Pipeline
    • 수집
    • 변환(OpenTelemetry, OCSF)
    • enrich
    • 라우팅

3-3. Open Standards 지원

  • OpenTelemetry
  • OCSF(Open Cybersecurity Schema Framework)
  • 관측 + 보안 로그 모두 표준화하여 단일 분석이 가능합니다.

 

4. CloudWatch의 AI 기능 강화

4-1. Natural Language Query (NLQ)

  • 사용자는 자연어로 말하면  → 시스템이 SQL/Log Insights/PPL 쿼리 자동 생성합니다.
  • 예시)  "지난 1시간 동안 500 에러가 많은 순으로 Top 10 로그 보여줘"

4-2. CloudWatch Investigations

  • AI가 인시던트 뿌리 원인을 탐색하여 제시합니다.
  • 연관 리소스 및 시간대별 이상 탐지 자동 제공합니다.

4-3. Application Map

  • 애플리케이션 간 종속성 자동 구성을 지원합니다.
  • Instrumentation 없어도 맵 생성이 가능합니다.
  • 인시던트 영향을 빠르게 파악할 수 있습니다

4-4. GAIO Observatory

  • GenAI 애플리케이션과 LLM 호출, 벡터DB, 프롬프트 실패율 등을 관측합니다.

 

5. Agentic AI - DevOps Agent

  • Matt Garman이 발표한 AWS DevOps Agent는 운영 자동화 에이전트로 티켓 요약, RCA 초안 생성, remediate 제안, 배포 과정 트러블슈팅 등을 지원합니다.

6. AI Opas 도입 로드맵 

6-1. Telemetry 확보 & 통합 (센서 데이터 확보)

6-2. Predictive analytics (시뮬레이션/전략)

6-3. Real-time adjustments (AIOps 기반 자동화)

6-4. Autonomous Ops (완전 자동화)

 

7. AIOps를 위한 MCP 서버

7-1. 역할

  • 과거 F1 팀의 “양방향 텔레메트리(two-way telemetry)”처럼 데이터를 읽고 → 시스템 설정을 조정할 수 있는 능력을 제공합니다.

  • AI 모델과 API를 연결하는 표준 인터페이스(“USB-C 같은 역할”)라고 할 수 있습니다.

7-2. 제공 MCP 서버

  • CloudWatch MCP
  • Application Signals MCP
  • CloudTrail MCP

7-3. 사용 예시

  • 개발 환경(예: Quiro, VS Code Q Developer)에서 자연어 명령
    • “새 버전 배포했는데 지연(latency) 확인해줘”
    • 필요한 Telemetry API 자동 호출
  • 자동 추천
    • 로그/메트릭 기반 문제 탐지
    • Alarm 추천
    • Auto-remediation 가능

8.CloudWatch Investigations - AI 기반 인시던트 분석 도구

8-1. 목적

  • 인시던트 발생 시 “어디서부터 봐야 하는지”를 AI가 자동으로 분석합니다.
  • 탐지 → 관찰 → 가설 → 원인 → 해결 → 보고서 생성까지 자동화가 가능합니다.

8-2. 주요 기능

  • 토폴로지 자동 생성
    • 애플리케이션 구조를 CloudWatch/CloudTrail/NTT 등을 통해 자동 탐색합니다.
    • 관련 Telemetry만 집중적으로 분석도 가능합니다.
  • Hypothesis 생성
    • “이 문제가 발생한 원인은 X로 판단된다”
    • 예: S3 버킷 정책 Deny로 Lambda 실패 → SLO 오류 증가
  • Always-on Anomaly Detection
    • 로그 2개의 구간 비교 → 이상 패턴을 즉시 탐지할 수 있습니다.
  • Incident Report 자동 생성
    • Amazon 내부 COE(Cause of Error) 템플릿 기반
    • 5 Whys 포함
    • 메트릭, 로그, 원인, 영향, 해결책 포함
    • PDF/Markdown Export 가능

 

9. AWS DevOps Agent - 자율 운영 시작점

9-1. 특징

  • “Frontier Agent” 형태로 AWS + 멀티클라우드 + 온프렘 환경을 모두 지원합니다.
  • 이상 징후를 스스로 찾아서 문제를 예방합니다.
  • 기존 Investigations가 “반응형(incident handling)”이라면 → DevOps Agent는 “예방형(proactive prevention)”입니다.

9-2. 목표

  • 문제 탐지
  • 자동 수정
  • 보고서 생성
  • 사람은 검증 또는 아예 검증 없이 진행 가능

10. 전체 전략 요약

10-1. CloudWatch Natural Language Query

  • 팀이 자연어로 Telemetry를 다룰 수 있게 준비

10-2. CloudWatch Investigations 활성화

  • 인시던트 원인 분석 속도 대폭 향상

10-3. MCP Automations 도입

  • 개발 단계에서 메트릭/로그/알람 구성을 AI가 자동 안내

10-4. AWS DevOps Agent 도입

  • 자율 운영으로 넘어감 (사전 탐지 및 자동 수정)