안녕하세요, AI 서비스 & 솔루션 프로바이더 베스핀글로벌입니다.
AWS re:Invent 2025의 [Reimagining AWS operations with autonomous AI agents]을 확인해보시기 바랍니다.

☑️ Keynote

세션명	Reimagining AWS operations with autonomous AI agents
세션코드	DEV207
발표일자	2025.12.04
강연자	Geethika Guruge
키워드	1. AI 에이전트 (AI Agents) 2. 자율 클라우드 운영 (Autonomous Cloud Operations) 3. 규정 준수/현대화 자동화 (Compliance & Modernization Automation) 4. 관찰 가능성/비즈니스 신뢰 (Observability & Business Trust)
핵심 내용 및 요약	ㆍ이 세션은 맨틀 그룹이 실제 프로덕션 환경에서 AI 에이전트를 활용해 클라우드 운영을 자동화한 사례와 교훈을 다룬 내용입니다. ㆍ규정 준수, 현대화 프로젝트, EKS 지원 자동화 등 3가지 실전 사용 사례를 소개하고, 시스템 프롬프트 설계, 권한 모델, 신뢰 확보, 모니터링 등 프로덕션 운영 시 반드시 고려해야 할 핵심 과제를 공유합니다. ㆍ결론적으로 AI 에이전트는 사람을 대체하는 것이 아니라, 대량의 단순·저가치 작업을 자동화하여 인간의 역량을 증폭시키는 도구라는 점을 강조합니다.

Reimagining AWS operations with autonomous AI agents

1. 클라우드 운영의 현재와 미래

클라우드 현대화 확대로 서비스·환경이 폭증하면서 로그 증가, 지원 티켓 증가, 규정 준수 부담이 크게 증가하였습니다.
수동 운영은 한계에 도달했고, 자율 에이전트 기반 운영(Autonomous Cloud)이 미래 방향으로 제시되었습니다.
다만 완전 자동이 아닌 Human-in-the-loop 모델이 필수이며, 사람은 승인·감독을 담당합니다.

2. 사용 사례 #1 — 대규모 규정 준수 자동화

2-1. 문제

500대 이상 서버 마이그레이션에서 PCI DSS 기준 검증이 필요한데, 기준 문서가 Confluence 곳곳에 흩어져 있어 수동 검증에 많은 시간이 소요되었습니다.

2-2. 해결

환경 구축/마이그레이션 시 에이전트 자동 트리거
에이전트가 규정 기준 문서 읽기 → 서버/환경 평가 → 격차 발견 시 Jira 티켓 + Pull Request 자동 생성합니다.

2-3. 효과

규정 준수 검증이 자동화되고 마이그레이션 속도를 향상시킬 수 있습니다.
모든 변경 사항이 티켓·PR로 추적 가능하여 감사·추적 가능성을 확보합니다.

3. 사용 사례 #2 — 현대화 프로젝트 MTTR 단축

3-1. 문제

Java 모놀리스 → EKS 컨테이너 전환 과정에서 설정/보안 오류가 반복 발생했습니다.
SRE 병목 + 수동 분석 때문에 문제 해결 시간이 지연되었습니다.

3-2. 해결

CloudWatch 로그 기반으로 오류 감지하면 에이전트 트리거
에이전트가 로그 분석 → 근본 원인 파악 → 자동 생성된 티켓 + 수정 PR 업로드

3-3. 효과

MTTR 90% 이상 단축되었습니다.
SRE 팀은 고난도 업무에 집중 가능합니다.
CI/CD와 결합하여 지속적 개선 사이클을 구축할 수 있습니다.

4. 사용 사례 #3 — EKS 운영의 저가치 요청 자동화

4-1. 문제

네임스페이스 생성, QPS 증가 등 반복적인 요청이 플랫폼 팀에 집중되었습니다
티켓 지연 및 개발자 경험이 저하되는 문제가 있었습니다.

4-2. 해결

Slack 기반 요청 → 에이전트 실행
문서·정책·로그 읽고 해결 가능한 항목은 PR 자동 생성
EKS 상태는 **MCP 서버(read-only)**로 조회해 안전성 확보

4-3. 효과

지원 비용 20% 절감되었습니다.
대부분의 PR이 5분 내 생성되었고, 플랫폼 팀 확장 없이도 개발 팀 증가에 대응이 가능해졌습니다.

5. 에이전트 아키텍처 구성

입력 경로: Slack/API Gateway 또는 CloudWatch 알람
Lambda → 에이전트 코어(Runtime) 실행
오케스트레이터(Orchestrator)가 요청 종류 분석 후
- Confluence Agent
- Jira Agent
- Pull Request Agent
- AWS/EKS Agent 등 전문 에이전트 호출
에이전트 메모리를 통해 과거 사례 축적·분석이 가능합니다.
모든 로그는 CloudWatch로 수집되어 관찰 가능성(Observability)을 확보할 수 있습니다.

6. 운영 시 고려해야 할 핵심 요소

시스템 프롬프트 설계 난이도
- 프롬프트에 따라 에이전트 행동이 크게 달라집니다.
- 지나치게 광범위한 수정(PR) 발생 등 원치 않는 행동을 방지하기 위해 오케스트레이터가 "버그 수정" vs "개선 작업"을 구분해 에이전트에 전달하도록 구조화합니다.
페더레이션 권한 관리
- GitHub/GitLab, Confluence, Jira, MCP 서버 등 여러 시스템의 권한·API Key를 에이전트가 안전하게 사용하도록 관리해야 합니다.
비즈니스 신뢰 확보 전략
- 초기에는 고가치·저위험 워크플로우에 집중해 신뢰 축적 후 점진적으로 더 복잡한 흐름으로 확장하는 것이 효과적입니다.
운영 관찰성 및 성능 평가
- 에이전트 활동, 비용, 성공률을 모니터링해야 프로덕션 품질 유지가 가능합니다.
- CloudWatch 및 평가 기능을 사용해 에이전트 성능을 지속적으로 검증합니다.

7. 마무리

AI 에이전트는 클라우드 운영을 자동화하고 효율화하는 새로운 실행 모델로 자리 잡고 있습니다.
이번 세션이 보여준 것처럼, 단순·반복적 업무를 자동화하고 규정 준수, 문제 해결, 운영 지원 같은 잘 정의된 워크플로우에 적용하면 운영 속도·품질·확장성을 모두 향상시킬 수 있습니다.
특히 프롬프트 설계, 권한 모델, 관찰 가능성, 비즈니스 신뢰 확보는 프로덕션 환경에서 AI 에이전트를 성공적으로 운영하기 위한 핵심 요소입니다.
궁극적으로 AI 에이전트는 인간을 대체하는 것이 아니라, 대량의 저가치 작업을 자동화하여 인간의 역량과 영향력을 확대하는 운영 파트너로 기능합니다.