안녕하세요, AI 서비스 & 솔루션 프로바이더 베스핀글로벌입니다.
AWS re:Invent 2025의 [Building agentic AI platform engineering solutions with open source]을 확인해보시기 바랍니다.

☑️ Keynote

세션명 Building agentic AI platform engineering solutions with open source
세션코드 OPN303
발표일자 2025.12.03
강연자 Hasith Kalpage, Niall Thomson
키워드 1. 플랫폼 엔지니어링 + AI
2. Model Context Protocol (MCP)
3. Agent-to-Agent Protocol (A2A)
4. 멀티 에이전트 아키텍처
5. CAPE(Cloud Native AI Platform Engineering)
핵심 내용 및 요약

플랫폼 엔지니어링은 개발 생산성을 높이기 위한 조직적·기술적 기능이지만, 실제로는 운영 지원 업무로 인해 병목이 발생하고 혁신 속도가 더뎌지는 문제가 있습니다. 이를 해결하기 위해 AI(특히 멀티 에이전트, MCP, A2A)를 플랫폼에 결합하면 개발자와 플랫폼 팀이 반복적으로 수행하던 작업을 자동화하고, 오류 분석·수정, 배포, 인프라 생성, 인시던트 대응까지 수행할 수 있습니다. AWS와 Cisco는 이를 실제 환경에서 구현하여 플랫폼 팀의 업무를 대폭 줄이고 실시간 운영 자동화를 달성하였으며, Cisco는 이러한 구조를 CAPE라는 오픈소스로 공개해 누구나 활용할 수 있도록 했습니다.

Building agentic AI platform engineering solutions with open source

플랫폼 엔지니어링에 AI를 결합해 운영 자동화와 개발자 생산성을 극대화하는 방법에 대해 소개합니다.

1. 플랫폼 엔지니어링의 현실과 AI 필요성

1-1. 플랫폼 엔지니어링의 목적

  • 플랫폼 엔지니어링은 개발자가 더 빠르게 배포하고 더 안전하게 운영하도록 지원하기 위한 조직적·기술적 기능입니다. CICD, 개발자 포털(Backstage), 모니터링, 표준화된 인프라 등을 제공해 개발 팀의 속도와 품질을 확보하는 것이 핵심 목표입니다.

1-2. 현재 겪고 있는 문제

  • 실제 플랫폼 팀은 조직 내에서 ‘지원 창구’ 역할로 전락하기 쉽습니다. 개발자가 문의하는 질문을 처리하고, 배포 파이프라인 오류를 도와주고, 권한 및 인프라 요청을 처리하는 데 많은 시간을 쏟습니다. 이 과정에서 문서화 부족, 복잡한 Kubernetes/CI/CD 구성, 과도한 기술 선택지로 인한 인지 부담이 겹치면서 플랫폼 팀은 운영에 묶이고, 정작 플랫폼 자체를 개선하는 시간은 사라집니다. 결국 플랫폼이 의도한 효과를 발휘하지 못하고, 개발자 경험도 나빠지는 악순환이 시작됩니다.

1-3. AI가 해결할 수 있는 영역

  • AI는 개발자가 실제로 일하는 공간(IDEs, CLI, Slack/Webex, Backstage 등)에서 실시간으로 도움을 줄 수 있습니다. 단순한 답변을 넘어, 오류 분석, 코드 수정, 배포 정책에 맞춘 리소스 수정, PR 생성, 승인 기반 자동 배포까지 수행할 수 있습니다. AI가 “추천”을 넘어 “실행 + 검증 + 승인 요청”까지 가능해지면 플랫폼은 더 이상 병목이 아니라, 생산성 가속 장치가 됩니다.

2. AI 도입을 가능하게 하는 핵심 기술 구조

2-1. Model Context Protocol(MCP)의 역할

  • MCP는 AI가 실제 시스템과 정보를 조회하고 행동하게 만드는 표준 프로토콜입니다. 이를 통해 AI는 Kubernetes 상태, ArgoCD 동기화 상태, GitHub PR, AWS API, 비용 정보 등을 직접 조회하고 실행할 수 있습니다. 이 기술은 AI가 단순히 추론하는 것을 넘어서 조직 플랫폼에서의 운영 주체가 되는 기반이 됩니다.

2-2. Agent-to-Agent(A2A) 프로토콜의 필요성

  • 운영 업무는 단순하지 않습니다. CI/CD, 보안 검사, 인시던트 대응, 인프라 프로비저닝 등은 각각 전문성을 필요로 합니다. 이를 단일 AI가 수행할 경우 도구 선택과 추론이 불안정해집니다. A2A는 서로 다른 역할의 AI들이 협력하도록 지원해 ‘전문 에이전트 팀’을 구성할 수 있도록 합니다. 이를 통해 특정 AI는 CI/CD만, 또 다른 AI는 Kubernetes 분석만, 또 다른 AI는 GitHub 변경을 담당하게 됩니다.

2-3. 멀티 에이전트 아키텍처의 성과

  • 각 AI가 자신의 전문 영역만 수행하고, 여러 AI가 협력하여 문제를 해결함으로써 AI는 조직 내 플랫폼 엔지니어의 역할을 안전하게 분리해 수행할 수 있습니다. 이를 통해 해석 오류, 도구 호출 실패, 과도한 비용 소모를 최소화하고, 더 안정적으로 운영을 자동화할 수 있습니다. 

3. 실제 사례: AWS + Cisco Outshift 운영 자동화

3-1. 파이프라인 오류 자동 분석 및 수정

  • 개발자가 CLI에서 파이프라인 실패 원인을 묻기만 하면, AI가 CodePipeline/ArgoCD/Kubernetes 이벤트/최근 commit을 모두 분석해 원인을 찾고, YAML 오류(리소스 limits/requests 불일치)를 직접 수정하고, 수정된 PR 생성 또는 자동 승인까지 처리합니다. 이는 사람이 오류 원인을 파악하고 수정을 완료하는 과정 전체를 AI가 대신한 사례입니다.

3-2. 개발 환경(예: EC2) 자동 생성

  • 과거에는 Jira로 요청을 올리고, 담당자 확인을 기다리고, 여러 번의 문답을 거쳐 EC2 또는 클러스터를 발급받았습니다. AI 적용 후에는 개발자가 요청 의도를 간단히 말하는 것만으로 AI가 필요한 정보(계정, OS, 프로젝트 등)를 되묻고, 스스로 승인 절차와 GitOps까지 진행해 몇 분 안에 개발 환경을 제공합니다. 이전에 반나절 이상 소요되던 작업이 즉시 완료됩니다.

3-3. 인시던트 대응 자동화

  • AI는 PagerDuty 일정, Jira 이슈, 알림과 로그를 자동으로 조회해 담당자 정보, 미해결 티켓, 상황 요약을 실시간 생성합니다. 일밤을 샌 SRE가 아닌 AI가 아침에 팀을 대신 깨우는 것입니다. 이는 플랫폼 팀의 운영 부담을 실질적으로 줄이고, 인시던트 처리 품질과 응답 속도를 동시에 높입니다.

4. CAIPE: AI 기반 플랫폼 엔지니어링 오픈소스

  • Cisco는 이러한 경험을 CAPE라는 오픈소스로 제공했다. CAIPE는 지식 기반, 멀티 에이전트, MCP/A2A 연동, Backstage AI 챗 UI, GitOps 기반 승인, OpenTelemetry 기반 추적 등을 포함해, 실제 운영 가능한 플랫폼 AI 시스템을 그대로 구현할 수 있니다. 기업은 CAIPE를 기반으로 자체 정책과 도구를 결합해 자신만의 AI 운영 플랫폼을 만들 수 있습니다.

5. 도입 시 주의 사항

  • AI는 운영 권한을 갖게 되므로, 사람과 동일하게 RBAC, 감사 로그, 승인 절차가 필요합니다. 또한 LLM 변경, 에이전트 추가는 동작 변화를 유발할 수 있어 CI/CD 개념을 AI에도 도입니다. 지식이 부족하면 AI의 답변 품질이 떨어지므로, 조직 문서·플레이북·채팅 기록 등을 정리해 AI에게 제공하는 것이 성과의 핵심이 됩니다.

6. 결론

  • AI는 코드를 “대신 작성하는 도구”가 아니라, 플랫폼 운영의 “팀 동료”입니다. 플랫폼 엔지니어링과 AI를 결합하면 개발자 경험을 극대화하고, 운영 업무를 자동화하며, 조직 전체의 혁신 속도를 높일 수 있습니다. CAIPE와 MCP/A2A 기반의 멀티 에이전트 구조는 이를 현실로 만들기 위한 실질적인 방법을 제시합니다.