
1. Why Observability Matters
1-1. AI 에이전트 행동의 불투명함
대형 언어 모델(LLM)을 기반으로 한 AI 에이전트는 내부적으로 어떻게 결정을 내렸는지 외부에서 알기 어렵습니다. 이 때문에 문제가 생겼을 때 원인 파악이 힘들고, 결과의 신뢰성과 일관성을 보장하기 어렵습니다.

1-2. 운영 환경에서 안정적인 동작이 필요
프로덕션 환경에서 AI 에이전트를 운영하려면 단순히 “잘 작동하는 것처럼 보이는 답”이 아니라,
- 어떤 입력을 받았고,
- 어떤 과정을 거쳐서 결정을 내렸으며,
- 어떤 도구나 리소스를 호출했는지
이런 과정이 기록되어야 합니다. 그래야만 문제 해결, 품질 개선, 성능 최적화가 가능하기 때문입니다.

1-3. 투명한 추적으로 개선
AI 에이전트의 전체 행동 흐름(프롬프트, 툴 호출, 응답 과정 등)을 추적하면:
- 사용자가 의도한 결과와 실제 결과 사이의 괴리를 분석할 수 있고,
- 에이전트가 비효율적으로 동작하는 부분을 찾아내어 개선할 수 있습니다.
이러한 추적 및 분석 과정 자체가 에이전트를 계속 발전시키는 방법이 됩니다.

2. Build & Deploy with AWS Strands + AgentCore
2-1. Strands Based 형태로 Agent 설치
에이전트의 목적, 프롬프트 흐름, 도구 사용 등을 정의하고 실행 과정 전체를 추적 가능한 구조로 만듭니다.

2-2. AgentCore
해당 에이전트를 프로덕션 서비스로 배포하고 스케일링, LLM 호출 관리, 보안, API 제공 등 운영 기능을 맡기며
안정적으로 실행되게 합니다.

3. The AWS Generative AI Well Architected Lens
3-1. 안정적인 생성형 AI시스템을 위한 6대원칙
- 안정성(Reliability)
- 보안(Security)
- 비용 최적화(Cost Optimization)
- 성능 효율성(Performance Efficiency)
- 운영 우수성(Operational Excellence)
- 지속적 개선(Sustainability)

3-2. LLM 기반 에이전트에 적용할 때의 체크포인트
- 프롬프트 관리
- 모델 선택 및 버전 관리
- 데이터 품질 및 안전성
- Guardrails(안전장치) 적용
- 관찰성(Observability) 확보
- 책임 있는 AI(Responsible AI) 고려

3-3. Strands + AgentCore + Datadog 구조가 Lens 기준을 충족하는 방법 설명
- 추적 가능성 확보
- 보안 정책 적용
- 성능/비용 모니터링 가능
- 운영 품질 지속 개선 가능

4. Operationalizing the Generative AI Lens with Datadog
4-1. LLM Observability 구현 - Datadog의 LLM Observability 기능 활용
- 프롬프트 흐름
- 모델 응답
- 툴 호출
- 토큰 사용량
- 에러로그
등을 엔드투엔드로 추적하여 Lens에서 요구하는 “운영 우수성·투명성·품질관리”를 충족시킵니다.

4-2. 성능/비용 최적화 – Datadog 메트릭
- 모델별 latency
- token 비용
- 호출량 증가 패턴
- 비효율적인 체인/에이전트 단계
등을 분석하여 성능 효율성 및 비용 최적화 기준을 실무에서 적용합니다.

4-3. 보안/프라이버시 거버넌스 적용 – Datadog
- 민감 데이터 접근 감시
- Guardrails 위반 탐지
- 비정상적인 에이전트 행동 모니터링
등을 감시하여 보안(Security) 및 책임 있는 AI(Responsible AI) 요구 사항을 충족시킵니다.

4-4. 품질 개선의 지속적 루프
에이전트의 추론 실패나 품질 저하 현상을 Datadog에서 자동 탐지하고, Strands/AgentCore와 연계해 지속적으로 에이전트 품질을 개선하는 구조를 구축합니다.

|