안녕하세요, AI 서비스 & 솔루션 프로바이더 베스핀글로벌입니다.
AWS re:Invent 2025의 [Observability & Security unite: Unify your data in Amazon CloudWatch]을 확인해보시기 바랍니다.

☑️ Keynote

세션명 Observability & Security unite: Unify your data in Amazon CloudWatch
세션코드 COP361
발표일자 2025.12.04
강연자 Nikhil Kapoor, Avinav Jami, Chandra
키워드 Security, Observability, Audit & Compliance, Log data, Data fragmentation, Plumbing, CloudWatch Logs, CloudTrail, VPC Flow Logs, 3rd-party, Unified log storem, Collect, Curate, Storage, Analytics, Pipelines, OCSF / OELm, Grok Processor, Cross-account, Cross-region, S3 Tables, Facets, SIEM, Distributed centralization / Centralize and distribute
핵심 내용 및 요약 ㆍ조직 내 로그·데이터 파편화 문제
ㆍ문제의 근본 원인: 공통 로그 소스가 각자 다른 스토어로 복제
ㆍCloudWatch를 “통합 로그 스토어”로 쓰게 하는 전략
ㆍ큐레이션 기능 강화 (Pipelines)
ㆍ중앙 저장소 & Cross-account / Cross-region 중앙화
ㆍAnalytics & Insights – Facets, S3 Tables
ㆍS&P Global 사례: 복잡한 파이프라인 → CloudWatch 중심 아키텍처로 단순화
ㆍ권장 아키텍처 패턴과 실무 팁

Observability & Security unite: Unify your data in Amazon CloudWatch

조직 내 로그 분산 문제를 해결하기 위한 CloudWatch 중심의 통합 로그 아키텍처 전략에 대해 소개합니다.

1. 조직 내 로그·데이터 파편화 문제

1-1. 팀·도구·데이터 사일로 

  • 보안팀(Security), 관측/운영팀(Observability), 감사/컴플라이언스(Audit) 팀이 따로 존재합니다.
  • 각 팀은 목적에 맞는 전문 도구를 사용합니다.
    • 보안팀: 전용 시큐리티 분석 도구, SIEM
    • 관측팀: APM, Metrics/Traces/Logs 도구 여러 개
    • 감사팀: 별도의 저장소/분석 시스템
  • 이 자체는 나쁜 것이 아니지만, 실제 사고·장애가 발생하면 문제가 드러납니다. 
  • 보안팀은 방화벽 로그에서 많은 Deny를 보며 공격으로 인지합니다. 
  • 애플리케이션 팀은 트래픽 스파이크만 보고 “고객이 늘었나?” 하고 스케일아웃을 고민합니다. 
  • 서로 다른 도구·로그만 보면서 문제를 엇갈리게 이해 → 빠른 공통 인사이트 부재를 확인합니다. 

1-2. 근본 원인: 로그 소스는 같은데, 저장소·파이프라인이 분리

  • 실제로 쓰는 로그 소스는 거의 동일합니다.
    • AWS 서비스 로그, CloudTrail, 애플리케이션 로그, CrowdStrike/Okta 같은 SaaS 로그 등
  • 그러나 각 팀/툴로 보내기 위해 동일 로그를 여러 번 복제·전송해야 합니다.
    • CloudWatch → Kinesis → S3 → SIEM, 또는 S3에서 또 다른 SIEM, Data Lake로 복제 등
  • 이러다 보면 “거미줄 같은 로그 ETL 파이프라인” 이 생기고, 파이프라인 장애, 재처리(backfill), 버전 관리, 포맷 변경 시 영향 범위가 폭발적으로 커지며, 신규 계정/리전/워크로드 온보딩 때마다 같은 복잡성을 반복합니다. 

1-3. CloudWatch를 통합 로그 스토어로: Collect → Curate → Store → Analyze 

  • AWS 서비스로 로그 수집을 확대합니다. 
    • 이미 65+ 서비스에서 CloudWatch로 바로 로그 수집 가능
    • 여기에 30개 추가 서비스(예: NLB, CloudFront, Bedrock 에이전트 로그 등)를 지원
  • 3rd-party 로그 수집 : Managed Connector 방식으로 CrowdStrike, Okta 등 10개 파트너 로그를 “코드 없이” CloudWatch로 수집합니다. (향후 계속 파트너 확대 예정)
  • 조직 단위(Org-level)로 활성화합니다.
    • CloudTrail, VPC, NLB 등 주요 로그를 AWS Organizations 레벨에서 켜기/끄기 지원
    • 멀티 계정 환경에서 일일이 계정별 세팅을 하지 않아도 되고, 보안·컴플라이언스 요구 사항을 중앙에서 강제할 수 있음

1-4. Curate – 큐레이션(변환·정규화)

  • OCSF & OEL 용 Out-of-the-box Transformer : 보안·옵저버빌리티 표준 스키마에 맞춰 로그 필드를 정규화합니다.
  • Pipelines + Grok Processor : Pipelines 기능을 통해 로그를 흐르게 하면서, 필드 추가/삭제/변환, 문자열 파싱/정규표현식 파서(Grok) 적용, 태그·컨텍스트 필드 추가합니다. (예: 앱 이름, 환경, 팀명 등)
  • source / type 정보 자동/수동 태깅 : CloudWatch가 알고 있는 “데이터 소스/종류” 메타데이터를 로그에 집어넣고, Custom 로그에도 태그를 추가해 “어떤 서비스/애플리케이션의 어떤 타입 로그인지”를 쉽게 필터링 가능, 즉, 리소스명·로그 그룹명 수준을 넘어서 “업무 서비스 단위” 로 분석할 수 있게 만듭니다. 

1-5. Store – 저장 & 중앙화

  • 유연한 보존 정책·버전 관리가 가능합니다. 
  • CloudWatch 중앙화 기능으로 어떤 데이터는 보안·감사 목적 때문에 수년간 보존해야 하고, 어떤 데이터는 운영상 며칠~몇 주면 충분합니다. 
  • Cross-account / Cross-region 중앙화합니다. 
    • 여러 계정·리전의 로그를 규칙 기반으로 단일 계정의 중앙 스토어로 집계
    • 중앙 스토어에 들어갈 때 추가 변환/필터링을 적용해 “보안 버전” 로그를 만들 수 있음
    • 멀티리전의 경우 활성-활성(Active-Active) 백업 아키텍처도 가능

1-6. Analyze – Analytics & Insights

  • S3 Tables 통합합니다. (Apache Iceberg)
    • CloudWatch에 저장된 로그를 Iceberg 테이블로 노출
    • Athena, Redshift, EMR 등 AWS 분석 서비스나 Iceberg 호환 써드파티 도구에서 바로 쿼리 가능
    • CloudWatch 쪽에서는 추가 PUT/복제/스토리지 비용 없이 관리
  • Facets – 차세대 인덱싱을 경험합니다. 
    • 로그 인사이트 페이지에서 쿼리를 작성하기 전에 필드별 값 분포(예: status, errorType, serviceName) 를 GUI로 확인
    • Facet 값 클릭만으로 필터링/드릴다운 → “어디서부터 파야 하지?” 하는 초기 탐색이 매우 쉬워짐
    • 복잡한 쿼리 단계로 들어갈 때는 Query Gen 같은 기능을 함께 사용

 

2. S&P Global 사례: 대규모 멀티계정 로그 아키텍처 개선

2-1. 회사 및 환경 소개

  • 1800년대부터 이어진 금융 데이터·벤치마크 제공 업체로 S&P 500 지수로 유명해졌습니다.
  • 전 세계 50개 오피스, 10개 데이터센터를 보유하고 있습니다.(주로 네트워크·연결용)
  • 멀티리전·다수의 AWS 계정, 수많은 VPC와 리소스 → 로그 데이터 볼륨이 엄청 큽니다. 

2-2. 이해관계자 요구사항 

  • Raw Logs – 중앙 로그 아카이브 계정 : 법무·컴플라이언스: 원본(raw) 로그를 변경 없이, 불변(immutable) 상태로 보존해야 합니다. 
  • Curated Logs – 보안 전용 계정(Security tooling account) : 클라우드 보안팀: 위협 탐지·정책 위반 모니터링에 최적화된 정제된 보안 로그가 필요합니다. 
  • Local Access – 각 비즈니스 유닛 계정 : 애플리케이션/비즈니스 팀: 로컬 계정에서 바로 로그 검색·트러블슈팅 가능해야 합니다. 
  • Security Operations 팀 : Threat Intelligence, Incident Response용으로 특화된 뷰 필요
    - Log querying – 모두의 공통 요구 : 손쉽게 쿼리하고 필요한 로그를 빨리 찾을 수 있어야 합니다. 
  • SIEM 비용 최적화 : 외부 상용 SIEM 사용 중 → 모든 로그를 다 집어넣으면 비용 폭발, 반드시 필요한 이벤트만 선택적으로 SIEM에 인제스트해야 합니다. 

2-3. 기존 아키텍처: 복잡한 CloudWatch Subscriptions + 다수의 S3 버킷 

  • CloudWatch 중앙화 기능을 쓰기 전에는 각 계정(VPC/서비스) 로그 그룹 → 여러 CloudWatch Subscription 으로 중앙 계정 S3 버킷, Security 계정 S3 버킷, SIEM용 S3/Firehose 등으로 복제해야 했습니다. 
  • 각 목적지마다 별도 S3 버킷을 관리해야 하고, 파이프라인마다 에러·재처리·권한 설정·버전 관리를 직접 해야 했습니다. 

2-4. 새로운 아키텍처: CloudWatch-native 중앙화로 단순화 

  • AWS 팀과 협업해 아키텍처를 재설계: CloudWatch 로그 중앙화 기능을 활용해 소스 계정에서 CloudWatch Logs에 들어온 로그를 중앙 계정, 보안 계정 등으로 자동 복제합니다. 
  • 수동으로 짰던 Subscription·Lambda·Firehose 파이프라인 상당수를 제거합니다. 
  • S3 버킷 수와 중간 컴포넌트 수가 크게 감소하였습니다. 
  • “Plumbing이 CloudWatch native로 바뀌었고, 게다가 그 부분은 무료다” 라고 언급하였습니다. 
  • 효과
    • 아키텍처 단순화
    • 운영 비용 및 복잡성 감소
    • S&P 측 추산으로 20–25% 비용 절감 기대
  • Raw Archive 계정(Immutable), Security Tooling 계정, 로컬 계정 접근 모두 구현 성공 → 이해관계자 요구사항을 충족하면서도 단일 아키텍처로 통합합니다. 

2-5. 실무 체크포인트 

  • Aggregate with a plan : “그냥 로그를 다 모으기”가 아니라 어떤 목적(보안, 운영, 컴플라이언스)으로 어디에, 얼마나 오랫동안, 어떤 형태로 저장·집계할지 명확한 전략을 세우고 수집해야 합니다. 
  • Meet your teams where they are
    • 각 팀은 이미 익숙한 도구·워크플로우가 있음
    • “이제부터 이 도구만 써라” 식의 One-size-fits-all 강요는 실패
    • 대신, 공통 로그 스토어를 만들어 데이터를 공유하되, 팀은 자신의 도구에서 그 데이터를 활용할 수 있게 하는 방향
  • Iterative approach
    • 한 번에 모든 계정·리전을 갈아엎기보다 작은 범위에서 시작
    • 경험을 쌓으면서 점진적으로 확장 이 방식이 위험을 줄이고, 조직 내 도입·적응도를 높임

 

3. 배포 모델 & 데모 요약

3-1. 비용 모델 설명

  • 기존 CloudWatch Logs의 세 가지 축은 그대로입니다.
    • Ingestion(수집 데이터 양), Storage(저장 용량), Query(스캔 데이터량)
  • Facets, S3 Tables, Pipelines, Org-level enablement 등은 → 추가 기능 비용 없이 포함됩니다.(기본 요금 안에 들어감)
  • Ingestion 클래스: Standard Class: 인덱스·알람·실시간 분석 등에 최적화되어 있습니다. 
  • Infrequent Access Class: 장기 보존·컴플라이언스용입니다.(비용 1/2 수준, 일부 기능 제한
  • 중앙화(Centralization) 비용
    • 첫 번째 집계본(aggregated copy): 중앙 계정으로 복제 시 추가 ingestion 비용 없음
    • 두 번째 카피부터: ingestion 비용 없이 전송 비용 0.05$ 정도만 각 계정의 Storage/Retention은 독립적으로 과금

3-2. 배포 모델 1 – Distributed Centralization

  • 각 계정에 필요한 로그는 그대로 수집(로컬 팀이 활용) 동시에 중앙 Observability 계정과 Security 계정으로 필요한 로그만 CloudWatch가 Managed 방식으로 복제됩니다. 
    • 로컬 계정: Dev/SRE가 실시간 트러블슈팅에 사용
    • Observability 계정: 전체 서비스 상태를 가로지르는 관측 뷰 
    • Security 계정: 보안·위협 탐지에 최적화
  • 모두 동일 원본 로그를 공유하지만, 각 환경에서 독립적으로 변환·보존 정책·도구를 사용할 수 있습니다.

3-3. 배포 모델 2 – Centralize and Distribute

  • S&P Global이 사용한 모델에 가깝습니다. 
  • 전체 로그를 우선 중앙 계정으로 모은 뒤: 그곳을 “단일 진실 원본(single source of truth)” + 컴플라이언스 아카이브로 사용, 필요한 데이터만 선별·필터링해서 보안 계정, SIEM, 기타 도구로 배포(distribute)합니다. 
  • 멀티 리전일 경우, 중앙화 과정에서 DR(재해복구)용 활성-활성 구성도 가능합니다. 

3-4. 데모 – Facets + CloudTrail 연계 분석

  • 상황: 결제 시스템(PayStream)에서 결제 실패가 발생합니다. 
  • CloudWatch Logs Insights 페이지에서: Facets를 통해 에러 유형, 서비스 이름, 계정/리전을 쿼리 없이 즉시 확인, payment-processor 서비스와 특정 에러 타입에 문제가 집중되어 있음을 발견합니다. 
  • 이후 쿼리를 실행해 어떤 계정/리전에서 결제 실패가 많이 발생하는지 집계, CloudTrail 데이터 소스를 선택해 해당 Lambda 함수 설정이 누군가에 의해 잘못 변경된 것을 찾음, 변경한 사용자 이름이 “Colprit”로 의도적으로 재미있게 설정되어 있습니다.
  • facets로 “어디서 문제를 파기 시작할지” 를 빠르게 좁힌 뒤, CloudTrail처럼 다른 데이터 소스와 연결해 원인 이벤트(설정 변경)를 추적 가능합니다. 

3-5. 데모 – S3 Tables + SageMaker Studio 통합 

  • CloudWatch 로그가 S3 Tables(Iceberg)로 노출되면, SageMaker Unified Studio나 Athena, Redshift 등에서 별도의 복제 작업 없이 같은 데이터를 바로 분석 가능합니다. 
  • SRE/개발자는 CloudWatch에서 문제를 해결합니다.
  • 동시에 Product Manager 등 비기술 팀은 SageMaker Studio에서 같은 로그 데이터를 다른 데이터셋(고객·매출 데이터 등)과 조인해서 “어떤 고객이 영향을 받았는지”, “영향 범위가 어떻게 되는지”를 스스로 분석할 수 있습니다. 
  • 서로 다른 페르소나가 같은 원본 데이터를 다른 도구에서 공유하는 구조입니다. 

3-6. 데모 – 새 로그 관리(Log management) & 데이터 소스 UI

  • 새로운 CloudWatch Logs 관리 페이지: 계정 전체 로그 인제스트량, 저장량, 최근 쿼리, 데이터 보호 정책 등 한눈에 파악, “어디에서 스파이크가 났는지”, “어떤 데이터 소스가 가장 큰 비중인지” 등을 상단 요약에서 확인 가능 합니다. 

  • Data source 기반 경험: VPC Flow Logs / CloudTrail / Bedrock runtime 등, CloudWatch가 자동으로 매핑한 “데이터 소스별”로 로그를 볼 수 있음, 각 데이터 소스마다 기본 스키마(필드 목록)을 보여주고, 여기서 바로 S3 Tables 연동을 켤 수 있습니다. 

  • S3 Tables 연동: 특정 데이터 소스만 선택하여 S3 Tables에 노출하거나, 여러 소스를 한 번에 선택해 통합 테이블로 노출 가능, 한 번 설정하면 이후 들어오는 로그는 자동으로 Iceberg 테이블에 반영합니다. 

 

4. 마무리

4-1. 데이터 파편화는 기술 문제가 아니라 “조직+아키텍처 문제“

  • 팀/도구/스토어가 분리되면서 같은 로그 데이터가 여러 번 복제되고, ETL 파이프라인이 복잡해지며, 인사이트 속도가 느려집니다. 

4-2. CloudWatch를 보안+관측 통합 로그 스토어로 사용하는 방향

  • 수집(Collect) → 큐레이션(Curate) → 저장(Store) → 분석(Analyze)
  • 각 단계에 맞춰 CloudWatch 기능(Managed Connectors, Pipelines, 중앙화, S3 Tables, Facets 등)을 조합합니다. 

4-3. 팀별 도구·워크플로우는 유지하되, 데이터만 한 곳으로 모으는 전략 

  • S&P Global처럼 이해관계자(법무·보안·비즈니스·SecOps·SIEM) 요구를 모두 만족시키면서 아키텍처를 단순화하고 비용까지 줄이는 것이 가능합니다. 

4-4. 배포 모델은 한 번에 “통합 스토어 완성”이 아니라, 빌딩 블록에서 출발합니다.