안녕하세요, Cloud & ​​​​AI 매니지드 서비스 전문 기업 베스핀글로벌입니다.
AWS re:Invent 2024의 [Introduction to AWS storage: Building a data foundation in the cloud]을 확인해보시기 바랍니다.

☑️ Keynote

세션명 Introduction to AWS storage: Building a data foundation in the cloud
세션코드 STG101
발표일자 2024.12.03
강연자 Rajesh Vijayaraghavan, Rohan Thomas, Boris Alexandrov
키워드
1. AWS 스토리지 포트폴리오의 상위 수준 개요
2. Enterprise 고객의 어플리케이션 클라우드 이관 방법 및 사례 
3. 데이터 레이크를 이용한 데이터 중앙 집중화
4. AI, ML을 위한 클라우드 스토리지
5. 데이터 보호
 
핵심 내용
1. AWS 스토리지 서비스에 대한 기초적인 이해
2. 클라우드로의 전환이 주는 이점
3. 다양한 고객들이 데이터의 양과 복잡성을 해결하기 위한 클라우드 솔루션 구현 방법
4. 데이터 보호, 효율적인 비용 절감, 애플리케이션 개선을 위한 다양한 서비스, 워크로드
5. AWS의 스토리지 솔루션이 비즈니스 혁신과 경쟁력을 높이는 방법

Introduction to AWS storage: Building a data foundation in the cloud

AWS 스토리지 서비스의 기본 개념과 클라우드에서 데이터 기반을 구축하는 방법에 대해 소개합니다.


1. AWS 스토리지 포트폴리오 개요

1-1. AWS 스토리지 개요

  • 데이터는 비즈니스의 핵심이며, 비즈니스는 여러 조직에서 많은 데이터를 생성합니다.
  • 데이터의 규모와 증가로 인해 보안 비용 및 규정을 관리하는 데 어려움이 발생합니다.
  • 데이터의 가치를 활용하기 위해 이러한 어려움을 해결하고 계속해서 대처가 필요합니다.
  • 데이터 통찰력을 통해 비즈니스와 의사결정에 활용하도록 애플리케이션을 구축하고 실행하고 있습니다.

1-1-1. 데이터 저장 서비스 (Data storage)

  • Amazon EBS(Elastic Block Store) : 고성능 블록 스토리지 서비스
  • Amazon S3(Simple Storage Service) : Object 저장 및 액세스를 위한 서비스
  • Amazon FSx Family, Amazon EFS(Elastic File System) : 완전 관리형 File Storage 서비스

1-1-2. 데이터 이동을 돕는 서비스 (Data motion)

  • AWS Transfer Family : 쉽고 안전하게 데이터 공유 (SFTP, FTP 등 파일 프로토콜 지원)
  • AWS Snowball : AWS 데이터 이동을 가속화
  • AWS Storage Gateway : 온프레미스 어플리케이션에 무제한 클라우드 스토리지 제공
  • AWS DataSync : 온프레미스, AWS 스토리지 간 데이터 전송을 단순화, 가속화

1-1-3. 데이터 보호 (Data protection)

  • AWS Backup : 데이터 보호를 중앙에서 관리 및 자동화
  • AWS Disaster Recovery : 확장 가능하고 비용 효과적인 애플리케이션 복구 방법을 제공
  • Amazon EBS 스냅샷 : 특정 시점 복원을 위한 다양한 스냅샷 기능 제공
  • 스토리지 서비스는 다른 AWS서비스와 통합되어 분석, 기계 학습, 고성능 컴퓨팅 및 시각화와 같은 비즈니스 결정 지원 작업을 가능하게 합니다.

1-1-4. 업무에 데이터 활용 (Data at work)

  • 많은 고객들은 데이터를 활용하고 비즈니스 결정을 내리기 위해 AWS가 제공하는 스토리지 서비스(데이터 저장, 데이터 이동, 데이터 보호 등)를 다른 AWS 서비스와 통합하여 분석, 기계 학습, 시각화, 고성능 컴퓨팅 및 스트리밍 등 워크로드를 실행하는 데 활용하고 있습니다.

1-2. 고객의 데이터 활용 사례

  • 고객들은 애플리케이션을 AWS로 마이그레이션 시, 일반적으로 lift-and-shift 방식으로 이관합니다.
  • 마이그레이션 후 추가 서비스와 혁신을 활용하여 애플리케이션을 현대화 및 개선 작업을 지속합니다.
  • 많은 고객들이 백업 및 복구가 실제 서비스를 클라우드에 적용하는 것보다 상대적으로 위험성이 적고 서비스와 연관성이 적기 때문에 현대화 및 개선 작업을 먼저 진행하는 경향이 있습니다.
  • 10,000명이 넘는 고객이 데이터 사일로를 통합하고 불필요한 데이터 이동을 없애기 위해 S3를 활용하여 데이터 레이크를 구축하고 있습니다.
  • S3는 데이터 이동의 어려움을 극복하기 위해 선택되고 있으며, S3를 통해 AI 및 ML을 활용하여 데이터에서 통찰력을 도출할 수 있는 기반을 갖출 수 있습니다.

2. Enterprise 고객의 어플리케이션 클라우드 이관 및 활용 사례

2-1. 비즈니스에 중요한 어플리케이션을 AWS 클라우드로 이전

  • 기업들은 ERP 솔루션, 데이터베이스, 콘텐츠 관리 시스템을 클라우드로 이전하는 방식으로 시작합니다.
  • 많은 고객은 수년 동안 온프레미스에서 애플리케이션을 운영한 후, 이를 클라우드로 이전하고 리팩토링을 진행하는 과정을 겪습니다.
  • 클라우드 이전 과정에서 고객들은 비용을 절감할 수 있었으며, 여러 사용 사례를 통해 이점을 강조합니다.
  • 다양한 산업의 조직들이 날마다 애플리케이션을 AWS로 이전하고 있으며, 이 과정에서 비즈니스의 핵심 애플리케이션도 포함됩니다.
  • 고객들은 주로 비용 절감, 혁신 촉진, 고객 경험 개선, AWS와의 더 나은 스케일링을 목표로 하며, 보안 수준 또한 향상되었습니다.

2-2. 클라우드에서의 구조화된 애플리케이션 실행 예시

2-2-1. 데이터베이스 워크로드(MSSQL, SAP, Oracle) - SQL 서버
​​​​​

  • 완전 관리형 방식으로 RDS는 수요에 따라 간편하게 설정, 운영 및 확장이 가능하며, 프로비저닝, 구성, 백업 및 패치 적용과 같은 데이터베이스 관리 작업을 자동화하여 고객이 데이터베이스를 관리할 필요가 없습니다.
  • Standalone 방식으로 온프레미스 환경의 데이터베이스를 리프트 앤 시프트 방식으로 마이그레이션하여 고객은 필요에 따라 확장할 수 있습니다.
  • 상시 Failover 클러스터 방식에서는 장애 조치 클러스터가 필요한 경우 EBS나 FSx를 사용하여 HA 구성이 가능할 수 있으며, FSx를 활용하는 경우 완전히 관리되는 파일 시스템으로 고객의 복잡성을 줄일 수 있고, 대부분의 경우 고객은 SQL 표준 라이선스만으로 문제를 해결할 수 있습니다.
  • 상시 가용성 그룹 방식으로 더 높은 가용성을 위해 클러스터를 가용성 영역 전체에 배포할 수 있는 상시 가용성이 필요한 경우 SQL Enterprise 라이선스를 사용해야 합니다.

2-2-2. AWS에서 VMware 워크로드

  • 온프레미스에서 VMware 환경에서 워크로드를 사용하는 고객은 VMware 환경의 구성요소들을  AWS 환경의 서비스로 매핑하여 구성이 가능합니다. 
  • vCenter, NSX Manager vs AWS Console
  • VM vs Amazon EC2
  • NSX Virtual Distributed Switch vs Amazon Virtual Private Cloud
  • vSphere Cluster with vSAN vs Amazon Elastic Block Store(EBS), Amazon FSx for NetApp ONTAP

2-3. 고객 사용 사례 : Salesforce.com과 FSX 활용

  • Salesforce.com은 EBS를 활용하여 데이터베이스 환경에서 많은 애플리케이션 use case를 처리해 왔습니다.
  • 저지연 및 높은 성능을 요구하는 MongoDB 배포를 위해 GP2 블록 스토리지를 SAN으로 전환했습니다.
  • 이 전환으로 인해 머신러닝 예측이 더 빠르게 이루어졌으며, 애플리케이션 성능에 영향을 주지 않았습니다.
  • Salesforce는 ML 워크플로우를 통해 고객에게 더욱 개인화된 경험을 제공할 수 있었습니다.

2-3-1. FSX 서비스와 파일 기반 애플리케이션

  • 고객은 주로 파일 기반 애플리케이션을 위해 Amazon FSx 서비스를 사용하고 있으며, 이들 애플리케이션은 주로 온프레미스에서 시작되어 클라우드로 이동합니다.
  • FSx는 사용자가 친숙한 API와 기능을 제공하여 온프레미스에서 배포와 유사한 환경을 유지할 수 있게 합니다.
  • 고객은 FSx 덕분에 데이터 보호와 비즈니스 연속성, 재해 복구 등의 중요 요구사항을 해결할 수 있습니다.

2-3-2. FSx의 이점 및 효율성

  • AWS의 완전 관리형 파일 스토리지를 사용하면 고객은 비용 절감과 빠른 시장 출시를 경험하게 됩니다.
  • 고객은 용량 계획, 네트워크 및 하드웨어 백업, 여러 공급업체와의 조달 문제 같은 과정을 신경 쓸 필요가 없습니다.
  • 클라우드로 이동하면서 기존 시스템의 재구성이나 직원 재교육의 필요성이 없어지며 쉽게 마이그레이션할 수 있습니다.

2-3-3. 사례 연구 : Pearson의 성공적인 클라우드 전환

  • 교육 분야의 Pearson은 FSx for NetApp ONTAP을 통해 ERP 애플리케이션의 민첩성과 성능을 높였습니다.
  • FSx 도입 후 실시간 데이터 백업 및 가상 복제를 통해 덕분에 공급망 배치 프로그램을 세 배 더 빨리 수행할 수 있었습니다.
  • 스토리지 관리에서 50%의 용량 절감과 함께 테스트에서 생산 환경으로의 전환도 두 달 이내에 이루어졌습니다.

2-3-4. Amazon EFS를 이용하여 모던 어플리케이션 구축

  • 모던 애플리케이션은 멀티 테넌트 SaaS 애플리케이션을 컨테이너 및 서버리스 환경에 배포하고 있습니다.
  • EFS(Elastic File System)는 완전 탄력적이며, 프로비저닝이 필요 없고, 비용 효율적이며, 어디서나 접근이 가능한 장점을 가지고 있어 광범위한 사용 사례를 갖고 있습니다.

2-3-5. 사례 연구 : Ancestry가 Amazon EFS를 활용하여 유전 데이터의 인사이트를 가속화

  • 고객 Ancestry DNA 과학팀은 Storage와 Computing 리소스를 신속하게 확장할 수 없었으며, 지속적인 모니터링, 프로비저닝, 미래 요구사항을 예측하기 위한 사전 계획이 필요했습니다.
  • 온프레미스의 워크로드를 AWS로 이전하고, 여러 팀의 과학자들이 동시에 유전체 연구를 수행할 수 있도록 온디멘드 EC2와 완전 관리 파일 스토리지인 EFS를 통해 환경을 구축하여 컴퓨팅 및 스토리지를 유연하게 조정할 수 있는 환경을 마련했습니다.

3. 데이터 레이크를 이용한 데이터 중앙 집중화

3-1. 데이터 레이크 구축의 중요성

  • 데이터 사일로 문제를 해결하기 위해 고객들은 조직 내 데이터를 중앙 집중화하기를 원하고 있습니다.
  • 데이터 레이크는 대량의 데이터를 중앙 저장소에 저장하고, 이를 다양한 그룹이 분류, 분석, 활용할 수 있도록 지원하는 아키텍처 패턴입니다.
  • 데이터 레이크는 데이터 사이언스와 기계 학습을 포함해 다양한 유형의 데이터를 저장하고 분석할 수 있도록 합니다.

3-2. S3를 데이터 레이크 구축에 활용 시 장점

  • 데이터를 입력하는 다양한 방법을 지원합니다.
  • 데이터를 이동하지 않고도 쿼리 및 처리가 가능합니다.
  • 광범위한 분석 및 머신러닝 도구와 통합됩니다.
  • 최고 수준의 보안, 규정 준수, 감사 기능을 제공합니다.
  • 지능형 계층화를 통해 비용 최적화를 실현합니다.

3-3. Sweetgreen의 데이터 호수 구축과 비용 최적화

  • Sweetgreen은 31개의 데이터 소스를 중앙 집중식으로 관리하기 위해 S3에 데이터 레이크를 구축하였으며, 현재 100테라바이트 이상의 데이터를 저장하고 있습니다.
  • California Consumer Protection Act(캘리포니아 소비자 보호법) 규정을 준수하기 위해 EMR Spark를 활용하여 데이터를 익명화하고 집계하고 있습니다.
  • S3 Intelligent Tiering 기능을 통해 데이터 접근 빈도에 따라 스토리지 클래스를 자동으로 변경하여 비용을 최적화할 수 있으며, 이 기능을 통해 고객들은 40%에서 68%까지 비용을 절감할 수 있었습니다.
  • Binder는 S3 Intelligent Tiering을 활용하여 비용을 65% 줄이면서도 성능 저하 없이 인공지능 기반의 데이터 관리 솔루션을 제공하고 있습니다.


4. AI/ML을 위한 클라우드 스토리지

  • 고객들은 클라우드 스토리지를 통해 AI 및 ML 작업을 손쉽게 수행하고 있으며, 이는 데이터 레이크와 밀접하게 관련되어 있습니다.
  • 기초 모델을 활용하면 매번 새로운 모델을 만드는 수고를 덜 수 있으며, 이미 훈련된 수십억 또는 수조 개의 매개변수를 활용해 특정 작업에 맞게 미세 조정할 수 있습니다.
  • AWS Storage 서비스를 기반으로 하는 데이터 파이프라인은 머신러닝을 위한 준비, 구축, 훈련, 배포 및 관리의 모든 과정에 걸쳐 활용되며, 인간과 머신러닝 간 상호작용이 반복적으로 이루어집니다.
  • AI 및 ML의 훈련을 위해 GPU와 CPU를 활용합니다.
  • GPU와 CPU의 유휴 시간을 가지게 하는 것은 비용 효율성이 낮고 훈련에 소요되는 시간을 늘립니다.
  • 훈련 시간을 단축시키기 위해 I/O 및 Throughput 병목현상을 해결해야 합니다.
  • S3와 FSX for Lustre의 결합으로 데이터 접근 속도가 향상되고 GPU 자원을 효율적으로 활용할 수 있습니다.
  • Adobe는 자체적인 기초 생성형 AI 모델을 개발하여 창의적 사용 사례에 맞게 맞춤화하고, 오픈소스 모델에 의존하지 않기로 결정했습니다.
  • 또한 Adobe Stock과 같은 콘텐츠 마켓플레이스의 자체 데이터를 사용하여 모델을 훈련시키는 과정에서 지적 재산권 문제를 회피할 필요가 있었습니다.
  • Adobe는 AWS 환경에 Amazon EC2(GPU 기반 컴퓨팅 인스턴스), Amazon EKS, Amazon S3, Amazon FSx for Lustre를 기반으로 AI 모델 훈련 플랫폼과 데이터 파이프라인을 개발하여 모델을 빠르게 반복할 수 있는 환경을 구축했습니다.
  • Amazon S3를 Adobe의 방대한 데이터를 위한 데이터 레이크로 사용하고, Amazon FSx for Lustre는 고성능 파일 시스템으로 데이터 접근 속도를 극대화하여 GPU 리소스의 비효율적인 사용을 방지할 수 있었습니다.






5. 데이터 보호 전략

5-1. 데이터 보호 개요

  • 데이터 보호는 중요한 데이터를 손상 및 손실로부터 보호하고, 데이터를 정상적인 기능을 제공할 수 있는 상태로 복원하는 프로세스입니다.
  • 이는 모든 클라우드 전략에서 중요한 요소이며, 고객의 규모에 관계없이 비즈니스 영속성을 보장하기 위해 반드시 필요합니다.
  • 데이터는 계속해서 증가하며 엄청난 가치를 지니고 있으며, AI, LLMs, Gen AI를 촉진합니다.
  • 데이터는 재해 복구, 비즈니스 서비스 영속성, 규정 준수를 위한 보호와 거버넌스를 필요로 합니다.
  • 이를 위해 데이터 보호 정책과 운영을 위한 규정 준수에 대한 통찰력 및 분석이 우선되어야 합니다.
  • 고객은 클라우드 애플리케이션 데이터를 대규모로 백업하거나 보호할 수 있는 간단하고 비용 효율적이며 중앙 집중화된 방법이 필요합니다.

5-2. AWS Backup

  • AWS Backup은 복잡한 환경에서 데이터를 보호하고 복원할 수 있는 비용 효율적이고 중앙화된 방법을 제공합니다.
  • 여러 서비스에서 필요로 하는 백업 활동의 구성 관리 및 거버넌스를 설정하고 완전 관리형 백업을 수행할 수 있습니다.
  • 태그를 지정하고 백업 정책을 생성하며, 백업 계획을 통해 백업 요구사항을 충족할 수 있습니다.
  • Santos Limited는 호주에서 두 번째로 큰 독립 석유 및 가스 생산업체로, Lambda 스크립트를 통해 EBS Volume을 백업하도록 예약했으나, 백업에 대한 가시성을 확보하지 못했습니다.
  • 또한, 백업에 문제가 발생하더라도 문제의 원인을 파악하기 위해 많은 시간을 소비해야 했습니다.
  • 서로 다른 인프라에서 수동 스크립트를 통해 백업을 수행하기 위해 스크립트를 다시 작성하거나 변경해야 했고, 이로 인해 운영 부담이 가중되었습니다.
  • AWS Backup을 통해 EBS 스냅샷을 관리하여 운영 비용을 약 50% 절감하고, 백업 정확도를 100%로 향상시켰습니다.
  • Santos Limited는 AWS Backup을 사용하여 데이터 보호 정책을 중앙에서 집행하고, 백업 계획을 통해 다양한 컴플라이언스 요구 사항을 충족할 수 있었습니다.
  • 이를 통해 백업 관리에 필요한 인력을 줄이고, 가시성을 확보하여 보고서를 검토하지 않고도 21,000개의 EBS 스냅샷을 모두 확인할 수 있었습니다.
  • AWS Backup 방식을 변경함으로써 생산성을 높이고, 백업에 필요한 시간을 약 80% 줄이며, 더 이상 필요하지 않은 버전의 백업 데이터를 제거하여 운영 비용을 약 50% 절감하고 스냅샷의 정확도를 100%로 높일 수 있었습니다.


​​​​