 |
|
안녕하세요, AI 서비스 & 솔루션 프로바이더 베스핀글로벌입니다.
AWS re:Invent 2025의 [Build Enterprise AI Apps Faster: Amazon Bedrock's Multimodal Solutions]을 확인해보시기 바랍니다.
|
☑️ Keynote
| 세션명 |
Build Enterprise AI Apps Faster: Amazon Bedrock's Multimodal Solutions |
| 세션코드 |
AIM3341 |
| 발표일자 |
2025.12.03 |
| 강연자 |
Anushri Mainthia, Nini Ren, Tyler Strand |
| 키워드 |
1. Amazon Bedrock Data Automation (BDA)
2. Multimodal Content (멀티모달 콘텐츠)
3. Single API (단일 API)
4. Intelligent Document Processing (지능형 문서 처리)
5. Custom Blueprints (맞춤형 설계도)
6. Agentic Workflows (에이전트 워크플로우) |
| 핵심 내용 및 요약 |
ㆍAmazon Bedrock Data Automation (BDA)을 통해 기업이 직면한 멀티모달 콘텐츠(이미지, 비디오, 문서, 오디오) 처리 문제를 해결하고, AI 애플리케이션 구축 속도를 높이는 방법을 소개합니다. 특히, BDA는 단일 API를 제공하여 복잡한 오케스트레이션과 모델 선택 없이도 모든 유형의 모달리티를 효율적으로 처리하고, 맞춤형 스키마 및 감사 가능성(Auditability)을 제공합니다. |
|
Build Enterprise AI Apps Faster: Amazon Bedrock's Multimodal Solutions
|
1. 멀티모달 콘텐츠의 도전 과제
기업 콘텐츠의 80%는 이미지, 문서, 비디오, 오디오 파일 등 비정형 멀티모달 콘텐츠입니다.
지능형 문서 처리(intelligent document processing)와 같은 솔루션을 구축하려면 이러한 비정형 데이터를 다운스트림 애플리케이션에 사용할 수 있는 형식으로 변환해야 하는데, 현재 20%의 조직만이 이러한 규모를 활용할 수 있습니다.
주요 어려움은 다음과 같습니다:
- 콘텐츠 유형의 다양성: 보험 청구처럼 문서, 양식, 비디오, 사진 등 모달리티를 넘나드는 다양한 유형의 콘텐츠를 관리해야 합니다.
- 정확도와 감사 가능성: 수십만, 수백만 건의 콘텐츠를 효율적으로 처리하면서 필요한 정확도를 확보하고, 특히 GenAI(생성형 AI) 기반 통찰력이 생성될 때 무엇이 사용되었는지 추적할 수 있는 감사 가능성을 확보하는 것이 어렵습니다.
- 복잡한 오케스트레이션 및 유지보수: 여러 서비스와 인터페이스를 배워야 하며, 데이터 변환 및 통합 작업을 직접 수행해야 하므로 시간 소모적이고 지루합니다.

|
2. Amazon Bedrock Data Automation (BDA)의 역할
BDA는 이러한 멀티모달 콘텐츠 문제를 해결하기 위한 AWS의 솔루션입니다.
- 단일 API 인터페이스: BDA는 이미지, 문서, 비디오, 오디오를 처리할 수 있는 단일 API를 제공합니다,. 사용자는 원하는 결과(Output)를 지정하기만 하면, BDA가 오케스트레이션, 사용할 FM(Foundation Model) 결정, 라우팅 등을 대신 처리합니다.
- 맞춤형 출력 및 스키마: BDA를 통해 사용자는 출력 형식을 맞춤 설정하고 자신의 스키마를 정의할 수 있습니다. 이를 통해 다운스트림 시스템(예: 데이터베이스)에 필요한 형태(예: 특정 7개 컬럼)로 정규화 및 변환을 지정할 수 있습니다.
- 감사 및 책임 있는 AI: BDA는 신뢰도 점수(confidence scores)를 제공하며, 통찰력이 도출된 실제 자산(페이지 번호, 대화 내 위치 등)에 근거(grounding)를 제공하여 감사 가능성(auditability)을 높입니다.

|
3. BDA의 주요 활용 사례
BDA는 다양한 기업 활용 사례에 사용될 수 있습니다:
- 지능형 문서 처리 및 검색 (IDP): 보험 청구, 대출 처리 등 대량의 문서를 신속하게 처리하여 정보 추출 및 통찰력을 생성합니다.
- 지능형 검색 분석: 콜센터 분석처럼 단순한 스크립트를 넘어 통화의 톤, 고객 불만 시점, 상담원의 전환 성공 시점 등의 통찰력을 규모에 맞게 제공합니다.
- 미디어 분석 및 콘텐츠 발굴: 광고 대행사가 수백 개의 비디오에서 특정 이미지(예: 펭귄이 나오는 1984년 크리스마스 광고)를 검색할 수 있도록 일반화된 출력과 특정 출력을 제공합니다.
- 에이전트 워크플로우: BDA는 에이전트 호출에서 사용할 수 있는 멀티모달 콘텐츠 처리 도구 역할을 합니다.

|
4. BDA 작동 방식 및 출력 옵션 (시연 요약)
BDA API 호출 시, 자산(Asset)과 프로젝트(Project)라는 두 가지를 제공합니다. 프로젝트는 원하는 출력을 명시하는 부분입니다.
- 표준 출력(Standard Output): 모달리티별로 최적화된 표준 출력 옵션 중에서 선택할 수 있습니다. 예를 들어, 문서의 경우 일반 텍스트, HTML, 마크다운 중 출력 형식을 선택할 수 있으며, 비디오/오디오의 경우 챕터 요약, 콘텐츠 조정(content moderation) 여부 등을 선택할 수 있습니다.
- 맞춤형 출력 (Custom Blueprint): 사용자가 직접 스키마(청사진)를 정의하여 원하는 정보, 형식, 구조를 지정할 수 있습니다. 예를 들어, 챕터 요약은 30~100단어로 간결하게 만들거나, 검색 용이성을 위해 특정 마케팅 용어를 포함하는 '스마트 태그'를 생성하도록 자연어로 지시할 수 있습니다,. BDA는 이 설계도에 맞춰 정확히 필요한 정보를 반환합니다.
- BDA의 처리: BDA는 입력된 파일이 이미지인지, 문서인지 등을 스스로 파악하고, 제공된 청사진에 따라 정보를 반환하며, 선형화된 출력(linearized output)과 감사 가능성을 위한 정보를 제공합니다.
|
5. Air의 BDA 도입 사례 (고객 여정)
클라우드 스토리지 및 크리에이티브 운영 플랫폼인 Air는 8페타바이트의 미디어 데이터와 수억 개의 개별 자산을 관리합니다.
- 도입 배경: Air는 이전에 파일 유형별로 파편화되고 일관성이 부족한 메타데이터 추출 시스템을 관리했으며, 복잡한 오케스트레이션이 필요했습니다.
- BDA의 장점: BDA는 Air에게 단순성(모든 모달리티를 위한 통합 API), 보안(AWS VPC 내 데이터 관리), 비용 효율성을 제공했습니다,. 특히 모델 선택이 추상화되어 Air는 고객 경험 구축에 집중할 수 있었습니다.
- 결과: Air는 BDA를 사용하여 모든 자산에 대한 스마트 요약, 스마트 태그, 챕터 제목, 오디오 스크립트 등을 생성하고, 이를 활용하여 사용자에게 직관적인 검색 경험을 제공하고 있습니다. BDA 도입 이후 1,550만 건 이상의 작업을 신속하게 처리했습니다.

|
6. 새로운 기능 업데이트 (2025년 re:Invent 기준)
- 이미지 처리: 동기식 API 처리가 출시되어 모바일과 같이 반응성이 중요한 사용 사례를 지원하며, 이미지 처리 속도가 약 절반으로 빨라졌습니다.
- 문서 처리: 5개 언어로 지원이 확대되었으며, 향후 다른 모달리티로도 확장될 예정입니다.
- 음성/오디오 처리: 채널 식별 및 화자 분리(speaker diarization) 기능이 추가되어 여러 화자를 감지하고 매핑할 수 있습니다.
- 향후 계획: 90% 이상의 정확도를 달성하기 위해 문서에 대한 Ground Truth 레이블링을 통해 청사진을 최적화하는 기능, 인식 불가능한 사람이나 사용자 지정 개체를 인식하도록 BDA에 이미지를 제공하는 사용자 지정 엔티티 감지 기능이 추가될 예정입니다. 또한, AWS 리전을 15개 이상으로 두 배 확장할 계획입니다.
|
|
|