为充分利用 [Amazon DynamoDB](https://aws.amazon.com/cn/dynamodb/?trk=cndc-detail) 中的运营数据以获取有价值见解,企业常需构建自定义数据管道,这不仅耗时耗力,而且对核心业务贡献低微。
**亚马逊云科技的 [Amazon DynamoDB](https://aws.amazon.com/cn/dynamodb/?trk=cndc-detail) 与 [Amazon SageMaker](https://aws.amazon.com/cn/sagemaker/?trk=cndc-detail) Lakehouse 的 zero-ETL 集成功能应运而生,帮助用户轻松运行分析和[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)工作负载,且不占用 [Amazon DynamoDB](https://aws.amazon.com/cn/dynamodb/?trk=cndc-detail) 表容量**。同时 [Amazon SageMaker](https://aws.amazon.com/cn/sagemaker/?trk=cndc-detail) Lakehouse 可统一用户在 [Amazon S3](https://aws.amazon.com/cn/s3/?trk=cndc-detail) 和 [Amazon Redshift](https://aws.amazon.com/cn/redshift/?trk=cndc-detail) 中的所有数据,实现基于单一数据副本构建强大的分析和人工智能与[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)应用程序。
借助 zero-ETL 集成功能,**用户可较少甚至无需再构建 ETL 数据管道**,即可利用 [Amazon DynamoDB](https://aws.amazon.com/cn/dynamodb/?trk=cndc-detail) 运营数据运行分析和[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)工作负载,并且不影响生产工作流程。
### **开始使用**
本文演示需要将 [Amazon DynamoDB](https://aws.amazon.com/cn/dynamodb/?trk=cndc-detail) 中的数据与 [Amazon SageMaker](https://aws.amazon.com/cn/sagemaker/?trk=cndc-detail) Lakehouse 管理的 [Amazon S3](https://aws.amazon.com/cn/s3/?trk=cndc-detail) 数据湖进行 zero-ETL 集成。在设置 zero-ETL 集成之前,需要完成一些准备条件,您可复制下方链接访问 [Amazon DynamoDB](https://aws.amazon.com/cn/dynamodb/?trk=cndc-detail) 文档页面,了解更多关于如何设置的详细信息。
**[Amazon DynamoDB](https://aws.amazon.com/cn/dynamodb/?trk=cndc-detail)文档:**
https://docs.aws.amazon.com/amazondynamodb/latest/developerguide/amazon-sagemaker-lakehouse-for-DynamoDB.html?trk=cndc-detail
完成所有前提条件后即可开始进行集成。导航到 Amazon Glue 控制台,在“数据集成和 ETL”下选择“zero-ETL 集成”,再选择“创建 zero-ETL 集成”。
![image.png](https://dev-media.amazoncloud.cn/1125272d74db4f49b0a59e0f24fc8e04_image.png "image.png")
这里您可以选择数据源。本文演示选择 [Amazon DynamoDB](https://aws.amazon.com/cn/dynamodb/?trk=cndc-detail),然后点击下一步。
![image.png](https://dev-media.amazoncloud.cn/fa93e93681514d70b75b98b0d96678a2_image.png "image.png")
接下来需要配置源和目标详细信息。本文演示在源详细信息部分选择 [Amazon DynamoDB](https://aws.amazon.com/cn/dynamodb/?trk=cndc-detail) 表,在目标详细信息部分指定在 Amazon Glue 数据目录中设置的 [Amazon S3](https://aws.amazon.com/cn/s3/?trk=cndc-detail) 存储桶。
![image.png](https://dev-media.amazoncloud.cn/e1252dc67cc540bcbcb3468c669b1ca8_image.png "image.png")
为了设置此集成,需要一个 Amazon IAM 角色授予 Amazon Glue 必要的权限,有关配置 Amazon IAM 权限的指导,请复制下方链接访问 [Amazon DynamoDB](https://aws.amazon.com/cn/dynamodb/?trk=cndc-detail) 文档页面。此外,如果您尚未为 Amazon Glue 数据目录配置资源策略,可以选择“为我修复”来自动添加所需的资源策略。
[Amazon DynamoDB](https://aws.amazon.com/cn/dynamodb/?trk=cndc-detail) 文档:
https://docs.aws.amazon.com/amazondynamodb/latest/developerguide/amazon-sagemaker-lakehouse-for-DynamoDB.html?trk=cndc-detail
![image.png](https://dev-media.amazoncloud.cn/3cef249fff054075b51a70d2d9ae76f3_image.png "image.png")
在此您可以选择配置输出。在“数据分区”下,您可以使用 [Amazon DynamoDB](https://aws.amazon.com/cn/dynamodb/?trk=cndc-detail) 表键进行分区,或指定自定义分区键。完成配置后,选择“下一步”。
![image.png](https://dev-media.amazoncloud.cn/4bab3153e5e9439dbef8e53e31a98236_image.png "image.png")
由于本文演示选择了“为我修复”,所以需要审查所需的更改,并选择“继续”,然后才能进入下一步。
![image.png](https://dev-media.amazoncloud.cn/2bcfcd285977455588bfd2cbbfa9cfc5_image.png "image.png")
在下一页您可以灵活配置数据加密,您可以使用 Amazon Key Management Servic(Amazon KMS)或自定义加密密钥,再为集成指定一个名称并选择“下一步”。
Amazon KMS:
https://aws.amazon.com/cn/kms/?trk=cndc-detail
![image.png](https://dev-media.amazoncloud.cn/bb1af3be6dba4cc2a10011363acc9f64_image.png "image.png")
最后一步您需要查看配置,满意后再选择“下一步”,创建 zero-ETL 集成。
![image.png](https://dev-media.amazoncloud.cn/f518d2892eba40e09b8d9ce7a0a028b1_image.png "image.png")
初始数据摄取完成后,就可以使用 zero-ETL 集成,完成时间取决于源 [Amazon DynamoDB](https://aws.amazon.com/cn/dynamodb/?trk=cndc-detail) 表的大小。
![image.png](https://dev-media.amazoncloud.cn/f1572542751d4276b383c4fcf59377a4_image.png "image.png")
导航到左侧导航面板中数据目录下的表,您可以看到包括架构在内的更多详细信息。在引擎盖下,zero-ETL 集成使用 Apache Iceberg,来转换与 [Amazon DynamoDB](https://aws.amazon.com/cn/dynamodb/?trk=cndc-detail) 中的数据格式和结构相关的内容,并将其存储到 [Amazon S3](https://aws.amazon.com/cn/s3/?trk=cndc-detail) 中。
![image.png](https://dev-media.amazoncloud.cn/203e4cb495aa4be0b1cbd092cb472768_image.png "image.png")
最后,您可以确认所有数据都已存储在 [Amazon S3](https://aws.amazon.com/cn/s3/?trk=cndc-detail) 存储桶中。
![image.png](https://dev-media.amazoncloud.cn/c849473a56f6451e8bf717246d73cc6d_image.png "image.png")
[Amazon SageMaker](https://aws.amazon.com/cn/sagemaker/?trk=cndc-detail) Lakehouse 与 [Amazon DynamoDB](https://aws.amazon.com/cn/dynamodb/?trk=cndc-detail)的zero-ETL 集成功能,**将极大降低数据迁移的复杂性和操作负担,帮助用户专注于提取见解而非管理数据管道**。
您可访问 [Amazon DynamoDB](https://aws.amazon.com/cn/dynamodb/?trk=cndc-detail) 文档,了解如何使用 [Amazon DynamoDB](https://aws.amazon.com/cn/dynamodb/?trk=cndc-detail) 与 [Amazon SageMaker](https://aws.amazon.com/cn/sagemaker/?trk=cndc-detail) Lakehouse 的 zero-ETL 集成功能,来优化您的数据分析工作流程。
**[Amazon DynamoDB](https://aws.amazon.com/cn/dynamodb/?trk=cndc-detail) 文档:**
https://docs.aws.amazon.com/amazondynamodb/latest/developerguide/amazon-sagemaker-lakehouse-for-DynamoDB.html?trk=cndc-detail
![image.png](https://dev-media.amazoncloud.cn/8a65f57e46aa49188b220caca8c6b479_image.png "image.png")
![image.png](https://dev-media.amazoncloud.cn/43a0c42617734d84b54449db797e458b_image.png "image.png")
**前述特定亚马逊云科技生成式人工智能相关的服务仅在亚马逊云科技海外区域可用,亚马逊云科技中国仅为帮助您了解行业前沿技术和发展海外业务选择推介该服务。*