利用 Amazon Glue、Amazon Kinesis Data Streams、Amazon DynamoDB 和 Amazon QuickSight 的零售无服务器运营数据湖

0
0
{"value":"您想减少商店缺货情况吗? 您想改善订单配送时间表吗? 您想为客户提供精确到毫秒的产品供应吗? 零售运营数据湖可提供有关供应链各个运营方面的更深入见解,从而帮助您转变客户体验。在这篇博文中,我们将演示如何使用 Amazon 服务创建[无服务器](https://aws.amazon.com/cn/serverless/?trk=cndc-detail)运营数据湖,这些服务包括 [Amazon Glue](https://aws.amazon.com/glue)、 [Amazon Kinesis Data Streams](https://aws.amazon.com/kinesis/data-streams/)、 [Amazon DynamoDB](https://aws.amazon.com/dynamodb/)、 [Amazon Athena](https://aws.amazon.com/athena/) 和 [Amazon QuickSight](https://aws.amazon.com/quicksight)。零售运营是为零售商提供竞争优势的关键职能领域。高效的零售运营可以优化供应链,从而改善客户体验并降低成本。优化的零售运营可以减少频繁的缺货和延迟发货,并提供准确的库存和订单详情。如今,零售商的渠道不仅仅是商店和网络,还包括移动应用程序、聊天机器人、联网设备和社交媒体渠道。数据包含结构化和非结构化两种形式。再加上多种履行选项,例如线上购买到店取货、从商店发货或从配送中心发货,零售运营的复杂性进一步增加。大多数零售商使用集中订单管理系统 (OMS) 来管理订单、库存、发货、付款和其他运营方面。这些传统的 OMS 无法扩展以应对零售业务模式的快速变化。对高效、顺畅的零售运营至关重要的企业应用程序依赖于集中 OMS。电子商务、仓库管理、呼叫中心和移动应用程序都需要 OMS 来获取订单状态、不同物品的库存位置、发货状态等。传统 OMS 面临的另一个挑战是,它们并非旨在处理可能影响库存和订单履行的天气数据和 IoT 数据等非结构化数据。无法扩展的传统 OMS 使您无法实施可能改变客户体验的新业务模式。数据湖是一种集中的存储库,可以存储任何规模的各种结构化和非结构化数据。运营数据湖提供从各种企业系统实时轻松访问结构化和非结构化运营数据的功能,可充分应对这一挑战。您可以按原样存储数据,而不必先对数据进行结构化操作,还可以运行不同类型的分析(包括控制面板、可视化效果、大数据处理、实时分析和[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail) (ML) 等)来指导更好的决策。这可以让 OMS 专注于订单编排和管理,从而减轻其负担。\n\n\n#### **解决方案概览**\n\n\n在这篇博文中,我们创建了一个端到端管道,用于摄取、存储、处理、分析及可视化订单、库存和发货更新等运营数据。我们使用以下 Amazon 服务作为关键组件:\n\n- Kinesis Data Streams,用于从各种系统实时摄取所有运营数据\n- DynamoDB、[Amazon Aurora](https://aws.amazon.com/rds/aurora/) 和 [Amazon Simple Storage Service](http://aws.amazon.com/s3) ([Amazon S3](https://aws.amazon.com/cn/s3/?trk=cndc-detail)),用于存储数据\n- [Amazon Glue DataBrew](https://aws.amazon.com/glue/features/databrew/),用于清理和转换数据\n- Amazon Glue 爬网程序,用于编录数据\n- Athena,用于查询处理后的数据\n- QuickSight 控制面板,用于提供有关各种运营指标的见解\n\n下图展示了该解决方案的架构。\n\n![image.png](https://dev-media.amazoncloud.cn/0b5e6231329a42b19792edc3310776a7_image.png)\n\n数据管道由摄取、存储、处理、分析和最终可视化数据几个阶段组成,我们将在以下各部分中更详细地讨论这些阶段。\n\n\n##### **数据摄取**\n\n\n从 Web 应用程序、移动应用程序和联网设备等多个来源实时摄取订单和库存数据到 Kinesis Data Streams 中。Kinesis Data Streams 是一种可大规模扩展且持久的实时数据流服务。Kinesis Data Streams 每秒可以连续从数十万个来源(如 Web 应用程序、数据库事件、库存交易和支付交易)中捕获数千兆字节的数据。电子商务应用程序和移动应用程序等前端系统会在商品添加到购物车或创建订单后立即摄取订单数据。当订单状态发生变化时,OMS 会摄取订单。OMS、商店和第三方供应商将库存更新摄取到数据流中。\n\n为了模拟订单,计划的 [Amazon CloudWatch](http://aws.amazon.com/cloudwatch) 事件每分钟触发一次 [Amazon Lambda](http://aws.amazon.com/lambda) 函数,以将订单摄取到数据流中。此函数模拟典型的订单管理系统生命周期(订单创建、计划、发布、发货和交付)。同样,CloudWatch 事件会触发第二个 Lambda 函数,以生成库存更新。此函数模拟不同的库存更新,例如从 OMS 或第三方供应商等系统创建的采购订单。在生产环境中,这些数据将来自前端应用程序和集中订单管理系统。\n\n\n##### **数据存储**\n\n\n有两种类型的数据:热数据和冷数据。热数据由前端应用程序(如 Web 应用程序、移动应用程序和联网设备)使用。以下是热数据的一些示例用例:\n\n- 当客户浏览商品时,必须显示商品的实时供货情况\n- 客户与 Alexa 交互以了解订单状态\n- 与客户交互的呼叫中心座席需要知道客户订单的状态或发货详情\n\n使用这些数据的系统、API 和设备需要在交易发生后的几秒钟或几毫秒内获得数据。\n\n冷数据用于长期分析,例如一段时间内的订单;各渠道的订单;订单最多的前 10 大商品;或者各商品、仓库或商店的计划库存与可用库存。\n\n对于此解决方案,我们将订单热数据存储在 DynamoDB 中。DynamoDB 是一种完全托管式 NoSQL 数据库,可在任何规模下提供个位数毫秒级性能。Lambda 函数处理 Kinesis 数据流中的记录并将其存储在 DynamoDB 表中。\n\n库存热数据存储在 [Amazon Aurora MySQL](https://aws.amazon.com/rds/aurora/mysql-features/) 兼容版数据库中。库存是交易数据,需要高度一致性,以便客户在下单时不会被过度承诺或承诺不足。Aurora MySQL 是一种完全托管式数据库,速度最高达到标准 MySQL 数据库的五倍、标准 PostgreSQL 数据库的三倍。它可以实现商用数据库的安全性、可用性和可靠性,而成本只有商用数据库的十分之一。\n\n[Amazon S3](https://aws.amazon.com/cn/s3/?trk=cndc-detail) 是一种对象存储,旨在从任何地方存储和检索任意数量的数据。它是一项简单的存储服务,以极低的成本提供业界领先的耐用性、可用性、性能、安全性以及几乎无限的可扩展性。订单和库存冷数据存储在 [Amazon S3](https://aws.amazon.com/cn/s3/?trk=cndc-detail) 中。\n\n[Amazon Kinesis Data Firehose](https://aws.amazon.com/kinesis/data-firehose/) 从 Kinesis 数据流中读取数据并将其存储在 [Amazon S3](https://aws.amazon.com/cn/s3/?trk=cndc-detail) 中。Kinesis Data Firehose 是将流数据加载到数据存储和分析工具的最简单方法。它可以捕获、转换流数据并将其加载到 [Amazon S3](https://aws.amazon.com/cn/s3/?trk=cndc-detail)、[Amazon Redshift](http://aws.amazon.com/redshift)、[Amazon OpenSearch Service](https://aws.amazon.com/opensearch-service/) 和 Splunk 中,从而实现近实时分析。\n\n\n##### **数据处理**\n\n\n数据处理阶段包括清理、准备和转换数据,以帮助下游分析应用程序轻松查询数据。每个前端系统可能有不同的数据格式。在数据处理阶段,数据被清理并转换为通用的规范形式。\n\n对于此解决方案,我们使用 DataBrew 清理订单并将其转换为通用的规范形式。DataBrew 是一种可视化数据准备工具,它使数据分析师和数据科学家可通过交互点击式可视化界面轻松准备数据,而无需编写代码。DataBrew 提供了 250 多种内置转换,无需编写代码即可合并、透视和调换数据。DataBrew 中的清理和转换步骤称为配方。计划的 DataBrew 作业将配方应用于 S3 存储桶中的数据,并将输出存储在另一个存储桶中。\n\nAmazon Glue 爬网程序可以在 Amazon Glue 数据目录中访问数据存储、提取元数据和创建表定义。您可以调度爬网程序来抓取转换后的数据并创建或更新数据目录。Amazon Glue 数据目录是您的永久性元数据存储。这是一项托管式服务,允许您在 Amazon Cloud 中存储、批注和共享元数据,就像在 Apache Hive 元存储中一样。我们使用爬网程序在数据目录中填充表。\n\n\n##### **数据分析**\n\n\n我们可以使用 Athena 来查询 S3 存储桶中的订单和库存数据。Athena 是一种交互式查询服务,可使用标准 SQL 轻松分析 [Amazon S3](https://aws.amazon.com/cn/s3/?trk=cndc-detail) 中的数据。Athena 是一种[无服务器](https://aws.amazon.com/cn/serverless/?trk=cndc-detail)服务,因此您无需管理任何基础设施,而且只需为所运行的查询付费。视图是在 Athena 中创建的,可供诸如 QuickSight 之类的商业智能 (BI) 服务使用。\n\n\n##### **数据可视化**\n\n\n我们使用 QuickSight 生成控制面板。QuickSight 是一种可扩展、[无服务器](https://aws.amazon.com/cn/serverless/?trk=cndc-detail)且可嵌入的 BI 服务,由 ML 提供支持,专为云而构建。借助 QuickSight,您可以轻松创建和发布包含基于 ML 的见解的交互式 BI 控制面板。\n\nQuickSight 还具有预测订单、检测订单中的异常情况以及提供基于[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)的见解的功能。我们可以创建分析,例如一段时间内的订单、按渠道划分的订单、订单最多的前 10 大位置或订单履行时间表(从订单创建到订单交付所用的时间)。\n\n\n#### **演练概览**\n\n\n要实施该解决方案,我们需要完成以下几大步骤:\n\n1. 使用 [Amazon CloudFormation](http://aws.amazon.com/cloudformation) 创建解决方案资源。\n2. 连接到库存数据库。\n3. 用表加载库存数据库。\n4. 使用 [Amazon Virtual Private Cloud](http://aws.amazon.com/vpc) ([Amazon VPC](https://aws.amazon.com/cn/vpc/?trk=cndc-detail)) 创建 [VPC 端点](https://docs.aws.amazon.com/vpc/latest/privatelink/vpc-endpoints.html)。\n5. 在默认 VPC 上为 [Amazon S3](https://aws.amazon.com/cn/s3/?trk=cndc-detail) 创建[网关端点](https://docs.aws.amazon.com/vpc/latest/privatelink/vpce-gateway.html)。\n6. 通过 [Amazon EventBridge](https://aws.amazon.com/eventbridge/) 启用 CloudWatch 规则以摄取数据。\n7. 使用 Amazon Glue 转换数据。\n8. 使用 QuickSight 可视化数据。\n\n\n#### **先决条件**\n\n\n完成以下必备步骤:\n\n1. 如果尚未创建 Amazon 账户,请创建。\n2. 如果以前从未在此账户中使用过 [QuickSight](https://docs.aws.amazon.com/quicksight/latest/user/signing-up.html),请注册。要在 QuickSight 中使用预测功能,请注册企业版。\n\n\n#### **使用 Amazon CloudFormation 创建资源**\n\n\n要启动提供的 CloudFormation 模板,请完成以下步骤:\n\n1. 选择 **Launch Stack**(启动堆栈):\n\n[![image.png](https://dev-media.amazoncloud.cn/313c9e27e54847c5ab76fe67762ebef6_image.png)](https://console.aws.amazon.com/cloudformation/home?region=us-east-1#/stacks/create/template?stackName=operational-data-lake&templateURL=https://aws-blogs-artifacts-public.s3.amazonaws.com/artifacts/BDB-1266/Datalake_Blog_CF.yaml)\n\n2. 选择 **Next**(下一步)。\n3. 对于 **Stack name**(堆栈名称),输入名称。\n4. 提供以下参数:\na. 保存数据湖所有数据的 S3 存储桶的名称。\nb. 保存库存表的数据库的名称。\nc. 数据库用户名。\nd. 数据库密码。\n5. 输入要分配给堆栈的任何标记,然后选择 **Next**(下一步)。\n6. 选中确认复选框,然后选择 **Create stack**(创建堆栈)。\n\n\n堆栈需要 5-10 分钟才能完成。\n\n在 Amazon CloudFormation 控制台上,可以导航到堆栈的 **Outputs**(输出)选项卡以查看您创建的资源。\n\n![image.png](https://dev-media.amazoncloud.cn/361691f583004f36bf2a210e0c9ab6de_image.png)\n\n如果打开创建的 S3 存储桶,则可以观察其文件夹结构。堆栈创建过去 7 天的示例订单数据。\n\n![image.png](https://dev-media.amazoncloud.cn/39848be70754493a8a84d8c878b6903e_image.png)\n\n\n#### **连接到库存数据库**\n\n\n要在查询编辑器中连接到数据库,请完成以下步骤:\n\n1. 在 [Amazon RDS](https://aws.amazon.com/cn/rds/?trk=cndc-detail) 控制台上,选择在其中部署堆栈的区域。\n\n![image.png](https://dev-media.amazoncloud.cn/4fa5c16a810c452189c9da0d69108b24_image.png)\n\n2. 在导航窗格中,选择 **Query Editor**(查询编辑器)。\n\n![image.png](https://dev-media.amazoncloud.cn/5559e3a2d3ca4431a9271c0659db73a1_image.png)\n\n如果之前未连接到过此数据库,则会打开 **Connect to database**(连接到数据库)页面。\n\n3. 对于 **Database instance or cluster**(数据库实例或集群),请选择您的数据库。\n4. 对于 **Database username**(数据库用户名),请选择 **Connect with a Secrets Manager ARN**(使用 Secrets Manager ARN 连接)。\n堆栈创建期间提供的数据库用户名和密码存储在 [Amazon Secrets Manager](https://aws.amazon.com/secrets-manager/) 中。或者,您可以选择 **Add new database credentials**(添加新的数据库凭据),然后输入您在创建堆栈时提供的数据库用户名和密码。\n5. 对于 **Secrets Manager ARN**,输入 CloudFormation 堆栈输出中 ```InventorySecretManager``` 键的值。\n6. 或者,输入数据库的名称。\n7. 单击 **Connect to database**(连接到数据库)。\n\n![image.png](https://dev-media.amazoncloud.cn/ec6b9818e87d4eb4a2607dd9986e0ef0_image.png)\n\n\n#### **用表加载库存数据库**\n\n\n在查询编辑器中输入以下 DDL 语句,然后选择 **Run**(运行):\n\n```\\nCREATE TABLE INVENTORY (\\n ItemID varchar(25) NOT NULL,\\n ShipNode varchar(25) NOT NULL,\\n SupplyType varchar(25) NOT NULL,\\n SupplyDemandType varchar(25) NOT NULL,\\n ItemName varchar(25),\\n UOM varchar(10),\\n Quantity int(11) NOT NULL,\\n ETA varchar(25)\\t ,\\n UpdatedDate DATE,\\n PRIMARY KEY (ItemID,ShipNode,SupplyType)\\n);\\n```\n\n![image.png](https://dev-media.amazoncloud.cn/2fd78b9d6a45467abc1799d79f160da8_image.png)\n\n\n#### **创建 VPC 端点**\n\n\n要创建 VPC 端点,请完成以下步骤:\n\n1. 在 [Amazon VPC](https://aws.amazon.com/cn/vpc/?trk=cndc-detail) 控制台上,选择 **VPC Dashboard**(VPC 控制面板)。\n2. 在导航窗格中选择 **Endpoints**(端点)。\n3. 选择 **Create Endpoint**(创建端点)。\n\n![image.png](https://dev-media.amazoncloud.cn/e4ecdfd40bfc45e9ae79a2317ddda306_image.png)\n\n4. 对于 **Service category**(服务类别),选择 **Amazon services**(Amazon 服务)。\n5. 对于 **Service name**(服务名称),搜索 ```rds``` 并选择以 ```rds-data``` 结尾的服务名称。\n6. 对于 **VPC**,请选择默认 VPC。\n\n![image.png](https://dev-media.amazoncloud.cn/655662f8ee3146139bc8a0bd62fd3e4c_image.png)\n\n7. 将其余设置保留为默认值,然后选择 **Create endpoint**(创建端点)。\n\n\n#### **为 [Amazon S3](https://aws.amazon.com/cn/s3/?trk=cndc-detail) 创建网关端点**\n\n\n要创建网关端点,请完成以下步骤:\n\n1. 在 [Amazon VPC](https://aws.amazon.com/cn/vpc/?trk=cndc-detail) 控制台上,选择 **VPC Dashboard**(VPC 控制面板)。\n2. 在导航窗格中选择 **Endpoints**(端点)。\n3. 选择 **Create Endpoint**(创建端点)。\n4. 对于 **Service category**(服务类别),选择 **Amazon services**(Amazon 服务)。\n5. 对于 **Service name**(服务名称),搜索 ```S3``` 并选择类型为 **Gateway**(网关)的服务名称。\n6. 对于 **VPC**,请选择默认 VPC。\n7. 对于 **Configure route tables**(配置路由表),选择默认路由表。\n![image.png](https://dev-media.amazoncloud.cn/aed804776a4648d88223fbc2bb480b55_image.png)![image.png](https://dev-media.amazoncloud.cn/f5ba23f578fe44be85ed51e810821941_image.png)\n![image.png](https://dev-media.amazoncloud.cn/f651e27ba7394c2fa527d9a327bacf07_image.png)\n\n8. 将其余设置保留为默认值,然后选择 **Create endpoint**(创建端点)。\n\n等待网关端点和 VPC 端点状态都变为 ```Available```(可用)。\n\n![image.png](https://dev-media.amazoncloud.cn/97c4f19c00b945f2b3de1a80c8cd822b_image.png)\n\n\n#### **启用 CloudWatch 规则以摄取数据**\n\n\n我们通过 CloudFormation 模板创建了两条 CloudWatch 规则,用于将订单和库存数据摄取到 Kinesis Data Streams。要通过 EventBridge 启用规则,请完成以下步骤:\n\n1. 在 CloudWatch 控制台导航窗格中的 **Events**(事件)下,选择 **Rules**(规则)。\n2. 确保您位于创建堆栈的区域中。\n3. 选择 **Go to [Amazon EventBridge](https://aws.amazon.com/cn/eventbridge/?trk=cndc-detail)**(前往 [Amazon EventBridge](https://aws.amazon.com/cn/eventbridge/?trk=cndc-detail))。\n\n![image.png](https://dev-media.amazoncloud.cn/d98acf43547f48b2948de681d79e39c7_image.png)\n\n4. 选择规则 ```Ingest-Inventory-Update-Schedule-Rule```,然后选择 **Enable**(启用)。\n5. 选择规则 ```Ingest-Order-Schedule-Rule```,然后选择 **Enable**(启用)。\n\n![image.png](https://dev-media.amazoncloud.cn/946b961c9e6d4454867901d889cd7b49_image.png)\n\n5-10 分钟后,Lambda 函数开始将订单和库存更新摄取到各自的流。您可以检查 S3 存储桶 ```orders-landing-zone``` 和 ```inventory-landing-zone```,以确认正在填充数据。\n\n\n#### **执行数据转换**\n\n\n我们的 CloudFormation 堆栈包括一个 DataBrew 项目、一个每 5 分钟运行一次的 DataBrew 作业,以及两个 Amazon Glue 爬网程序。要使用我们的 Amazon Glue 资源执行数据转换,请完成以下步骤:\n\n1. 在 DataBrew 控制台的导航窗格中,选择 **Projects**(项目)。\n2. 选择项目 ```OrderDataTransform```。\n\n![image.png](https://dev-media.amazoncloud.cn/9f99f72eeea74fa1821c39921e939f7d_image.png)\n\n您可以在此页面上查看该项目及其配方。\n\n![image.png](https://dev-media.amazoncloud.cn/a38adb021bc0425ca3001b31aeb2ccd9_image.png)\n\n3. 在导航窗格中,选择 **Jobs**(作业)。\n4. 查看作业状态以确认其已完成。\n\n![image.png](https://dev-media.amazoncloud.cn/30703600d17a4af096fc11323dac6bf9_image.png)\n\n5. 在 Amazon Glue 控制台的导航窗格中,选择 **Crawlers**(爬网程序)。\n爬网程序会抓取转换后的数据并更新数据目录。\n6. 查看两个爬网程序的状态,它们每 15 分钟运行一次。\n\n![image.png](https://dev-media.amazoncloud.cn/650f1b6f7c674a249928eca8a9bdf1fd_image.png)\n\n\n7. 在导航窗格中选择 **Tables**(表)以查看爬网程序创建的两个表。\n如果没有看到这些表,可以手动运行爬网程序来创建它们。\n\n![image.png](https://dev-media.amazoncloud.cn/7604d0ee525c411aa270d4222cbad5fc_image.png)\n\n您可以使用 Athena 查询表中的数据。\n\n8. 在 Athena 控制台上,选择 **Query editor**(查询编辑器)。\n如果尚未创建查询结果位置,系统会提示您先创建。\n9. 选择 **View settings**(查看设置)或选择 **Settings**(设置)选项卡。\n\n![image.png](https://dev-media.amazoncloud.cn/5ed28f317580482f936fab29a5a9cf73_image.png)\n\n10. 选择 **Manage**(管理)。\n\n![image.png](https://dev-media.amazoncloud.cn/abf06bbcdf804b979e576e675a25a285_image.png)\n\n11. 选择用于存储结果的 S3 存储桶,然后选择 **Choose**(选择)。\n\n![image.png](https://dev-media.amazoncloud.cn/8f8833a7c90a4b6299f8173700c05f1f_image.png)\n\n12. 在导航窗格中选择 **Query editor**(查询编辑器)。\n\n![image.png](https://dev-media.amazoncloud.cn/680f1ebe1f114d23b68ce046e4866f73_image.png)\n\n13. 选择任一表(右键单击),然后选择 **Preview Table**(预览表)以查看表内容。\n\n![image.png](https://dev-media.amazoncloud.cn/c863c173389346689c1da8fa7bacbb6b_image.png)\n\n\n#### **可视化数据**\n\n\n如果以前从未在此账户中使用过 QuickSight,请完成先决条件步骤以注册 QuickSight。要使用 QuickSight 的 ML 功能(例如[预测](https://docs.aws.amazon.com/quicksight/latest/user/forecasts-and-whatifs.html)),请按照本[文档](https://docs.aws.amazon.com/quicksight/latest/user/signing-up.html)中的步骤注册企业版。\n\n注册 QuickSight 时,请确保使用创建 CloudFormation 堆栈的**同一区域**。\n\n\n##### **向 QuickSight 授予权限**\n\n\n要使数据可视化,必须先向 QuickSight 授予访问数据的相关权限。\n\n1. 在 QuickSight 控制台的 **Admin**(管理员)下拉菜单中,选择 **Manage QuickSight**(管理 QuickSight)。\n\n![image.png](https://dev-media.amazoncloud.cn/5b4054aedd2a47c8bcb03086acd158ed_image.png)\n\n2. 在导航窗格中,选择 **Security & permissions**(安全和权限)。\n3. 在 **QuickSight access to Amazon services**(QuickSight 访问 Amazon 服务的权限)下,选择 **Manage**(管理)。\n\n![image.png](https://dev-media.amazoncloud.cn/b2c9ec7f89c14426a448b77e7988c491_image.png)\n\n4. 选择 **[Amazon Athena](https: //aws.amazon.com/cn/athena/?trk=cndc-detail)**。\n5. 选择 **[Amazon S3](https://aws.amazon.com/cn/s3/?trk=cndc-detail)** 以编辑 QuickSight 对 S3 存储桶的访问权限。\n6. 选择您在堆栈创建期间指定的存储桶(就这篇博文而言,为 ```operational-datalake```)。\n7. 选择 **Finish**(完成)。\n\n![image.png](https://dev-media.amazoncloud.cn/848214fd6bce4ac3b365b85099ee1011_image.png)\n\n8. 选择 **Save**(保存)。\n\n\n##### **准备数据集**\n\n\n要准备数据集,请完成以下步骤:\n\n1. 在 QuickSight 控制台的导航窗格中,选择 **Datasets**(数据集)。\n2. 选择 **New dataset**(新建数据集)。\n\n![image.png](https://dev-media.amazoncloud.cn/5aa082bdea944abb81b3f7b23a38e741_image.png)\n\n3. 选择 **Athena**。\n\n![image.png](https://dev-media.amazoncloud.cn/7ea051b7c750458e8332db0f68550331_image.png)\n\n4. 对于 **Data source name**(数据源名称),输入 ```retail-analysis```。\n5. 选择 **Validate connection**(验证连接)。\n6. 验证连接后,选择 **Create data source**(创建数据源)。\n\n![image.png](https://dev-media.amazoncloud.cn/f233b8516d5a4b41a547dccc6abbe6b2_image.png)\n\n7. 对于 **Database**(数据库),选择 ```orderdatalake```。\n8. 对于 **Tables**(表),选择 ```orders_clean```。\n9. 选择 **Edit/Preview data**(编辑/预览数据)。\n\n![image.png](https://dev-media.amazoncloud.cn/76b8da8104174066826c4ef5bae57c4b_image.png)\n\n10. 对于 **Query mode**(查询模式),选择 **SPICE**。\n[SPICE](https://docs.aws.amazon.com/quicksight/latest/user/spice.html)(超快速、并行、内存中计算引擎)是 QuickSight 使用的强大内存中引擎。\n\n![image.png](https://dev-media.amazoncloud.cn/e9bc2793dd434c0fa5da5c6725c76b8a_image.png)\n\n11. 选择 ```orderdatetime``` 字段(右键单击),选择 **Change data type**(更改数据类型),然后选择 **Date**(日期)。\n\n![image.png](https://dev-media.amazoncloud.cn/4e64857eec11407ba0d7f60b9ba027cd_image.png)\n\n12. 以 ```MM/dd/yyyy HH:mm:ss``` 格式输入日期。\n13. 选择 **Validate**(验证)和 **Update**(更新)。\n\n![image.png](https://dev-media.amazoncloud.cn/41fb86a271b4489e993caeded7e17154_image.png)\n\n14. 将以下字段的数据类型更改为 QuickSight 地理空间数据类型:\na. **billingaddress.zipcode** — 邮编\nb. **billingaddress.city** — 城市\nc. **billingaddress.country** — 国家/地区\nd. **billingaddress.state** – 州/省/直辖市\ne. **shippingaddress.zipcode** — 邮编\nf. **shippingaddress.city** — 城市\ng. **shippingaddress.country** — 国家/地区\nh. **shippingaddress.state** — 州/省/直辖市\n15. 选择 **Save & publish**(保存并发布)。\n16. 选择 **Cancel**(取消)退出此页面。\n\n![image.png](https://dev-media.amazoncloud.cn/a1ff5eb282ea472aba9be577021b9537_image.png)\n\n让我们为 Athena 表 ```inventory_landing_zone``` 创建另一个数据集。\n\n17. 按照步骤 1-7 创建新数据集。对于 **Table**(表)选项,选择 ```inventory_landing_zone```。\n18. 选择 **Edit/Preview data**(编辑/预览数据)。\n\n![image.png](https://dev-media.amazoncloud.cn/e48072472e224d9ca15880cc6f45df49_image.png)\n\n19. 对于 **Query mode**(查询模式),选择 **SPICE**。\n20. 选择 **Save & publish**(保存并发布)。\n21. 选择 **Cancel**(取消)退出此页面。\n\n![image.png](https://dev-media.amazoncloud.cn/61d5f9aac7804a9ba6880f784b36c28e_image.png)\n\n这两个数据集现在都应列在 **Datasets**(数据集)页面上。\n\n![image.png](https://dev-media.amazoncloud.cn/51f68c2d2e1d4f9cbd48188d0d060d98_image.png)\n\n22. 选择每个数据集,然后选择 **Refresh now**(立即刷新)。\n\n![image.png](https://dev-media.amazoncloud.cn/ef88c7db6f5d41d2aa016dbe028b87f3_image.png)\n\n23. 选择 **Full refresh**(完全刷新),然后选择 **Refresh**(刷新)。\n\n![image.png](https://dev-media.amazoncloud.cn/4f98f21232f3426b972abb4c3a73ce50_image.png)\n\n要设置计划刷新,请选择 **Schedule a refresh**(计划刷新)并提供计划详情。\n\n![image.png](https://dev-media.amazoncloud.cn/315b4c97b241454890f394b8d53fd04b_image.png)\n\n\n##### **创建分析**\n\n\n要在 QuickSight 中创建分析,请完成以下步骤:\n\n1. 在 QuickSight 控制台的导航窗格中,选择 **Analyses**(分析)。\n2. 选择 **New analysis**(新建分析)。\n\n![image.png](https://dev-media.amazoncloud.cn/ed15b31f85ff4f95b33948b8fd0cc757_image.png)\n\n3. 选择 ```orders_clean``` 数据集。\n\n![image.png](https://dev-media.amazoncloud.cn/bab7c1f73a9c46d5a5ddd972d6c55aef_image.png)\n\n4. 选择 **Create analysis**(创建分析)。\n\n![image.png](https://dev-media.amazoncloud.cn/69b72eea17f74804b617d44f7f0b1ed7_image.png)\n\n5. 要调整主题,请在导航窗格中选择 **Themes**(主题),选择首选主题,然后选择 **Apply**(应用)。\n\n![image.png](https://dev-media.amazoncloud.cn/acf47db52eae4394855200134b84af82_image.png)\n\n6. 将分析命名为 ```retail-analysis```。\n\n![image.png](https://dev-media.amazoncloud.cn/cbf3ade0a6b944e7b84ae1372a30d7c5_image.png)\n\n\n##### **在分析中添加可视化效果**\n\n\n接下来,我们开始创建可视化效果。第一个可视化效果显示一段时间内创建的订单。\n\n1. 选择控制面板上的空图,对于 Visual type(视觉队形类型),选择折线图。\n有关视觉对象类型的更多信息,请参阅 [Amazon QuickSight 中的视觉对象类型](https://docs.aws.amazon.com/quicksight/latest/user/working-with-visual-types.html)。\n\n![image.png](https://dev-media.amazoncloud.cn/833ff93c637f48f59d75a3e257d2d493_image.png)\n\n2. 在 **Field wells**(字段井)下,将 ```orderdatetime``` 拖到 **X axis**(X 轴),将 ```ordernumber``` 拖到 **Value**(值)。\n3. 将 ```ordernumber``` 设置为 **Aggregate: Count distinct**(聚合: 非重复计数)。\n\n![image.png](https://dev-media.amazoncloud.cn/38e5b95e59a84789a7db2efc5c5878d6_image.png)\n\n现在我们可以按 ```Created```(已创建)状态筛选这些订单。\n\n4. 在导航窗格中选择 **Filter**(筛选器),然后选择 **Create one**(创建一个)。\n5. 搜索并选择 **status**(状态)。\n\n![image.png](https://dev-media.amazoncloud.cn/30cbf2105b7e49f0af7aaabb851ad4f5_image.png)\n\n6. 选择您刚刚创建的 **status**(状态)筛选器。\n\n![image.png](https://dev-media.amazoncloud.cn/d88e05ffd3a042e4a24ac7569fcfc9da_image.png)\n\n7. 从筛选器列表中选择 **Created**(已创建),然后选择 **Apply**(应用)。\n\n![image.png](https://dev-media.amazoncloud.cn/6e0a81f4275a4e7397ccdd6d4b4a8316_image.png)\n\n8. 选择图表(右键单击),然后选择 **Add forecast**(添加预测)。\n仅企业版提供预测功能。QuickSight 使用 Random Cut Forest (RCF) 算法的内置版本。有关更多信息,请参阅[了解 Amazon QuickSight 使用的 ML 算法](https://docs.aws.amazon.com/quicksight/latest/user/concept-of-ml-algorithms.html)。\n\n![image.png](https://dev-media.amazoncloud.cn/e2e1de5ed96540a2932995f7022754cc_image.png)\n\n9. 将设置保留为默认值,然后选择 **Apply**(应用)。\n10. 将可视化效果重命名为“Orders Created Over Time”(一段时间内创建的订单)。\n\n如果成功应用预测,则可视化效果显示预期的订单数量以及上限和下限。\n\n![image.png](https://dev-media.amazoncloud.cn/304c46927a18401998530c52ee04118a_image.png)\n\n如果您收到以下错误消息,请先让数据累积几天,然后再添加预测。\n\n![image.png](https://dev-media.amazoncloud.cn/572cec745f9644d7abd5c8a757f3685c_image.png)\n\n接下来,我们创建一个各位置的订单可视化效果。\n\n11. 在 **Add**(添加)菜单上,选择 **Add visual**(添加视觉对象)。\n\n![image.png](https://dev-media.amazoncloud.cn/5fa4f3af37e94f439510ec55b73914ba_image.png)\n\n12. 选择地图视觉对象类型上的点。\n\n![image.png](https://dev-media.amazoncloud.cn/fd842d07b1b3470e853be50c822a7b93_image.png)\n\n13. 在 **Field wells**(字段井)下,将 ```shippingaddress.zipcode``` 拖到 **Geospatial**(地理空间),将 ```ordernumber``` 拖到 **Size**(大小)。\n14. 将 ```ordernumber``` 更改为 **Aggregate: Count distinct**(聚合: 非重复计数)。\n\n![image.png](https://dev-media.amazoncloud.cn/5249818ec1dd4b65a74465056cb5609d_image.png)\n\n现在,您应该会看到一张地图,指示各位置的订单。\n\n15. 相应地重命名可视化效果。\n\n![image.png](https://dev-media.amazoncloud.cn/5341338c02c149529e4a6bac99d07ca0_image.png)\n\n接下来,我们创建库存计数的向下钻取可视化效果。\n\n16. 选择铅笔图标。\n\n![image.png](https://dev-media.amazoncloud.cn/36106f1471f94b54883a800aaf021901_image.png)\n\n17. 选择 **Add dataset**(添加数据集)。\n\n![image.png](https://dev-media.amazoncloud.cn/a9912bfaa39d4f10aa0e98d3daa0cf9b_image.png)\n\n18. 选择 ```inventory_landing_zone``` 数据集,然后选择 **Select**(选择)。\n\n![image.png](https://dev-media.amazoncloud.cn/fcb1fa1b36fe4b73965bed8cc25d6878_image.png)\n\n19. 选择 ```inventory_landing_zone``` 数据集。\n\n![image.png](https://dev-media.amazoncloud.cn/8a3e015a0aab4ba9b61507e4cfbdb7e0_image.png)\n\n20. 添加纵条图视觉对象类型。\n\n![image.png](https://dev-media.amazoncloud.cn/538005f9e3a84a47bf50cb781e674584_image.png)\n\n21. 在 **Field wells**(字段井)下,将 ```itemname```、```shipnode``` 和 ```invtype``` 拖到 **X axis**(X 轴),将 quantity 拖到 **Value**(值)。\n22. 确保将 quantity 设置为 **Sum**(求和)。\n\n![image.png](https://dev-media.amazoncloud.cn/49240be62c8343d9b20b21c5d8543043_image.png)\n\n以下屏幕截图显示了订单库存的可视化效果示例。\n\n![image.png](https://dev-media.amazoncloud.cn/0cd93afa14944df5938e78f0daff4141_image.png)\n\n23. 要确定从每个船舶节点发运了多少口罩,请选择 **Face Masks**(口罩)(右键单击),然后选择 **Drill down to shipnode**(向下钻取到船舶节点)。\n\n![image.png](https://dev-media.amazoncloud.cn/0507af9e865c4906b52cd3527b0be80d_image.png)\n\n24. 您可以进一步向下钻取到 ```invtype```,以查看特定船舶节点有多少口罩处于哪种状态。\n\n![image.png](https://dev-media.amazoncloud.cn/30d127a05e334a6e8a7de3f4061ba6e1_image.png)\n\n以下屏幕截图显示了此向下钻取的库存计数。\n\n![image.png](https://dev-media.amazoncloud.cn/92a67e8971d34944b8d847ca4cde26a9_image.png)\n\n下一步,您可以根据创建的分析创建 QuickSight 控制面板。有关说明,请参阅[教程:创建 Amazon QuickSight 控制面板](https://docs.aws.amazon.com/quicksight/latest/user/example-create-a-dashboard.html)。\n\n\n#### **清理**\n\n\n为避免产生任何持续费用,请在 Amazon CloudFormation 控制台上选择您创建的堆栈,然后选择 **Delete**(删除)。这将删除所有创建的资源。在堆栈的 **Events**(事件)选项卡上,您可以跟踪删除进度,并等待堆栈状态更改为 ```DELETE_COMPLETE```。\n\n[Amazon EventBridge](https://aws.amazon.com/cn/eventbridge/?trk=cndc-detail) 规则每 15 分钟生成一次订单和库存数据,为避免生成大量数据,请确保在测试博客后删除堆栈。\n\n如果删除任何资源失败,请确保手动删除它们。要删除 [Amazon QuickSight](https://aws.amazon.com/cn/quicksight/?trk=cndc-detail) 数据集,您可以按照[这些说明](https://docs.aws.amazon.com/quicksight/latest/user/delete-a-data-set.html)进行操作。您可以使用[这些步骤](https://docs.aws.amazon.com/quicksight/latest/user/deleting-an-analysis.html)删除 QuickSight 分析。要删除 QuickSight 订阅并关闭账户,您可以按照[这些说明](https://docs.aws.amazon.com/quicksight/latest/user/closing-account.html)进行操作。\n\n\n#### **结论**\n\n\n在这篇博文中,我们向您展示了如何使用 Amazon 分析和存储服务来构建[无服务器](https://aws.amazon.com/cn/serverless/?trk=cndc-detail)运营数据湖。Kinesis Data Streams 可让您摄取大量数据,DataBrew 可让您直观地清理和转换数据。我们还向您展示了如何使用 Amazon Glue、Athena 和 QuickSight 分析和可视化订单及库存数据。有关 Amazon 上数据湖的更多信息和资源,请访问 [Amazon 上的分析](https://aws.amazon.com/big-data/datalakes-and-analytics/)。\n\n\n##### **关于作者**\n\n\n![image.png](https://dev-media.amazoncloud.cn/225b0165fb9e4a919bfe9731ac54f9b7_image.png)\n\n**Gandhi Raketla** 是 Amazon 的高级解决方案架构师。他与 Amazon 客户和合作伙伴就云采用以及构建解决方案来帮助客户提高敏捷性和创新能力进行合作。他擅长 Amazon 数据分析领域。\n\n![image.png](https://dev-media.amazoncloud.cn/aefd010685aa49439176aaa4d2b03956_image.png)\n\n**Sindhura Palakodety** 是 Amazon 的解决方案架构师。她热衷于帮助客户在 Amazon Cloud 上构建架构完善的企业级解决方案,擅长容器和数据分析领域。\n","render":"<p>您想减少商店缺货情况吗? 您想改善订单配送时间表吗? 您想为客户提供精确到毫秒的产品供应吗? 零售运营数据湖可提供有关供应链各个运营方面的更深入见解,从而帮助您转变客户体验。在这篇博文中,我们将演示如何使用 Amazon 服务创建无服务器运营数据湖,这些服务包括 <a href=\\"https://aws.amazon.com/glue\\" target=\\"_blank\\">Amazon Glue</a>、 <a href=\\"https://aws.amazon.com/kinesis/data-streams/\\" target=\\"_blank\\">Amazon Kinesis Data Streams</a>、 <a href=\\"https://aws.amazon.com/dynamodb/\\" target=\\"_blank\\">Amazon DynamoDB</a>、 <a href=\\"https://aws.amazon.com/athena/\\" target=\\"_blank\\">Amazon Athena</a> 和 <a href=\\"https://aws.amazon.com/quicksight\\" target=\\"_blank\\">Amazon QuickSight</a>。零售运营是为零售商提供竞争优势的关键职能领域。高效的零售运营可以优化供应链,从而改善客户体验并降低成本。优化的零售运营可以减少频繁的缺货和延迟发货,并提供准确的库存和订单详情。如今,零售商的渠道不仅仅是商店和网络,还包括移动应用程序、聊天机器人、联网设备和社交媒体渠道。数据包含结构化和非结构化两种形式。再加上多种履行选项,例如线上购买到店取货、从商店发货或从配送中心发货,零售运营的复杂性进一步增加。大多数零售商使用集中订单管理系统 (OMS) 来管理订单、库存、发货、付款和其他运营方面。这些传统的 OMS 无法扩展以应对零售业务模式的快速变化。对高效、顺畅的零售运营至关重要的企业应用程序依赖于集中 OMS。电子商务、仓库管理、呼叫中心和移动应用程序都需要 OMS 来获取订单状态、不同物品的库存位置、发货状态等。传统 OMS 面临的另一个挑战是,它们并非旨在处理可能影响库存和订单履行的天气数据和 IoT 数据等非结构化数据。无法扩展的传统 OMS 使您无法实施可能改变客户体验的新业务模式。数据湖是一种集中的存储库,可以存储任何规模的各种结构化和非结构化数据。运营数据湖提供从各种企业系统实时轻松访问结构化和非结构化运营数据的功能,可充分应对这一挑战。您可以按原样存储数据,而不必先对数据进行结构化操作,还可以运行不同类型的分析(包括控制面板、可视化效果、大数据处理、实时分析和[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail) (ML) 等)来指导更好的决策。这可以让 OMS 专注于订单编排和管理,从而减轻其负担。</p>\\n<h4><a id=\\"_3\\"></a><strong>解决方案概览</strong></h4>\\n<p>在这篇博文中,我们创建了一个端到端管道,用于摄取、存储、处理、分析及可视化订单、库存和发货更新等运营数据。我们使用以下 Amazon 服务作为关键组件:</p>\n<ul>\\n<li>Kinesis Data Streams,用于从各种系统实时摄取所有运营数据</li>\n<li>DynamoDB、<a href=\\"https://aws.amazon.com/rds/aurora/\\" target=\\"_blank\\">Amazon Aurora</a> 和 <a href=\\"http://aws.amazon.com/s3\\" target=\\"_blank\\">Amazon Simple Storage Service</a> ([Amazon S3](https://aws.amazon.com/cn/s3/?trk=cndc-detail)),用于存储数据</li>\\n<li><a href=\\"https://aws.amazon.com/glue/features/databrew/\\" target=\\"_blank\\">Amazon Glue DataBrew</a>,用于清理和转换数据</li>\\n<li>Amazon Glue 爬网程序,用于编录数据</li>\n<li>Athena,用于查询处理后的数据</li>\n<li>QuickSight 控制面板,用于提供有关各种运营指标的见解</li>\n</ul>\\n<p>下图展示了该解决方案的架构。</p>\n<p><img src=\\"https://dev-media.amazoncloud.cn/0b5e6231329a42b19792edc3310776a7_image.png\\" alt=\\"image.png\\" /></p>\n<p>数据管道由摄取、存储、处理、分析和最终可视化数据几个阶段组成,我们将在以下各部分中更详细地讨论这些阶段。</p>\n<h5><a id=\\"_22\\"></a><strong>数据摄取</strong></h5>\\n<p>从 Web 应用程序、移动应用程序和联网设备等多个来源实时摄取订单和库存数据到 Kinesis Data Streams 中。Kinesis Data Streams 是一种可大规模扩展且持久的实时数据流服务。Kinesis Data Streams 每秒可以连续从数十万个来源(如 Web 应用程序、数据库事件、库存交易和支付交易)中捕获数千兆字节的数据。电子商务应用程序和移动应用程序等前端系统会在商品添加到购物车或创建订单后立即摄取订单数据。当订单状态发生变化时,OMS 会摄取订单。OMS、商店和第三方供应商将库存更新摄取到数据流中。</p>\n<p>为了模拟订单,计划的 <a href=\\"http://aws.amazon.com/cloudwatch\\" target=\\"_blank\\">Amazon CloudWatch</a> 事件每分钟触发一次 <a href=\\"http://aws.amazon.com/lambda\\" target=\\"_blank\\">Amazon Lambda</a> 函数,以将订单摄取到数据流中。此函数模拟典型的订单管理系统生命周期(订单创建、计划、发布、发货和交付)。同样,CloudWatch 事件会触发第二个 Lambda 函数,以生成库存更新。此函数模拟不同的库存更新,例如从 OMS 或第三方供应商等系统创建的采购订单。在生产环境中,这些数据将来自前端应用程序和集中订单管理系统。</p>\\n<h5><a id=\\"_30\\"></a><strong>数据存储</strong></h5>\\n<p>有两种类型的数据:热数据和冷数据。热数据由前端应用程序(如 Web 应用程序、移动应用程序和联网设备)使用。以下是热数据的一些示例用例:</p>\n<ul>\\n<li>当客户浏览商品时,必须显示商品的实时供货情况</li>\n<li>客户与 Alexa 交互以了解订单状态</li>\n<li>与客户交互的呼叫中心座席需要知道客户订单的状态或发货详情</li>\n</ul>\\n<p>使用这些数据的系统、API 和设备需要在交易发生后的几秒钟或几毫秒内获得数据。</p>\n<p>冷数据用于长期分析,例如一段时间内的订单;各渠道的订单;订单最多的前 10 大商品;或者各商品、仓库或商店的计划库存与可用库存。</p>\n<p>对于此解决方案,我们将订单热数据存储在 DynamoDB 中。DynamoDB 是一种完全托管式 NoSQL 数据库,可在任何规模下提供个位数毫秒级性能。Lambda 函数处理 Kinesis 数据流中的记录并将其存储在 DynamoDB 表中。</p>\n<p>库存热数据存储在 <a href=\\"https://aws.amazon.com/rds/aurora/mysql-features/\\" target=\\"_blank\\">Amazon Aurora MySQL</a> 兼容版数据库中。库存是交易数据,需要高度一致性,以便客户在下单时不会被过度承诺或承诺不足。Aurora MySQL 是一种完全托管式数据库,速度最高达到标准 MySQL 数据库的五倍、标准 PostgreSQL 数据库的三倍。它可以实现商用数据库的安全性、可用性和可靠性,而成本只有商用数据库的十分之一。</p>\\n<p>Amazon S3 是一种对象存储,旨在从任何地方存储和检索任意数量的数据。它是一项简单的存储服务,以极低的成本提供业界领先的耐用性、可用性、性能、安全性以及几乎无限的可扩展性。订单和库存冷数据存储在 Amazon S3 中。</p>\n<p><a href=\\"https://aws.amazon.com/kinesis/data-firehose/\\" target=\\"_blank\\">Amazon Kinesis Data Firehose</a> 从 Kinesis 数据流中读取数据并将其存储在 [Amazon S3](https://aws.amazon.com/cn/s3/?trk=cndc-detail) 中。Kinesis Data Firehose 是将流数据加载到数据存储和分析工具的最简单方法。它可以捕获、转换流数据并将其加载到 [Amazon S3](https://aws.amazon.com/cn/s3/?trk=cndc-detail)、<a href=\\"http://aws.amazon.com/redshift\\" target=\\"_blank\\">Amazon Redshift</a>、<a href=\\"https://aws.amazon.com/opensearch-service/\\" target=\\"_blank\\">Amazon OpenSearch Service</a> 和 Splunk 中,从而实现近实时分析。</p>\\n<h5><a id=\\"_52\\"></a><strong>数据处理</strong></h5>\\n<p>数据处理阶段包括清理、准备和转换数据,以帮助下游分析应用程序轻松查询数据。每个前端系统可能有不同的数据格式。在数据处理阶段,数据被清理并转换为通用的规范形式。</p>\n<p>对于此解决方案,我们使用 DataBrew 清理订单并将其转换为通用的规范形式。DataBrew 是一种可视化数据准备工具,它使数据分析师和数据科学家可通过交互点击式可视化界面轻松准备数据,而无需编写代码。DataBrew 提供了 250 多种内置转换,无需编写代码即可合并、透视和调换数据。DataBrew 中的清理和转换步骤称为配方。计划的 DataBrew 作业将配方应用于 S3 存储桶中的数据,并将输出存储在另一个存储桶中。</p>\n<p>Amazon Glue 爬网程序可以在 Amazon Glue 数据目录中访问数据存储、提取元数据和创建表定义。您可以调度爬网程序来抓取转换后的数据并创建或更新数据目录。Amazon Glue 数据目录是您的永久性元数据存储。这是一项托管式服务,允许您在 Amazon Cloud 中存储、批注和共享元数据,就像在 Apache Hive 元存储中一样。我们使用爬网程序在数据目录中填充表。</p>\n<h5><a id=\\"_62\\"></a><strong>数据分析</strong></h5>\\n<p>我们可以使用 Athena 来查询 S3 存储桶中的订单和库存数据。Athena 是一种交互式查询服务,可使用标准 SQL 轻松分析 Amazon S3 中的数据。Athena 是一种无服务器服务,因此您无需管理任何基础设施,而且只需为所运行的查询付费。视图是在 Athena 中创建的,可供诸如 QuickSight 之类的商业智能 (BI) 服务使用。</p>\n<h5><a id=\\"_68\\"></a><strong>数据可视化</strong></h5>\\n<p>我们使用 QuickSight 生成控制面板。QuickSight 是一种可扩展、无服务器且可嵌入的 BI 服务,由 ML 提供支持,专为云而构建。借助 QuickSight,您可以轻松创建和发布包含基于 ML 的见解的交互式 BI 控制面板。</p>\n<p>QuickSight 还具有预测订单、检测订单中的异常情况以及提供基于机器学习的见解的功能。我们可以创建分析,例如一段时间内的订单、按渠道划分的订单、订单最多的前 10 大位置或订单履行时间表(从订单创建到订单交付所用的时间)。</p>\n<h4><a id=\\"_76\\"></a><strong>演练概览</strong></h4>\\n<p>要实施该解决方案,我们需要完成以下几大步骤:</p>\n<ol>\\n<li>使用 <a href=\\"http://aws.amazon.com/cloudformation\\" target=\\"_blank\\">Amazon CloudFormation</a> 创建解决方案资源。</li>\\n<li>连接到库存数据库。</li>\n<li>用表加载库存数据库。</li>\n<li>使用 <a href=\\"http://aws.amazon.com/vpc\\" target=\\"_blank\\">Amazon Virtual Private Cloud</a> ([Amazon VPC](https://aws.amazon.com/cn/vpc/?trk=cndc-detail)) 创建 <a href=\\"https://docs.aws.amazon.com/vpc/latest/privatelink/vpc-endpoints.html\\" target=\\"_blank\\">VPC 端点</a>。</li>\\n<li>在默认 VPC 上为 Amazon S3 创建<a href=\\"https://docs.aws.amazon.com/vpc/latest/privatelink/vpce-gateway.html\\" target=\\"_blank\\">网关端点</a>。</li>\\n<li>通过 <a href=\\"https://aws.amazon.com/eventbridge/\\" target=\\"_blank\\">Amazon EventBridge</a> 启用 CloudWatch 规则以摄取数据。</li>\\n<li>使用 Amazon Glue 转换数据。</li>\n<li>使用 QuickSight 可视化数据。</li>\n</ol>\\n<h4><a id=\\"_91\\"></a><strong>先决条件</strong></h4>\\n<p>完成以下必备步骤:</p>\n<ol>\\n<li>如果尚未创建 Amazon 账户,请创建。</li>\n<li>如果以前从未在此账户中使用过 <a href=\\"https://docs.aws.amazon.com/quicksight/latest/user/signing-up.html\\" target=\\"_blank\\">QuickSight</a>,请注册。要在 QuickSight 中使用预测功能,请注册企业版。</li>\\n</ol>\n<h4><a id=\\"_Amazon_CloudFormation__100\\"></a><strong>使用 Amazon CloudFormation 创建资源</strong></h4>\\n<p>要启动提供的 CloudFormation 模板,请完成以下步骤:</p>\n<ol>\\n<li>选择 <strong>Launch Stack</strong>(启动堆栈):</li>\\n</ol>\n<p><a href=\\"https://console.aws.amazon.com/cloudformation/home?region=us-east-1#/stacks/create/template?stackName=operational-data-lake&amp;templateURL=https://aws-blogs-artifacts-public.s3.amazonaws.com/artifacts/BDB-1266/Datalake_Blog_CF.yaml\\" target=\\"_blank\\"><img src=\\"https://dev-media.amazoncloud.cn/313c9e27e54847c5ab76fe67762ebef6_image.png\\" alt=\\"image.png\\" /></a></p>\\n<ol start=\\"2\\">\\n<li>选择 <strong>Next</strong>(下一步)。</li>\\n<li>对于 <strong>Stack name</strong>(堆栈名称),输入名称。</li>\\n<li>提供以下参数:<br />\\na. 保存数据湖所有数据的 S3 存储桶的名称。<br />\\nb. 保存库存表的数据库的名称。<br />\\nc. 数据库用户名。<br />\\nd. 数据库密码。</li>\n<li>输入要分配给堆栈的任何标记,然后选择 <strong>Next</strong>(下一步)。</li>\\n<li>选中确认复选框,然后选择 <strong>Create stack</strong>(创建堆栈)。</li>\\n</ol>\n<p>堆栈需要 5-10 分钟才能完成。</p>\n<p>在 Amazon CloudFormation 控制台上,可以导航到堆栈的 <strong>Outputs</strong>(输出)选项卡以查看您创建的资源。</p>\\n<p><img src=\\"https://dev-media.amazoncloud.cn/361691f583004f36bf2a210e0c9ab6de_image.png\\" alt=\\"image.png\\" /></p>\n<p>如果打开创建的 S3 存储桶,则可以观察其文件夹结构。堆栈创建过去 7 天的示例订单数据。</p>\n<p><img src=\\"https://dev-media.amazoncloud.cn/39848be70754493a8a84d8c878b6903e_image.png\\" alt=\\"image.png\\" /></p>\n<h4><a id=\\"_131\\"></a><strong>连接到库存数据库</strong></h4>\\n<p>要在查询编辑器中连接到数据库,请完成以下步骤:</p>\n<ol>\\n<li>在 Amazon RDS 控制台上,选择在其中部署堆栈的区域。</li>\n</ol>\\n<p><img src=\\"https://dev-media.amazoncloud.cn/4fa5c16a810c452189c9da0d69108b24_image.png\\" alt=\\"image.png\\" /></p>\n<ol start=\\"2\\">\\n<li>在导航窗格中,选择 <strong>Query Editor</strong>(查询编辑器)。</li>\\n</ol>\n<p><img src=\\"https://dev-media.amazoncloud.cn/5559e3a2d3ca4431a9271c0659db73a1_image.png\\" alt=\\"image.png\\" /></p>\n<p>如果之前未连接到过此数据库,则会打开 <strong>Connect to database</strong>(连接到数据库)页面。</p>\\n<ol start=\\"3\\">\\n<li>对于 <strong>Database instance or cluster</strong>(数据库实例或集群),请选择您的数据库。</li>\\n<li>对于 <strong>Database username</strong>(数据库用户名),请选择 <strong>Connect with a Secrets Manager ARN</strong>(使用 Secrets Manager ARN 连接)。<br />\\n堆栈创建期间提供的数据库用户名和密码存储在 <a href=\\"https://aws.amazon.com/secrets-manager/\\" target=\\"_blank\\">Amazon Secrets Manager</a> 中。或者,您可以选择 <strong>Add new database credentials</strong>(添加新的数据库凭据),然后输入您在创建堆栈时提供的数据库用户名和密码。</li>\\n<li>对于 <strong>Secrets Manager ARN</strong>,输入 CloudFormation 堆栈输出中 <code>InventorySecretManager</code> 键的值。</li>\\n<li>或者,输入数据库的名称。</li>\n<li>单击 <strong>Connect to database</strong>(连接到数据库)。</li>\\n</ol>\n<p><img src=\\"https://dev-media.amazoncloud.cn/ec6b9818e87d4eb4a2607dd9986e0ef0_image.png\\" alt=\\"image.png\\" /></p>\n<h4><a id=\\"_156\\"></a><strong>用表加载库存数据库</strong></h4>\\n<p>在查询编辑器中输入以下 DDL 语句,然后选择 <strong>Run</strong>(运行):</p>\\n<pre><code class=\\"lang-\\">CREATE TABLE INVENTORY (\\n ItemID varchar(25) NOT NULL,\\n ShipNode varchar(25) NOT NULL,\\n SupplyType varchar(25) NOT NULL,\\n SupplyDemandType varchar(25) NOT NULL,\\n ItemName varchar(25),\\n UOM varchar(10),\\n Quantity int(11) NOT NULL,\\n ETA varchar(25)\\t ,\\n UpdatedDate DATE,\\n PRIMARY KEY (ItemID,ShipNode,SupplyType)\\n);\\n</code></pre>\\n<p><img src=\\"https://dev-media.amazoncloud.cn/2fd78b9d6a45467abc1799d79f160da8_image.png\\" alt=\\"image.png\\" /></p>\n<h4><a id=\\"_VPC__179\\"></a><strong>创建 VPC 端点</strong></h4>\\n<p>要创建 VPC 端点,请完成以下步骤:</p>\n<ol>\\n<li>在 Amazon VPC 控制台上,选择 <strong>VPC Dashboard</strong>(VPC 控制面板)。</li>\\n<li>在导航窗格中选择 <strong>Endpoints</strong>(端点)。</li>\\n<li>选择 <strong>Create Endpoint</strong>(创建端点)。</li>\\n</ol>\n<p><img src=\\"https://dev-media.amazoncloud.cn/e4ecdfd40bfc45e9ae79a2317ddda306_image.png\\" alt=\\"image.png\\" /></p>\n<ol start=\\"4\\">\\n<li>对于 <strong>Service category</strong>(服务类别),选择 <strong>Amazon services</strong>(Amazon 服务)。</li>\\n<li>对于 <strong>Service name</strong>(服务名称),搜索 <code>rds</code> 并选择以 <code>rds-data</code> 结尾的服务名称。</li>\\n<li>对于 <strong>VPC</strong>,请选择默认 VPC。</li>\\n</ol>\n<p><img src=\\"https://dev-media.amazoncloud.cn/655662f8ee3146139bc8a0bd62fd3e4c_image.png\\" alt=\\"image.png\\" /></p>\n<ol start=\\"7\\">\\n<li>将其余设置保留为默认值,然后选择 <strong>Create endpoint</strong>(创建端点)。</li>\\n</ol>\n<h4><a id=\\"_Amazon_S3__199\\"></a><strong>为 Amazon S3 创建网关端点</strong></h4>\\n<p>要创建网关端点,请完成以下步骤:</p>\n<ol>\\n<li>\\n<p>在 Amazon VPC 控制台上,选择 <strong>VPC Dashboard</strong>(VPC 控制面板)。</p>\\n</li>\n<li>\\n<p>在导航窗格中选择 <strong>Endpoints</strong>(端点)。</p>\\n</li>\n<li>\\n<p>选择 <strong>Create Endpoint</strong>(创建端点)。</p>\\n</li>\n<li>\\n<p>对于 <strong>Service category</strong>(服务类别),选择 <strong>Amazon services</strong>(Amazon 服务)。</p>\\n</li>\n<li>\\n<p>对于 <strong>Service name</strong>(服务名称),搜索 <code>S3</code> 并选择类型为 <strong>Gateway</strong>(网关)的服务名称。</p>\\n</li>\n<li>\\n<p>对于 <strong>VPC</strong>,请选择默认 VPC。</p>\\n</li>\n<li>\\n<p>对于 <strong>Configure route tables</strong>(配置路由表),选择默认路由表。<br />\\n<img src=\\"https://dev-media.amazoncloud.cn/aed804776a4648d88223fbc2bb480b55_image.png\\" alt=\\"image.png\\" /><img src=\\"https://dev-media.amazoncloud.cn/f5ba23f578fe44be85ed51e810821941_image.png\\" alt=\\"image.png\\" /><br />\\n<img src=\\"https://dev-media.amazoncloud.cn/f651e27ba7394c2fa527d9a327bacf07_image.png\\" alt=\\"image.png\\" /></p>\n</li>\\n<li>\\n<p>将其余设置保留为默认值,然后选择 <strong>Create endpoint</strong>(创建端点)。</p>\\n</li>\n</ol>\\n<p>等待网关端点和 VPC 端点状态都变为 <code>Available</code>(可用)。</p>\\n<p><img src=\\"https://dev-media.amazoncloud.cn/97c4f19c00b945f2b3de1a80c8cd822b_image.png\\" alt=\\"image.png\\" /></p>\n<h4><a id=\\"_CloudWatch__221\\"></a><strong>启用 CloudWatch 规则以摄取数据</strong></h4>\\n<p>我们通过 CloudFormation 模板创建了两条 CloudWatch 规则,用于将订单和库存数据摄取到 Kinesis Data Streams。要通过 EventBridge 启用规则,请完成以下步骤:</p>\n<ol>\\n<li>在 CloudWatch 控制台导航窗格中的 <strong>Events</strong>(事件)下,选择 <strong>Rules</strong>(规则)。</li>\\n<li>确保您位于创建堆栈的区域中。</li>\n<li>选择 <strong>Go to Amazon EventBridge</strong>(前往 [Amazon EventBridge](https://aws.amazon.com/cn/eventbridge/?trk=cndc-detail))。</li>\\n</ol>\n<p><img src=\\"https://dev-media.amazoncloud.cn/d98acf43547f48b2948de681d79e39c7_image.png\\" alt=\\"image.png\\" /></p>\n<ol start=\\"4\\">\\n<li>选择规则 <code>Ingest-Inventory-Update-Schedule-Rule</code>,然后选择 <strong>Enable</strong>(启用)。</li>\\n<li>选择规则 <code>Ingest-Order-Schedule-Rule</code>,然后选择 <strong>Enable</strong>(启用)。</li>\\n</ol>\n<p><img src=\\"https://dev-media.amazoncloud.cn/946b961c9e6d4454867901d889cd7b49_image.png\\" alt=\\"image.png\\" /></p>\n<p>5-10 分钟后,Lambda 函数开始将订单和库存更新摄取到各自的流。您可以检查 S3 存储桶 <code>orders-landing-zone</code> 和 <code>inventory-landing-zone</code>,以确认正在填充数据。</p>\\n<h4><a id=\\"_240\\"></a><strong>执行数据转换</strong></h4>\\n<p>我们的 CloudFormation 堆栈包括一个 DataBrew 项目、一个每 5 分钟运行一次的 DataBrew 作业,以及两个 Amazon Glue 爬网程序。要使用我们的 Amazon Glue 资源执行数据转换,请完成以下步骤:</p>\n<ol>\\n<li>在 DataBrew 控制台的导航窗格中,选择 <strong>Projects</strong>(项目)。</li>\\n<li>选择项目 <code>OrderDataTransform</code>。</li>\\n</ol>\n<p><img src=\\"https://dev-media.amazoncloud.cn/9f99f72eeea74fa1821c39921e939f7d_image.png\\" alt=\\"image.png\\" /></p>\n<p>您可以在此页面上查看该项目及其配方。</p>\n<p><img src=\\"https://dev-media.amazoncloud.cn/a38adb021bc0425ca3001b31aeb2ccd9_image.png\\" alt=\\"image.png\\" /></p>\n<ol start=\\"3\\">\\n<li>在导航窗格中,选择 <strong>Jobs</strong>(作业)。</li>\\n<li>查看作业状态以确认其已完成。</li>\n</ol>\\n<p><img src=\\"https://dev-media.amazoncloud.cn/30703600d17a4af096fc11323dac6bf9_image.png\\" alt=\\"image.png\\" /></p>\n<ol start=\\"5\\">\\n<li>在 Amazon Glue 控制台的导航窗格中,选择 <strong>Crawlers</strong>(爬网程序)。<br />\\n爬网程序会抓取转换后的数据并更新数据目录。</li>\n<li>查看两个爬网程序的状态,它们每 15 分钟运行一次。</li>\n</ol>\\n<p><img src=\\"https://dev-media.amazoncloud.cn/650f1b6f7c674a249928eca8a9bdf1fd_image.png\\" alt=\\"image.png\\" /></p>\n<ol start=\\"7\\">\\n<li>在导航窗格中选择 <strong>Tables</strong>(表)以查看爬网程序创建的两个表。<br />\\n如果没有看到这些表,可以手动运行爬网程序来创建它们。</li>\n</ol>\\n<p><img src=\\"https://dev-media.amazoncloud.cn/7604d0ee525c411aa270d4222cbad5fc_image.png\\" alt=\\"image.png\\" /></p>\n<p>您可以使用 Athena 查询表中的数据。</p>\n<ol start=\\"8\\">\\n<li>在 Athena 控制台上,选择 <strong>Query editor</strong>(查询编辑器)。<br />\\n如果尚未创建查询结果位置,系统会提示您先创建。</li>\n<li>选择 <strong>View settings</strong>(查看设置)或选择 <strong>Settings</strong>(设置)选项卡。</li>\\n</ol>\n<p><img src=\\"https://dev-media.amazoncloud.cn/5ed28f317580482f936fab29a5a9cf73_image.png\\" alt=\\"image.png\\" /></p>\n<ol start=\\"10\\">\\n<li>选择 <strong>Manage</strong>(管理)。</li>\\n</ol>\n<p><img src=\\"https://dev-media.amazoncloud.cn/abf06bbcdf804b979e576e675a25a285_image.png\\" alt=\\"image.png\\" /></p>\n<ol start=\\"11\\">\\n<li>选择用于存储结果的 S3 存储桶,然后选择 <strong>Choose</strong>(选择)。</li>\\n</ol>\n<p><img src=\\"https://dev-media.amazoncloud.cn/8f8833a7c90a4b6299f8173700c05f1f_image.png\\" alt=\\"image.png\\" /></p>\n<ol start=\\"12\\">\\n<li>在导航窗格中选择 <strong>Query editor</strong>(查询编辑器)。</li>\\n</ol>\n<p><img src=\\"https://dev-media.amazoncloud.cn/680f1ebe1f114d23b68ce046e4866f73_image.png\\" alt=\\"image.png\\" /></p>\n<ol start=\\"13\\">\\n<li>选择任一表(右键单击),然后选择 <strong>Preview Table</strong>(预览表)以查看表内容。</li>\\n</ol>\n<p><img src=\\"https://dev-media.amazoncloud.cn/c863c173389346689c1da8fa7bacbb6b_image.png\\" alt=\\"image.png\\" /></p>\n<h4><a id=\\"_296\\"></a><strong>可视化数据</strong></h4>\\n<p>如果以前从未在此账户中使用过 QuickSight,请完成先决条件步骤以注册 QuickSight。要使用 QuickSight 的 ML 功能(例如<a href=\\"https://docs.aws.amazon.com/quicksight/latest/user/forecasts-and-whatifs.html\\" target=\\"_blank\\">预测</a>),请按照本<a href=\\"https://docs.aws.amazon.com/quicksight/latest/user/signing-up.html\\" target=\\"_blank\\">文档</a>中的步骤注册企业版。</p>\\n<p>注册 QuickSight 时,请确保使用创建 CloudFormation 堆栈的<strong>同一区域</strong>。</p>\\n<h5><a id=\\"_QuickSight__304\\"></a><strong>向 QuickSight 授予权限</strong></h5>\\n<p>要使数据可视化,必须先向 QuickSight 授予访问数据的相关权限。</p>\n<ol>\\n<li>在 QuickSight 控制台的 <strong>Admin</strong>(管理员)下拉菜单中,选择 <strong>Manage QuickSight</strong>(管理 QuickSight)。</li>\\n</ol>\n<p><img src=\\"https://dev-media.amazoncloud.cn/5b4054aedd2a47c8bcb03086acd158ed_image.png\\" alt=\\"image.png\\" /></p>\n<ol start=\\"2\\">\\n<li>在导航窗格中,选择 <strong>Security &amp; permissions</strong>(安全和权限)。</li>\\n<li>在 <strong>QuickSight access to Amazon services</strong>(QuickSight 访问 Amazon 服务的权限)下,选择 <strong>Manage</strong>(管理)。</li>\\n</ol>\n<p><img src=\\"https://dev-media.amazoncloud.cn/b2c9ec7f89c14426a448b77e7988c491_image.png\\" alt=\\"image.png\\" /></p>\n<ol start=\\"4\\">\\n<li>选择 <strong>Amazon Athena</strong>。</li>\\n<li>选择 <strong>Amazon S3</strong> 以编辑 QuickSight 对 S3 存储桶的访问权限。</li>\\n<li>选择您在堆栈创建期间指定的存储桶(就这篇博文而言,为 <code>operational-datalake</code>)。</li>\\n<li>选择 <strong>Finish</strong>(完成)。</li>\\n</ol>\n<p><img src=\\"https://dev-media.amazoncloud.cn/848214fd6bce4ac3b365b85099ee1011_image.png\\" alt=\\"image.png\\" /></p>\n<ol start=\\"8\\">\\n<li>选择 <strong>Save</strong>(保存)。</li>\\n</ol>\n<h5><a id=\\"_328\\"></a><strong>准备数据集</strong></h5>\\n<p>要准备数据集,请完成以下步骤:</p>\n<ol>\\n<li>在 QuickSight 控制台的导航窗格中,选择 <strong>Datasets</strong>(数据集)。</li>\\n<li>选择 <strong>New dataset</strong>(新建数据集)。</li>\\n</ol>\n<p><img src=\\"https://dev-media.amazoncloud.cn/5aa082bdea944abb81b3f7b23a38e741_image.png\\" alt=\\"image.png\\" /></p>\n<ol start=\\"3\\">\\n<li>选择 <strong>Athena</strong>。</li>\\n</ol>\n<p><img src=\\"https://dev-media.amazoncloud.cn/7ea051b7c750458e8332db0f68550331_image.png\\" alt=\\"image.png\\" /></p>\n<ol start=\\"4\\">\\n<li>对于 <strong>Data source name</strong>(数据源名称),输入 <code>retail-analysis</code>。</li>\\n<li>选择 <strong>Validate connection</strong>(验证连接)。</li>\\n<li>验证连接后,选择 <strong>Create data source</strong>(创建数据源)。</li>\\n</ol>\n<p><img src=\\"https://dev-media.amazoncloud.cn/f233b8516d5a4b41a547dccc6abbe6b2_image.png\\" alt=\\"image.png\\" /></p>\n<ol start=\\"7\\">\\n<li>对于 <strong>Database</strong>(数据库),选择 <code>orderdatalake</code>。</li>\\n<li>对于 <strong>Tables</strong>(表),选择 <code>orders_clean</code>。</li>\\n<li>选择 <strong>Edit/Preview data</strong>(编辑/预览数据)。</li>\\n</ol>\n<p><img src=\\"https://dev-media.amazoncloud.cn/76b8da8104174066826c4ef5bae57c4b_image.png\\" alt=\\"image.png\\" /></p>\n<ol start=\\"10\\">\\n<li>对于 <strong>Query mode</strong>(查询模式),选择 <strong>SPICE</strong>。<br />\\n<a href=\\"https://docs.aws.amazon.com/quicksight/latest/user/spice.html\\" target=\\"_blank\\">SPICE</a>(超快速、并行、内存中计算引擎)是 QuickSight 使用的强大内存中引擎。</li>\\n</ol>\n<p><img src=\\"https://dev-media.amazoncloud.cn/e9bc2793dd434c0fa5da5c6725c76b8a_image.png\\" alt=\\"image.png\\" /></p>\n<ol start=\\"11\\">\\n<li>选择 <code>orderdatetime</code> 字段(右键单击),选择 <strong>Change data type</strong>(更改数据类型),然后选择 <strong>Date</strong>(日期)。</li>\\n</ol>\n<p><img src=\\"https://dev-media.amazoncloud.cn/4e64857eec11407ba0d7f60b9ba027cd_image.png\\" alt=\\"image.png\\" /></p>\n<ol start=\\"12\\">\\n<li>以 <code>MM/dd/yyyy HH:mm:ss</code> 格式输入日期。</li>\\n<li>选择 <strong>Validate</strong>(验证)和 <strong>Update</strong>(更新)。</li>\\n</ol>\n<p><img src=\\"https://dev-media.amazoncloud.cn/41fb86a271b4489e993caeded7e17154_image.png\\" alt=\\"image.png\\" /></p>\n<ol start=\\"14\\">\\n<li>将以下字段的数据类型更改为 QuickSight 地理空间数据类型:<br />\\na. <strong>billingaddress.zipcode</strong> — 邮编<br />\\nb. <strong>billingaddress.city</strong> — 城市<br />\\nc. <strong>billingaddress.country</strong> — 国家/地区<br />\\nd. <strong>billingaddress.state</strong> – 州/省/直辖市<br />\\ne. <strong>shippingaddress.zipcode</strong> — 邮编<br />\\nf. <strong>shippingaddress.city</strong> — 城市<br />\\ng. <strong>shippingaddress.country</strong> — 国家/地区<br />\\nh. <strong>shippingaddress.state</strong> — 州/省/直辖市</li>\\n<li>选择 <strong>Save &amp; publish</strong>(保存并发布)。</li>\\n<li>选择 <strong>Cancel</strong>(取消)退出此页面。</li>\\n</ol>\n<p><img src=\\"https://dev-media.amazoncloud.cn/a1ff5eb282ea472aba9be577021b9537_image.png\\" alt=\\"image.png\\" /></p>\n<p>让我们为 Athena 表 <code>inventory_landing_zone</code> 创建另一个数据集。</p>\\n<ol start=\\"17\\">\\n<li>按照步骤 1-7 创建新数据集。对于 <strong>Table</strong>(表)选项,选择 <code>inventory_landing_zone</code>。</li>\\n<li>选择 <strong>Edit/Preview data</strong>(编辑/预览数据)。</li>\\n</ol>\n<p><img src=\\"https://dev-media.amazoncloud.cn/e48072472e224d9ca15880cc6f45df49_image.png\\" alt=\\"image.png\\" /></p>\n<ol start=\\"19\\">\\n<li>对于 <strong>Query mode</strong>(查询模式),选择 <strong>SPICE</strong>。</li>\\n<li>选择 <strong>Save &amp; publish</strong>(保存并发布)。</li>\\n<li>选择 <strong>Cancel</strong>(取消)退出此页面。</li>\\n</ol>\n<p><img src=\\"https://dev-media.amazoncloud.cn/61d5f9aac7804a9ba6880f784b36c28e_image.png\\" alt=\\"image.png\\" /></p>\n<p>这两个数据集现在都应列在 <strong>Datasets</strong>(数据集)页面上。</p>\\n<p><img src=\\"https://dev-media.amazoncloud.cn/51f68c2d2e1d4f9cbd48188d0d060d98_image.png\\" alt=\\"image.png\\" /></p>\n<ol start=\\"22\\">\\n<li>选择每个数据集,然后选择 <strong>Refresh now</strong>(立即刷新)。</li>\\n</ol>\n<p><img src=\\"https://dev-media.amazoncloud.cn/ef88c7db6f5d41d2aa016dbe028b87f3_image.png\\" alt=\\"image.png\\" /></p>\n<ol start=\\"23\\">\\n<li>选择 <strong>Full refresh</strong>(完全刷新),然后选择 <strong>Refresh</strong>(刷新)。</li>\\n</ol>\n<p><img src=\\"https://dev-media.amazoncloud.cn/4f98f21232f3426b972abb4c3a73ce50_image.png\\" alt=\\"image.png\\" /></p>\n<p>要设置计划刷新,请选择 <strong>Schedule a refresh</strong>(计划刷新)并提供计划详情。</p>\\n<p><img src=\\"https://dev-media.amazoncloud.cn/315b4c97b241454890f394b8d53fd04b_image.png\\" alt=\\"image.png\\" /></p>\n<h5><a id=\\"_412\\"></a><strong>创建分析</strong></h5>\\n<p>要在 QuickSight 中创建分析,请完成以下步骤:</p>\n<ol>\\n<li>在 QuickSight 控制台的导航窗格中,选择 <strong>Analyses</strong>(分析)。</li>\\n<li>选择 <strong>New analysis</strong>(新建分析)。</li>\\n</ol>\n<p><img src=\\"https://dev-media.amazoncloud.cn/ed15b31f85ff4f95b33948b8fd0cc757_image.png\\" alt=\\"image.png\\" /></p>\n<ol start=\\"3\\">\\n<li>选择 <code>orders_clean</code> 数据集。</li>\\n</ol>\n<p><img src=\\"https://dev-media.amazoncloud.cn/bab7c1f73a9c46d5a5ddd972d6c55aef_image.png\\" alt=\\"image.png\\" /></p>\n<ol start=\\"4\\">\\n<li>选择 <strong>Create analysis</strong>(创建分析)。</li>\\n</ol>\n<p><img src=\\"https://dev-media.amazoncloud.cn/69b72eea17f74804b617d44f7f0b1ed7_image.png\\" alt=\\"image.png\\" /></p>\n<ol start=\\"5\\">\\n<li>要调整主题,请在导航窗格中选择 <strong>Themes</strong>(主题),选择首选主题,然后选择 <strong>Apply</strong>(应用)。</li>\\n</ol>\n<p><img src=\\"https://dev-media.amazoncloud.cn/acf47db52eae4394855200134b84af82_image.png\\" alt=\\"image.png\\" /></p>\n<ol start=\\"6\\">\\n<li>将分析命名为 <code>retail-analysis</code>。</li>\\n</ol>\n<p><img src=\\"https://dev-media.amazoncloud.cn/cbf3ade0a6b944e7b84ae1372a30d7c5_image.png\\" alt=\\"image.png\\" /></p>\n<h5><a id=\\"_439\\"></a><strong>在分析中添加可视化效果</strong></h5>\\n<p>接下来,我们开始创建可视化效果。第一个可视化效果显示一段时间内创建的订单。</p>\n<ol>\\n<li>选择控制面板上的空图,对于 Visual type(视觉队形类型),选择折线图。<br />\\n有关视觉对象类型的更多信息,请参阅 <a href=\\"https://docs.aws.amazon.com/quicksight/latest/user/working-with-visual-types.html\\" target=\\"_blank\\">Amazon QuickSight 中的视觉对象类型</a>。</li>\\n</ol>\n<p><img src=\\"https://dev-media.amazoncloud.cn/833ff93c637f48f59d75a3e257d2d493_image.png\\" alt=\\"image.png\\" /></p>\n<ol start=\\"2\\">\\n<li>在 <strong>Field wells</strong>(字段井)下,将 <code>orderdatetime</code> 拖到 <strong>X axis</strong>(X 轴),将 <code>ordernumber</code> 拖到 <strong>Value</strong>(值)。</li>\\n<li>将 <code>ordernumber</code> 设置为 <strong>Aggregate: Count distinct</strong>(聚合: 非重复计数)。</li>\\n</ol>\n<p><img src=\\"https://dev-media.amazoncloud.cn/38e5b95e59a84789a7db2efc5c5878d6_image.png\\" alt=\\"image.png\\" /></p>\n<p>现在我们可以按 <code>Created</code>(已创建)状态筛选这些订单。</p>\\n<ol start=\\"4\\">\\n<li>在导航窗格中选择 <strong>Filter</strong>(筛选器),然后选择 <strong>Create one</strong>(创建一个)。</li>\\n<li>搜索并选择 <strong>status</strong>(状态)。</li>\\n</ol>\n<p><img src=\\"https://dev-media.amazoncloud.cn/30cbf2105b7e49f0af7aaabb851ad4f5_image.png\\" alt=\\"image.png\\" /></p>\n<ol start=\\"6\\">\\n<li>选择您刚刚创建的 <strong>status</strong>(状态)筛选器。</li>\\n</ol>\n<p><img src=\\"https://dev-media.amazoncloud.cn/d88e05ffd3a042e4a24ac7569fcfc9da_image.png\\" alt=\\"image.png\\" /></p>\n<ol start=\\"7\\">\\n<li>从筛选器列表中选择 <strong>Created</strong>(已创建),然后选择 <strong>Apply</strong>(应用)。</li>\\n</ol>\n<p><img src=\\"https://dev-media.amazoncloud.cn/6e0a81f4275a4e7397ccdd6d4b4a8316_image.png\\" alt=\\"image.png\\" /></p>\n<ol start=\\"8\\">\\n<li>选择图表(右键单击),然后选择 <strong>Add forecast</strong>(添加预测)。<br />\\n仅企业版提供预测功能。QuickSight 使用 Random Cut Forest (RCF) 算法的内置版本。有关更多信息,请参阅<a href=\\"https://docs.aws.amazon.com/quicksight/latest/user/concept-of-ml-algorithms.html\\" target=\\"_blank\\">了解 Amazon QuickSight 使用的 ML 算法</a>。</li>\\n</ol>\n<p><img src=\\"https://dev-media.amazoncloud.cn/e2e1de5ed96540a2932995f7022754cc_image.png\\" alt=\\"image.png\\" /></p>\n<ol start=\\"9\\">\\n<li>将设置保留为默认值,然后选择 <strong>Apply</strong>(应用)。</li>\\n<li>将可视化效果重命名为“Orders Created Over Time”(一段时间内创建的订单)。</li>\n</ol>\\n<p>如果成功应用预测,则可视化效果显示预期的订单数量以及上限和下限。</p>\n<p><img src=\\"https://dev-media.amazoncloud.cn/304c46927a18401998530c52ee04118a_image.png\\" alt=\\"image.png\\" /></p>\n<p>如果您收到以下错误消息,请先让数据累积几天,然后再添加预测。</p>\n<p><img src=\\"https://dev-media.amazoncloud.cn/572cec745f9644d7abd5c8a757f3685c_image.png\\" alt=\\"image.png\\" /></p>\n<p>接下来,我们创建一个各位置的订单可视化效果。</p>\n<ol start=\\"11\\">\\n<li>在 <strong>Add</strong>(添加)菜单上,选择 <strong>Add visual</strong>(添加视觉对象)。</li>\\n</ol>\n<p><img src=\\"https://dev-media.amazoncloud.cn/5fa4f3af37e94f439510ec55b73914ba_image.png\\" alt=\\"image.png\\" /></p>\n<ol start=\\"12\\">\\n<li>选择地图视觉对象类型上的点。</li>\n</ol>\\n<p><img src=\\"https://dev-media.amazoncloud.cn/fd842d07b1b3470e853be50c822a7b93_image.png\\" alt=\\"image.png\\" /></p>\n<ol start=\\"13\\">\\n<li>在 <strong>Field wells</strong>(字段井)下,将 <code>shippingaddress.zipcode</code> 拖到 <strong>Geospatial</strong>(地理空间),将 <code>ordernumber</code> 拖到 <strong>Size</strong>(大小)。</li>\\n<li>将 <code>ordernumber</code> 更改为 <strong>Aggregate: Count distinct</strong>(聚合: 非重复计数)。</li>\\n</ol>\n<p><img src=\\"https://dev-media.amazoncloud.cn/5249818ec1dd4b65a74465056cb5609d_image.png\\" alt=\\"image.png\\" /></p>\n<p>现在,您应该会看到一张地图,指示各位置的订单。</p>\n<ol start=\\"15\\">\\n<li>相应地重命名可视化效果。</li>\n</ol>\\n<p><img src=\\"https://dev-media.amazoncloud.cn/5341338c02c149529e4a6bac99d07ca0_image.png\\" alt=\\"image.png\\" /></p>\n<p>接下来,我们创建库存计数的向下钻取可视化效果。</p>\n<ol start=\\"16\\">\\n<li>选择铅笔图标。</li>\n</ol>\\n<p><img src=\\"https://dev-media.amazoncloud.cn/36106f1471f94b54883a800aaf021901_image.png\\" alt=\\"image.png\\" /></p>\n<ol start=\\"17\\">\\n<li>选择 <strong>Add dataset</strong>(添加数据集)。</li>\\n</ol>\n<p><img src=\\"https://dev-media.amazoncloud.cn/a9912bfaa39d4f10aa0e98d3daa0cf9b_image.png\\" alt=\\"image.png\\" /></p>\n<ol start=\\"18\\">\\n<li>选择 <code>inventory_landing_zone</code> 数据集,然后选择 <strong>Select</strong>(选择)。</li>\\n</ol>\n<p><img src=\\"https://dev-media.amazoncloud.cn/fcb1fa1b36fe4b73965bed8cc25d6878_image.png\\" alt=\\"image.png\\" /></p>\n<ol start=\\"19\\">\\n<li>选择 <code>inventory_landing_zone</code> 数据集。</li>\\n</ol>\n<p><img src=\\"https://dev-media.amazoncloud.cn/8a3e015a0aab4ba9b61507e4cfbdb7e0_image.png\\" alt=\\"image.png\\" /></p>\n<ol start=\\"20\\">\\n<li>添加纵条图视觉对象类型。</li>\n</ol>\\n<p><img src=\\"https://dev-media.amazoncloud.cn/538005f9e3a84a47bf50cb781e674584_image.png\\" alt=\\"image.png\\" /></p>\n<ol start=\\"21\\">\\n<li>在 <strong>Field wells</strong>(字段井)下,将 <code>itemname</code>、<code>shipnode</code> 和 <code>invtype</code> 拖到 <strong>X axis</strong>(X 轴),将 quantity 拖到 <strong>Value</strong>(值)。</li>\\n<li>确保将 quantity 设置为 <strong>Sum</strong>(求和)。</li>\\n</ol>\n<p><img src=\\"https://dev-media.amazoncloud.cn/49240be62c8343d9b20b21c5d8543043_image.png\\" alt=\\"image.png\\" /></p>\n<p>以下屏幕截图显示了订单库存的可视化效果示例。</p>\n<p><img src=\\"https://dev-media.amazoncloud.cn/0cd93afa14944df5938e78f0daff4141_image.png\\" alt=\\"image.png\\" /></p>\n<ol start=\\"23\\">\\n<li>要确定从每个船舶节点发运了多少口罩,请选择 <strong>Face Masks</strong>(口罩)(右键单击),然后选择 <strong>Drill down to shipnode</strong>(向下钻取到船舶节点)。</li>\\n</ol>\n<p><img src=\\"https://dev-media.amazoncloud.cn/0507af9e865c4906b52cd3527b0be80d_image.png\\" alt=\\"image.png\\" /></p>\n<ol start=\\"24\\">\\n<li>您可以进一步向下钻取到 <code>invtype</code>,以查看特定船舶节点有多少口罩处于哪种状态。</li>\\n</ol>\n<p><img src=\\"https://dev-media.amazoncloud.cn/30d127a05e334a6e8a7de3f4061ba6e1_image.png\\" alt=\\"image.png\\" /></p>\n<p>以下屏幕截图显示了此向下钻取的库存计数。</p>\n<p><img src=\\"https://dev-media.amazoncloud.cn/92a67e8971d34944b8d847ca4cde26a9_image.png\\" alt=\\"image.png\\" /></p>\n<p>下一步,您可以根据创建的分析创建 QuickSight 控制面板。有关说明,请参阅<a href=\\"https://docs.aws.amazon.com/quicksight/latest/user/example-create-a-dashboard.html\\" target=\\"_blank\\">教程:创建 Amazon QuickSight 控制面板</a>。</p>\\n<h4><a id=\\"_552\\"></a><strong>清理</strong></h4>\\n<p>为避免产生任何持续费用,请在 Amazon CloudFormation 控制台上选择您创建的堆栈,然后选择 <strong>Delete</strong>(删除)。这将删除所有创建的资源。在堆栈的 <strong>Events</strong>(事件)选项卡上,您可以跟踪删除进度,并等待堆栈状态更改为 <code>DELETE_COMPLETE</code>。</p>\\n<p>Amazon EventBridge 规则每 15 分钟生成一次订单和库存数据,为避免生成大量数据,请确保在测试博客后删除堆栈。</p>\n<p>如果删除任何资源失败,请确保手动删除它们。要删除 Amazon QuickSight 数据集,您可以按照<a href=\\"https://docs.aws.amazon.com/quicksight/latest/user/delete-a-data-set.html\\" target=\\"_blank\\">这些说明</a>进行操作。您可以使用<a href=\\"https://docs.aws.amazon.com/quicksight/latest/user/deleting-an-analysis.html\\" target=\\"_blank\\">这些步骤</a>删除 QuickSight 分析。要删除 QuickSight 订阅并关闭账户,您可以按照<a href=\\"https://docs.aws.amazon.com/quicksight/latest/user/closing-account.html\\" target=\\"_blank\\">这些说明</a>进行操作。</p>\\n<h4><a id=\\"_562\\"></a><strong>结论</strong></h4>\\n<p>在这篇博文中,我们向您展示了如何使用 Amazon 分析和存储服务来构建无服务器运营数据湖。Kinesis Data Streams 可让您摄取大量数据,DataBrew 可让您直观地清理和转换数据。我们还向您展示了如何使用 Amazon Glue、Athena 和 QuickSight 分析和可视化订单及库存数据。有关 Amazon 上数据湖的更多信息和资源,请访问 <a href=\\"https://aws.amazon.com/big-data/datalakes-and-analytics/\\" target=\\"_blank\\">Amazon 上的分析</a>。</p>\\n<h5><a id=\\"_568\\"></a><strong>关于作者</strong></h5>\\n<p><img src=\\"https://dev-media.amazoncloud.cn/225b0165fb9e4a919bfe9731ac54f9b7_image.png\\" alt=\\"image.png\\" /></p>\n<p><strong>Gandhi Raketla</strong> 是 Amazon 的高级解决方案架构师。他与 Amazon 客户和合作伙伴就云采用以及构建解决方案来帮助客户提高敏捷性和创新能力进行合作。他擅长 Amazon 数据分析领域。</p>\\n<p><img src=\\"https://dev-media.amazoncloud.cn/aefd010685aa49439176aaa4d2b03956_image.png\\" alt=\\"image.png\\" /></p>\n<p><strong>Sindhura Palakodety</strong> 是 Amazon 的解决方案架构师。她热衷于帮助客户在 Amazon Cloud 上构建架构完善的企业级解决方案,擅长容器和数据分析领域。</p>\n"}
目录
亚马逊云科技解决方案 基于行业客户应用场景及技术领域的解决方案
联系亚马逊云科技专家
亚马逊云科技解决方案
基于行业客户应用场景及技术领域的解决方案
联系专家
0
目录
关闭