Amazon 大数据三种经典玩法

大数据
数据分析
EMR
0
0
{"value":"### **前言**\n#### **1、Amazon 一站式大数据分析平台**\nAmazon Web Services 提供了一套全面且完全集成的云计算服务产品组合,可帮助您构建、保护和部署大数据应用程序。借助 Amazon,您无需购买硬件,也无需维护和扩展基础架构,因此可以将您的资源集中用于发掘新的洞察。\n借助 Amazon 的大数据服务能够构建几乎任何大数据应用程序,方便帮助您收集、存储、处理、分析和可视化云中的大数据,包括数据仓库、点击流分析、欺诈侦测、推荐引擎、事件驱动 ETL、[无服务器](https://aws.amazon.com/cn/serverless/?trk=cndc-detail)计算和物联网处理等多种典型应用。详情可参考官方介绍。[https://aws.amazon.com/cn/big-data/datalakes-and-analytics/?nc=sn&loc=1](https://aws.amazon.com/cn/big-data/datalakes-and-analytics/?nc=sn&loc=1)\n亚马逊云科技提供了100余种产品免费套餐。其中,计算资源[Amazon EC2 ](https://aws.amazon.com/cn/ec2/?trk=cndc-detail)首年12个月免费,750小时/月;存储资源 [Amazon S3](https://aws.amazon.com/cn/s3/?trk=cndc-detail) 首年12个月免费,5GB标准存储容量。\n[https://aws.amazon.com/cn/free/?nc2=h_ql_pr_ft&all-free-tier.sort-by=item.additionalFields.SortRank&all-free-tier.sort-order=asc&awsf.Free%20Tier%20Types=*all&awsf.Free%20Tier%20Categories=*all&trk=e0213267-9c8c-4534-bf9b-ecb1c06e4ac6&sc_channel=el](https://aws.amazon.com/cn/free/?nc2=h_ql_pr_ft&all-free-tier.sort-by=item.additionalFields.SortRank&all-free-tier.sort-order=asc&awsf.Free%20Tier%20Types=*all&awsf.Free%20Tier%20Categories=*all&trk=e0213267-9c8c-4534-bf9b-ecb1c06e4ac6&sc_channel=el)\n#### **2、让人不得不喜欢的 Amazon**\n**优点:**\n1、**可扩展的数据湖**(Amazon 支持的数据湖在 [Amazon S3](https://aws.amazon.com/cn/s3/?trk=cndc-detail) 的非凡可用性的辅助下,可以处理组合不同数据和分析方法所需的规模、敏捷性和灵活性。在 Amazon 上构建和存储您的数据湖以获得比使用传统数据孤岛和数据仓库更深入的洞察力。)\n2、**专为满足性能和成本需求构建**(Amazon 分析服务专门用来帮助您快速地提取数据洞察力,使用最适合任务的工具,经过优化后针对您的需求实现最佳性能、规模和成本。)\n3、**[无服务器](https://aws.amazon.com/cn/serverless/?trk=cndc-detail)且易于使用**(Amazon 拥有云数据分析中最多的[无服务器](https://aws.amazon.com/cn/serverless/?trk=cndc-detail)选项,包括数据仓库、大数据分析、实时数据、数据集成等选项。我们管理底层基础设施,以便您就可以专注于您的应用程序。)\n4、**数据访问、数据安全和数据管控一统云端**(您可以通过 Amazon 定义和管理安全、治理和审计策略,以满足行业和地域特定的法规要求。通过 Amazon,您可以访问位于世界各地的数据,并且无论您在哪里存储数据,我们都倾心保护它的安全。)\n5、**[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)(ML)集成**(Amazon 提供内置的 ML 集成,随专门构建的分析服务一起提供。您可以使用熟悉的 SQL 命令创建、训练和部署[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)模型,而无需任何[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)经验。)\n6、再来看一组数据,哈哈哈,妥妥的“**别人家的孩子**”。\n\n![image.png](https://dev-media.amazoncloud.cn/3841d34247d94df283fb9ef6bbfe3458_image.png)\n\n**缺点**:\n唯一的缺点就是官方的一些视频和文档是英文的,但是对有一定英文基础的同学来说这都不是事,哈哈哈,实在不行咱还有翻译器。\n#### **3、个人建议**\n当企业中出现如下问题或场景时,选择 Amazon,它会给一个满意的全套解决方案。\n1、 当前企业面临着严重的基础设施老旧、自动化程度低、专用工具缺乏和繁重的资本支出的问题。\n2、 企业被传统商业数据库束缚,而难以开展创新, 但仍需要商用数据库的性能。 \n3、 运维耗时但价值输出较低,但企业又不得不在这方面耗费精力和成本。 \n4、企业拥有 TB 级、PB 级的结构化数据和数倍于此的非结构化数据,分布在全球的用户,并以极低的延迟每秒处理数百万个请求。 \n#### **4、文章说明**\n本文主要针对 Amazon 大数据一站式全家桶,结合不同企业现状和应用需求提出对应三种 Amazon 解决方案,并展示部分实际应用场景,并对比踩坑,提出中肯建议。\n### **一、Amazon 大数据平台全家桶简介**\n![image.png](https://dev-media.amazoncloud.cn/89aa71ff77224142acfdd19103427d84_image.png)\n\n整个 Amazon 我们分三部分介绍,即一首一尾+中间 Amazon 大数据体系组件。\n#### **1、一首(数据源)**\n如图所示 Amazon 可以处理的数据源,包括结构化的数据如:ERP/CRM等系统的业务数据,也可以处理非结构化的数据如图像/视频/音频和物联网设备的数据,等等。\n#### **2、一尾(数据应用)**\n即我们将数据源获取到的数据进行数据分析和形成 API 的形式对接其他业务场景。这里包括了 Amazon 常用的可视化组件 [Amazon Quicksight](https://aws.amazon.com/cn/quicksight/?c=a&sec=srv)\n#### **3、中间(大数据体系)**\n##### **3.1导入组件**\n**Amazon Direct Connect** 是一个采用专用带宽来直连数据的组件; **Amazon Database migration** **专业迁移关系型数据库数据**的组件,如获取 ERP/CRM 系统中数据,数据库类型如 oracle、mysql 等,主要用于**处理历史数据和大批量数据;[Amazon Kinesis](https://aws.amazon.com/cn/kinesis/?trk=cndc-detail)** 用于**处理实时数据**,做**实时数据分析**,相当于 kafka+flink;**Internet of Things(lot)** 接入物联网的数据和搭建物联网模型的组件。\n##### **3.2数据处理组件**\nS3 用于**数据存储**的组件;Glue **简单数据处理**组件,用于数据简单的聚合、过滤、清洗等;EMR 处理个性化、高阶数据分析需求,属于 Hadoop 生态体系,性能更佳。数据处理,包括批处理和流处理,即批量处理离线数据,一般是数据量大、处理时间长的场景。流处理属于处理实时数据做实时分析和消息推送,比如查看实时双十一的销售额。[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)与人工智能组件主要是通过大数据提供的模型进行[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail),同时也可以进行图像识别、语音处理如聊天机器人。\n##### **3.3服务组件**\n**Athena** 可以直接访问 S3 的数据,提供 SQ 查询的功能,属于 SQ 工具类;**ES** 与开源的 ES 一致,Amazon 将其集成在全家桶内;**EMR** 用于**大数据处理**组件,是 hive 类组件集合;**RedShift** 是一个大型的数仓,在底层做了较多性能优化,可以处理 PB 级数据量。**RDS** 属于 Amazon 托管的关系型数据库;**DynamoDB** 是 Amazon 自研的关系型数据库。这些组件都可以对外提供 JDBC 的数据服务。\n#### **二、三种经典玩法的对比**\n#### **1、全部采用 Amazon 的组件**\n优点:集成度高、可共用元数据、组件之间集成快、使用流畅性好、开发效率高。\n缺点:需要部署到 Amazon 的云平台,不能部署到其他国内的商业云,如阿里云、腾讯云等。\n#### **2、Amazon 组件+EMR(深度分析)**\n优点:支持复杂分析场景+可兼容开源。\n缺点:暂未发现其缺点,兼容了第一种玩法 Amazon 的优势又支持复杂的应用场景,也兼容了开源的语法,目前认为最佳的组合拳。\n#### **3、全部采用开源 EMR+Amazon 环境托管**\n优点:Amazon 托管不需要考虑太多底层的东西,自主研发,灵活度高,支持目前的各大厂商。\n缺点:集成度不高,需要强大懂开源的开发团队,研发周期长。\n#### **4、总结**\n具体采用哪种玩法,需结合公司具体的业务场景来选择,如果公司有一定的研发力量又想自定义部署,建议采用第二种玩法。\n### **三、Amazon 实操案例**\n#### **1、业务流程图**\n![image.png](https://dev-media.amazoncloud.cn/3755111bdf8742fcb0afe2f53addaac4_image.png)\n\n具体流程如上图所示,我们从任何一个可访问的 **RDS** 关系型数据获取数据源,通过 **DMS** 处理后存储至 **S3** 里面,然后我们将 S3 中的数据类似 ETL 的数据处理,即通过 **Glue** 进行处理。然后将处理后的数据存储至 **Redshift** 的数仓里面去,然后我们可以通过 **Athena** 提供 SQ 查询功能访问数仓或者 Glue 里面的数据,然后再通过报表工具(**QuickSight**)进行展示。哈哈,通过上面的全家桶介绍,发现理解下面的流程图是不是非常的简单了。\n#### **2、RDS→DMS→S3 实例**\n目的:将 mysql 关系型数据库 user 表的记录通过 DMS 工具,抽取至 S3 中。\n\n![image.png](https://dev-media.amazoncloud.cn/5c1cdb6ec1604c378f99873d7d7abae7_image.png)\n\nS3 配置:首先我们在 Amazon 平台上创建 S3 的桶来存储我们要抽取的数据。创建过程我们按系统提示输入即可非常方便,如果不能找到 S3 的组件,可在搜索栏进行搜索。具体如下图所示。\n\n![image.png](https://dev-media.amazoncloud.cn/6ab3a5758590448e9fbc8792808913fe_image.png)\n\n![image.png](https://dev-media.amazoncloud.cn/b9e0be63ae274375aaf421445fc4bf23_image.png)\n\nDMS 配置:类似搜索 dms 进入 dms 组件操作界面,配置对应数据库 URL ,创建实例、创建作业从 mysql 到 s3 。如图所示创建过程很简单,只需要按照对应水印操作即可。\n\n![image.png](https://dev-media.amazoncloud.cn/198a20389aaf44fe86c9ae2a347dda0e_image.png)\n\n![image.png](https://dev-media.amazoncloud.cn/2224cc179e7a4c508647aedd3eb05251_image.png)\n\n![image.png](https://dev-media.amazoncloud.cn/336316e7853b4b138d03bf251402d505_image.png)\n\n![image.png](https://dev-media.amazoncloud.cn/eca6b5db3f424dc9bb88f78bcd3a53d8_image.png)\n\n![image.png](https://dev-media.amazoncloud.cn/5dd6d73578064a06b25888f7f2ccc4b0_image.png)\n\n运行实例:点击创建好的实例,去 S3 中查看运行的结果。如下图所示我们可以在 S3 里面查看对应抽取的数据,然后点击对应数据查看,抽取过来的记录是和 mysql 源数据库数据是一致的。\n\n![image.png](https://dev-media.amazoncloud.cn/7211687c55d4413f85a904f78f3c6c3f_image.png)\n\n![image.png](https://dev-media.amazoncloud.cn/93094e50221f44269db2e3e1c114c185_image.png)\n\n![image.png](https://dev-media.amazoncloud.cn/cdcc7f5b597a47d0871cd973a9485ee3_image.png)\n\n### **四、总结**\n1、Amazon 自家的组件使用非常的方便,整个开发过程也可监控,全程可视化配置。Amazon 的默认配置是根据常用开发场景进行设置的,因此可大大提高开发效率。而 Amazon 的组件的高度集成不得不让人竖起大拇指。\n2、我们可根据我们业务实际情况,选择不同的玩法更好适配业务的发展。\n3、 不管哪种玩法,Amazon 都提供了托管服务和基础架构组件。架构现代化是一切创新的基石,其最重要的理念是“The right tool for the job”,即在不同的场景使用专门构建的工具,而专门的工具需要专业的现代化托管平台,这些都可以大量节省企业的时间、金钱和精力。 Amazon 无疑是最佳的选择之一。\n亚马逊云科技专为开发者们打造了多种学习平台:\n1. 入门资源中心:从0到1 轻松上手云服务,内容涵盖:成本管理,上手训练,开发资源。[https://aws.amazon.com/cn/getting-started/?nc1=h_ls&trk=32540c74-46f0-46dc-940d-621a1efeedd0&sc_channel=el](https://aws.amazon.com/cn/getting-started/?nc1=h_ls&trk=32540c74-46f0-46dc-940d-621a1efeedd0&sc_channel=el)\n2. [架构中心](https://aws.amazon.com/cn/architecture/?trk=cndc-detail):亚马逊云科技[架构中心](https://aws.amazon.com/cn/architecture/?trk=cndc-detail)提供了云平台参考架构图表、经过审查的架构解决方案、Well-Architected 最佳实践、模式、图标等。[https://aws.amazon.com/cn/architecture/?intClick=dev-center-2021_main&trk=3fa608de-d954-4355-a20a-324daa58bbeb&sc_channel=el](https://aws.amazon.com/cn/architecture/?intClick=dev-center-2021_main&trk=3fa608de-d954-4355-a20a-324daa58bbeb&sc_channel=el)\n3. [构建者库](https://aws.amazon.com/cn/builders-library/?trk=cndc-detail):了解亚马逊云科技如何构建和运营软件。[https://aws.amazon.com/cn/builders-library/?cards-body.sort-by=item.additionalFields.sortDate&cards-body.sort-order=desc&awsf.filter-content-category=*all&awsf.filter-content-type=*all&awsf.filter-content-level=*all&trk=835e6894-d909-4691-aee1-3831428c04bd&sc_channel=el](https://aws.amazon.com/cn/builders-library/?cards-body.sort-by=item.additionalFields.sortDate&cards-body.sort-order=desc&awsf.filter-content-category=*all&awsf.filter-content-type=*all&awsf.filter-content-level=*all&trk=835e6894-d909-4691-aee1-3831428c04bd&sc_channel=el)\n4. 用于在亚马逊云科技平台上开发和管理应用程序的工具包:[https://aws.amazon.com/cn/tools/?intClick=dev-center-2021_main&trk=972c69e1-55ec-43af-a503-d458708bb645&sc_channel=el](https://aws.amazon.com/cn/tools/?intClick=dev-center-2021_main&trk=972c69e1-55ec-43af-a503-d458708bb645&sc_channel=el)\n\n\n【专属福利】\n 福利一:100余种产品免费套餐。其中,计算资源 [Amazon EC2 ](https://aws.amazon.com/cn/ec2/?trk=cndc-detail)首年12个月免费,750小时/月;存储资源 [Amazon S3](https://aws.amazon.com/cn/s3/?trk=cndc-detail) 首年12个月免费,5GB标准存储容量。[https://aws.amazon.com/cn/free/?nc2=h_ql_pr_ft&all-free-tier.sort-by=item.additionalFields.SortRank&all-free-tier.sort-order=asc&awsf.Free%20Tier%20Types=*all&awsf.Free%20Tier%20Categories=*all&trk=e0213267-9c8c-4534-bf9b-ecb1c06e4ac6&sc_channel=el](https://aws.amazon.com/cn/free/?nc2=h_ql_pr_ft&all-free-tier.sort-by=item.additionalFields.SortRank&all-free-tier.sort-order=asc&awsf.Free%20Tier%20Types=*all&awsf.Free%20Tier%20Categories=*all&trk=e0213267-9c8c-4534-bf9b-ecb1c06e4ac6&sc_channel=el)\n 福利二:最新优惠大礼包,200\$数据与分析抵扣券,200\$[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)抵扣券,200\$微服务与应用开发抵扣券。[https://aws.amazon.com/cn/free/?nc2=h_ql_pr_ft&all-free-tier.sort-by=item.additionalFields.SortRank&all-free-tier.sort-order=asc&awsf.Free%20Tier%20Types=*all&awsf.Free%20Tier%20Categories=*all&trk=e0213267-9c8c-4534-bf9b-ecb1c06e4ac6&sc_channel=el](https://aws.amazon.com/cn/free/?nc2=h_ql_pr_ft&all-free-tier.sort-by=item.additionalFields.SortRank&all-free-tier.sort-order=asc&awsf.Free%20Tier%20Types=*all&awsf.Free%20Tier%20Categories=*all&trk=e0213267-9c8c-4534-bf9b-ecb1c06e4ac6&sc_channel=el)\\n福利三:解决方案 CloudFormation 一键部署模版库 [https://aws.amazon.com/cn/quickstart/?solutions-all.sort-by=item.additionalFields.sortDate&solutions-all.sort-order=desc&awsf.filter-tech-category=*all&awsf.filter-industry=*all&awsf.filter-content-type=*all&trk=afdbbdf0-610b-4421-ac0c-a6b31f902e4b&sc_channel=el\\n](https://aws.amazon.com/cn/quickstart/?solutions-all.sort-by=item.additionalFields.sortDate&solutions-all.sort-order=desc&awsf.filter-tech-category=*all&awsf.filter-industry=*all&awsf.filter-content-type=*all&trk=afdbbdf0-610b-4421-ac0c-a6b31f902e4b&sc_channel=el\\n)","render":"<h3><a id=\\"_0\\"></a><strong>前言</strong></h3>\\n<h4><a id=\\"1Amazon__1\\"></a><strong>1、Amazon 一站式大数据分析平台</strong></h4>\\n<p>Amazon Web Services 提供了一套全面且完全集成的云计算服务产品组合,可帮助您构建、保护和部署大数据应用程序。借助 Amazon,您无需购买硬件,也无需维护和扩展基础架构,因此可以将您的资源集中用于发掘新的洞察。<br />\\n借助 Amazon 的大数据服务能够构建几乎任何大数据应用程序,方便帮助您收集、存储、处理、分析和可视化云中的大数据,包括数据仓库、点击流分析、欺诈侦测、推荐引擎、事件驱动 ETL、无服务器计算和物联网处理等多种典型应用。详情可参考官方介绍。<a href=\\"https://aws.amazon.com/cn/big-data/datalakes-and-analytics/?nc=sn&amp;loc=1\\" target=\\"_blank\\">https://aws.amazon.com/cn/big-data/datalakes-and-analytics/?nc=sn&amp;loc=1</a><br />\\n亚马逊云科技提供了100余种产品免费套餐。其中,计算资源Amazon EC2 首年12个月免费,750小时/月;存储资源 Amazon S3 首年12个月免费,5GB标准存储容量。<br />\\n<a href=\\"https://aws.amazon.com/cn/free/?nc2=h_ql_pr_ft&amp;all-free-tier.sort-by=item.additionalFields.SortRank&amp;all-free-tier.sort-order=asc&amp;awsf.Free%20Tier%20Types=*all&amp;awsf.Free%20Tier%20Categories=*all&amp;trk=e0213267-9c8c-4534-bf9b-ecb1c06e4ac6&amp;sc_channel=el\\" target=\\"_blank\\">https://aws.amazon.com/cn/free/?nc2=h_ql_pr_ft&amp;all-free-tier.sort-by=item.additionalFields.SortRank&amp;all-free-tier.sort-order=asc&amp;awsf.Free%20Tier%20Types=*all&amp;awsf.Free%20Tier%20Categories=*all&amp;trk=e0213267-9c8c-4534-bf9b-ecb1c06e4ac6&amp;sc_channel=el</a></p>\\n<h4><a id=\\"2_Amazon_6\\"></a><strong>2、让人不得不喜欢的 Amazon</strong></h4>\\n<p><strong>优点:</strong><br />\\n1、<strong>可扩展的数据湖</strong>(Amazon 支持的数据湖在 Amazon S3 的非凡可用性的辅助下,可以处理组合不同数据和分析方法所需的规模、敏捷性和灵活性。在 Amazon 上构建和存储您的数据湖以获得比使用传统数据孤岛和数据仓库更深入的洞察力。)<br />\\n2、<strong>专为满足性能和成本需求构建</strong>(Amazon 分析服务专门用来帮助您快速地提取数据洞察力,使用最适合任务的工具,经过优化后针对您的需求实现最佳性能、规模和成本。)<br />\\n3、<strong>无服务器且易于使用</strong>(Amazon 拥有云数据分析中最多的无服务器选项,包括数据仓库、大数据分析、实时数据、数据集成等选项。我们管理底层基础设施,以便您就可以专注于您的应用程序。)<br />\\n4、<strong>数据访问、数据安全和数据管控一统云端</strong>(您可以通过 Amazon 定义和管理安全、治理和审计策略,以满足行业和地域特定的法规要求。通过 Amazon,您可以访问位于世界各地的数据,并且无论您在哪里存储数据,我们都倾心保护它的安全。)<br />\\n5、<strong>机器学习(ML)集成</strong>(Amazon 提供内置的 ML 集成,随专门构建的分析服务一起提供。您可以使用熟悉的 SQL 命令创建、训练和部署机器学习模型,而无需任何机器学习经验。)<br />\\n6、再来看一组数据,哈哈哈,妥妥的“<strong>别人家的孩子</strong>”。</p>\\n<p><img src=\\"https://dev-media.amazoncloud.cn/3841d34247d94df283fb9ef6bbfe3458_image.png\\" alt=\\"image.png\\" /></p>\\n<p><strong>缺点</strong>:<br />\\n唯一的缺点就是官方的一些视频和文档是英文的,但是对有一定英文基础的同学来说这都不是事,哈哈哈,实在不行咱还有翻译器。</p>\\n<h4><a id=\\"3_19\\"></a><strong>3、个人建议</strong></h4>\\n<p>当企业中出现如下问题或场景时,选择 Amazon,它会给一个满意的全套解决方案。<br />\\n1、 当前企业面临着严重的基础设施老旧、自动化程度低、专用工具缺乏和繁重的资本支出的问题。<br />\\n2、 企业被传统商业数据库束缚,而难以开展创新, 但仍需要商用数据库的性能。<br />\\n3、 运维耗时但价值输出较低,但企业又不得不在这方面耗费精力和成本。<br />\\n4、企业拥有 TB 级、PB 级的结构化数据和数倍于此的非结构化数据,分布在全球的用户,并以极低的延迟每秒处理数百万个请求。</p>\\n<h4><a id=\\"4_25\\"></a><strong>4、文章说明</strong></h4>\\n<p>本文主要针对 Amazon 大数据一站式全家桶,结合不同企业现状和应用需求提出对应三种 Amazon 解决方案,并展示部分实际应用场景,并对比踩坑,提出中肯建议。</p>\\n<h3><a id=\\"Amazon__27\\"></a><strong>一、Amazon 大数据平台全家桶简介</strong></h3>\\n<p><img src=\\"https://dev-media.amazoncloud.cn/89aa71ff77224142acfdd19103427d84_image.png\\" alt=\\"image.png\\" /></p>\\n<p>整个 Amazon 我们分三部分介绍,即一首一尾+中间 Amazon 大数据体系组件。</p>\\n<h4><a id=\\"1_31\\"></a><strong>1、一首(数据源)</strong></h4>\\n<p>如图所示 Amazon 可以处理的数据源,包括结构化的数据如:ERP/CRM等系统的业务数据,也可以处理非结构化的数据如图像/视频/音频和物联网设备的数据,等等。</p>\\n<h4><a id=\\"2_33\\"></a><strong>2、一尾(数据应用)</strong></h4>\\n<p>即我们将数据源获取到的数据进行数据分析和形成 API 的形式对接其他业务场景。这里包括了 Amazon 常用的可视化组件 <a href=\\"https://aws.amazon.com/cn/quicksight/?c=a&amp;sec=srv\\" target=\\"_blank\\">Amazon Quicksight</a></p>\\n<h4><a id=\\"3_35\\"></a><strong>3、中间(大数据体系)</strong></h4>\\n<h5><a id=\\"31_36\\"></a><strong>3.1导入组件</strong></h5>\\n<p><strong>Amazon Direct Connect</strong> 是一个采用专用带宽来直连数据的组件; <strong>Amazon Database migration</strong> <strong>专业迁移关系型数据库数据</strong>的组件,如获取 ERP/CRM 系统中数据,数据库类型如 oracle、mysql 等,主要用于<strong>处理历史数据和大批量数据;Amazon Kinesis</strong> 用于<strong>处理实时数据</strong>,做<strong>实时数据分析</strong>,相当于 kafka+flink;<strong>Internet of Things(lot)</strong> 接入物联网的数据和搭建物联网模型的组件。</p>\\n<h5><a id=\\"32_38\\"></a><strong>3.2数据处理组件</strong></h5>\\n<p>S3 用于<strong>数据存储</strong>的组件;Glue <strong>简单数据处理</strong>组件,用于数据简单的聚合、过滤、清洗等;EMR 处理个性化、高阶数据分析需求,属于 Hadoop 生态体系,性能更佳。数据处理,包括批处理和流处理,即批量处理离线数据,一般是数据量大、处理时间长的场景。流处理属于处理实时数据做实时分析和消息推送,比如查看实时双十一的销售额。机器学习与人工智能组件主要是通过大数据提供的模型进行机器学习,同时也可以进行图像识别、语音处理如聊天机器人。</p>\\n<h5><a id=\\"33_40\\"></a><strong>3.3服务组件</strong></h5>\\n<p><strong>Athena</strong> 可以直接访问 S3 的数据,提供 SQ 查询的功能,属于 SQ 工具类;<strong>ES</strong> 与开源的 ES 一致,Amazon 将其集成在全家桶内;<strong>EMR</strong> 用于<strong>大数据处理</strong>组件,是 hive 类组件集合;<strong>RedShift</strong> 是一个大型的数仓,在底层做了较多性能优化,可以处理 PB 级数据量。<strong>RDS</strong> 属于 Amazon 托管的关系型数据库;<strong>DynamoDB</strong> 是 Amazon 自研的关系型数据库。这些组件都可以对外提供 JDBC 的数据服务。</p>\\n<h4><a id=\\"_42\\"></a><strong>二、三种经典玩法的对比</strong></h4>\\n<h4><a id=\\"1_Amazon__43\\"></a><strong>1、全部采用 Amazon 的组件</strong></h4>\\n<p>优点:集成度高、可共用元数据、组件之间集成快、使用流畅性好、开发效率高。<br />\\n缺点:需要部署到 Amazon 的云平台,不能部署到其他国内的商业云,如阿里云、腾讯云等。</p>\\n<h4><a id=\\"2Amazon_EMR_46\\"></a><strong>2、Amazon 组件+EMR(深度分析)</strong></h4>\\n<p>优点:支持复杂分析场景+可兼容开源。<br />\\n缺点:暂未发现其缺点,兼容了第一种玩法 Amazon 的优势又支持复杂的应用场景,也兼容了开源的语法,目前认为最佳的组合拳。</p>\\n<h4><a id=\\"3_EMRAmazon__49\\"></a><strong>3、全部采用开源 EMR+Amazon 环境托管</strong></h4>\\n<p>优点:Amazon 托管不需要考虑太多底层的东西,自主研发,灵活度高,支持目前的各大厂商。<br />\\n缺点:集成度不高,需要强大懂开源的开发团队,研发周期长。</p>\\n<h4><a id=\\"4_52\\"></a><strong>4、总结</strong></h4>\\n<p>具体采用哪种玩法,需结合公司具体的业务场景来选择,如果公司有一定的研发力量又想自定义部署,建议采用第二种玩法。</p>\\n<h3><a id=\\"Amazon__54\\"></a><strong>三、Amazon 实操案例</strong></h3>\\n<h4><a id=\\"1_55\\"></a><strong>1、业务流程图</strong></h4>\\n<p><img src=\\"https://dev-media.amazoncloud.cn/3755111bdf8742fcb0afe2f53addaac4_image.png\\" alt=\\"image.png\\" /></p>\\n<p>具体流程如上图所示,我们从任何一个可访问的 <strong>RDS</strong> 关系型数据获取数据源,通过 <strong>DMS</strong> 处理后存储至 <strong>S3</strong> 里面,然后我们将 S3 中的数据类似 ETL 的数据处理,即通过 <strong>Glue</strong> 进行处理。然后将处理后的数据存储至 <strong>Redshift</strong> 的数仓里面去,然后我们可以通过 <strong>Athena</strong> 提供 SQ 查询功能访问数仓或者 Glue 里面的数据,然后再通过报表工具(<strong>QuickSight</strong>)进行展示。哈哈,通过上面的全家桶介绍,发现理解下面的流程图是不是非常的简单了。</p>\\n<h4><a id=\\"2RDSDMSS3__59\\"></a><strong>2、RDS→DMS→S3 实例</strong></h4>\\n<p>目的:将 mysql 关系型数据库 user 表的记录通过 DMS 工具,抽取至 S3 中。</p>\\n<p><img src=\\"https://dev-media.amazoncloud.cn/5c1cdb6ec1604c378f99873d7d7abae7_image.png\\" alt=\\"image.png\\" /></p>\\n<p>S3 配置:首先我们在 Amazon 平台上创建 S3 的桶来存储我们要抽取的数据。创建过程我们按系统提示输入即可非常方便,如果不能找到 S3 的组件,可在搜索栏进行搜索。具体如下图所示。</p>\\n<p><img src=\\"https://dev-media.amazoncloud.cn/6ab3a5758590448e9fbc8792808913fe_image.png\\" alt=\\"image.png\\" /></p>\\n<p><img src=\\"https://dev-media.amazoncloud.cn/b9e0be63ae274375aaf421445fc4bf23_image.png\\" alt=\\"image.png\\" /></p>\\n<p>DMS 配置:类似搜索 dms 进入 dms 组件操作界面,配置对应数据库 URL ,创建实例、创建作业从 mysql 到 s3 。如图所示创建过程很简单,只需要按照对应水印操作即可。</p>\\n<p><img src=\\"https://dev-media.amazoncloud.cn/198a20389aaf44fe86c9ae2a347dda0e_image.png\\" alt=\\"image.png\\" /></p>\\n<p><img src=\\"https://dev-media.amazoncloud.cn/2224cc179e7a4c508647aedd3eb05251_image.png\\" alt=\\"image.png\\" /></p>\\n<p><img src=\\"https://dev-media.amazoncloud.cn/336316e7853b4b138d03bf251402d505_image.png\\" alt=\\"image.png\\" /></p>\\n<p><img src=\\"https://dev-media.amazoncloud.cn/eca6b5db3f424dc9bb88f78bcd3a53d8_image.png\\" alt=\\"image.png\\" /></p>\\n<p><img src=\\"https://dev-media.amazoncloud.cn/5dd6d73578064a06b25888f7f2ccc4b0_image.png\\" alt=\\"image.png\\" /></p>\\n<p>运行实例:点击创建好的实例,去 S3 中查看运行的结果。如下图所示我们可以在 S3 里面查看对应抽取的数据,然后点击对应数据查看,抽取过来的记录是和 mysql 源数据库数据是一致的。</p>\\n<p><img src=\\"https://dev-media.amazoncloud.cn/7211687c55d4413f85a904f78f3c6c3f_image.png\\" alt=\\"image.png\\" /></p>\\n<p><img src=\\"https://dev-media.amazoncloud.cn/93094e50221f44269db2e3e1c114c185_image.png\\" alt=\\"image.png\\" /></p>\\n<p><img src=\\"https://dev-media.amazoncloud.cn/cdcc7f5b597a47d0871cd973a9485ee3_image.png\\" alt=\\"image.png\\" /></p>\\n<h3><a id=\\"_90\\"></a><strong>四、总结</strong></h3>\\n<p>1、Amazon 自家的组件使用非常的方便,整个开发过程也可监控,全程可视化配置。Amazon 的默认配置是根据常用开发场景进行设置的,因此可大大提高开发效率。而 Amazon 的组件的高度集成不得不让人竖起大拇指。<br />\\n2、我们可根据我们业务实际情况,选择不同的玩法更好适配业务的发展。<br />\\n3、 不管哪种玩法,Amazon 都提供了托管服务和基础架构组件。架构现代化是一切创新的基石,其最重要的理念是“The right tool for the job”,即在不同的场景使用专门构建的工具,而专门的工具需要专业的现代化托管平台,这些都可以大量节省企业的时间、金钱和精力。 Amazon 无疑是最佳的选择之一。<br />\\n亚马逊云科技专为开发者们打造了多种学习平台:</p>\\n<ol>\\n<li>入门资源中心:从0到1 轻松上手云服务,内容涵盖:成本管理,上手训练,开发资源。<a href=\\"https://aws.amazon.com/cn/getting-started/?nc1=h_ls&amp;trk=32540c74-46f0-46dc-940d-621a1efeedd0&amp;sc_channel=el\\" target=\\"_blank\\">https://aws.amazon.com/cn/getting-started/?nc1=h_ls&amp;trk=32540c74-46f0-46dc-940d-621a1efeedd0&amp;sc_channel=el</a></li>\\n<li>架构中心:亚马逊云科技架构中心提供了云平台参考架构图表、经过审查的架构解决方案、Well-Architected 最佳实践、模式、图标等。<a href=\\"https://aws.amazon.com/cn/architecture/?intClick=dev-center-2021_main&amp;trk=3fa608de-d954-4355-a20a-324daa58bbeb&amp;sc_channel=el\\" target=\\"_blank\\">https://aws.amazon.com/cn/architecture/?intClick=dev-center-2021_main&amp;trk=3fa608de-d954-4355-a20a-324daa58bbeb&amp;sc_channel=el</a></li>\\n<li>构建者库:了解亚马逊云科技如何构建和运营软件。<a href=\\"https://aws.amazon.com/cn/builders-library/?cards-body.sort-by=item.additionalFields.sortDate&amp;cards-body.sort-order=desc&amp;awsf.filter-content-category=*all&amp;awsf.filter-content-type=*all&amp;awsf.filter-content-level=*all&amp;trk=835e6894-d909-4691-aee1-3831428c04bd&amp;sc_channel=el\\" target=\\"_blank\\">https://aws.amazon.com/cn/builders-library/?cards-body.sort-by=item.additionalFields.sortDate&amp;cards-body.sort-order=desc&amp;awsf.filter-content-category=*all&amp;awsf.filter-content-type=*all&amp;awsf.filter-content-level=*all&amp;trk=835e6894-d909-4691-aee1-3831428c04bd&amp;sc_channel=el</a></li>\\n<li>用于在亚马逊云科技平台上开发和管理应用程序的工具包:<a href=\\"https://aws.amazon.com/cn/tools/?intClick=dev-center-2021_main&amp;trk=972c69e1-55ec-43af-a503-d458708bb645&amp;sc_channel=el\\" target=\\"_blank\\">https://aws.amazon.com/cn/tools/?intClick=dev-center-2021_main&amp;trk=972c69e1-55ec-43af-a503-d458708bb645&amp;sc_channel=el</a></li>\\n</ol>\\n<p>【专属福利】<br />\\n福利一:100余种产品免费套餐。其中,计算资源 Amazon EC2 首年12个月免费,750小时/月;存储资源 Amazon S3 首年12个月免费,5GB标准存储容量。<a href=\\"https://aws.amazon.com/cn/free/?nc2=h_ql_pr_ft&amp;all-free-tier.sort-by=item.additionalFields.SortRank&amp;all-free-tier.sort-order=asc&amp;awsf.Free%20Tier%20Types=*all&amp;awsf.Free%20Tier%20Categories=*all&amp;trk=e0213267-9c8c-4534-bf9b-ecb1c06e4ac6&amp;sc_channel=el\\" target=\\"_blank\\">https://aws.amazon.com/cn/free/?nc2=h_ql_pr_ft&amp;all-free-tier.sort-by=item.additionalFields.SortRank&amp;all-free-tier.sort-order=asc&amp;awsf.Free%20Tier%20Types=*all&amp;awsf.Free%20Tier%20Categories=*all&amp;trk=e0213267-9c8c-4534-bf9b-ecb1c06e4ac6&amp;sc_channel=el</a><br />\\n福利二:最新优惠大礼包,200\$数据与分析抵扣券,200\$机器学习抵扣券,200\$微服务与应用开发抵扣券。<a href=\\"https://aws.amazon.com/cn/free/?nc2=h_ql_pr_ft&amp;all-free-tier.sort-by=item.additionalFields.SortRank&amp;all-free-tier.sort-order=asc&amp;awsf.Free%20Tier%20Types=*all&amp;awsf.Free%20Tier%20Categories=*all&amp;trk=e0213267-9c8c-4534-bf9b-ecb1c06e4ac6&amp;sc_channel=el\\" target=\\"_blank\\">https://aws.amazon.com/cn/free/?nc2=h_ql_pr_ft&amp;all-free-tier.sort-by=item.additionalFields.SortRank&amp;all-free-tier.sort-order=asc&amp;awsf.Free%20Tier%20Types=*all&amp;awsf.Free%20Tier%20Categories=*all&amp;trk=e0213267-9c8c-4534-bf9b-ecb1c06e4ac6&amp;sc_channel=el</a><br />\\n福利三:解决方案 CloudFormation 一键部署模版库 <a href=\\"https://aws.amazon.com/cn/quickstart/?solutions-all.sort-by=item.additionalFields.sortDate&amp;solutions-all.sort-order=desc&amp;awsf.filter-tech-category=*all&amp;awsf.filter-industry=*all&amp;awsf.filter-content-type=*all&amp;trk=afdbbdf0-610b-4421-ac0c-a6b31f902e4b&amp;sc_channel=el\\" target=\\"_blank\\">https://aws.amazon.com/cn/quickstart/?solutions-all.sort-by=item.additionalFields.sortDate&amp;solutions-all.sort-order=desc&amp;awsf.filter-tech-category=*all&amp;awsf.filter-industry=*all&amp;awsf.filter-content-type=*all&amp;trk=afdbbdf0-610b-4421-ac0c-a6b31f902e4b&amp;sc_channel=el<br />\\n</a></p>\n"}
目录
亚马逊云科技解决方案 基于行业客户应用场景及技术领域的解决方案
联系亚马逊云科技专家
亚马逊云科技解决方案
基于行业客户应用场景及技术领域的解决方案
联系专家
0
目录
关闭