还在苦于 ETL? Zero ETL 的时代已全面到来!

Amazon Aurora
Amazon Redshift
0
0
{"value":"对于众多企业来说,企业需要获取业务洞察就需要把不同来源的数据融合后进行一体化分析。\n\n\n\n**然而,这个过程中通过 ETL 将数据集成就往往显得必不可少,但是 ETL 的工作往往耗时且工程量巨大,成为企业的“长久之苦”。**\n\n\n\n下面来看看亚马逊云科技又是如何解决这一难题的。\n\n\nETL 是将业务系统的数据经过提取(Extract)、转换清洗(Transform)和加载(Load)到数据仓库、大数据平台的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。ETL 是各类数据创新项目(比如 BI 辅助决策,反欺诈与内部合规项目等)重要的一个环节。通常情况下,在 BI 项目中,构建 ETL 会花掉整个项目至少1/3的时间。自传统数据仓库理论形成,ETL 构建与维护机会会占据数据工程师70%工作量。\n\n当我们进入大数据时代,这种痛苦也并未减少。这些痛苦体现在:\n\n- 市面上的 ETL 工具多、这代表选择多和学习成本高,**ETL 工具选型就是个难题**。\n- **ETL 任务的多少往往和项目的复杂度呈“指数级正相关”**。越复杂的项目调度任务越多,动辄数千个 ETL 任务的项目已屡见不鲜,任务调度与排查的复杂与维护是一个巨大的难题。\n\n\n![image.png](https://dev-media.amazoncloud.cn/96bf6776890f4807bcebb42652a5394e_image.png)\n\n图:“天下苦 ETL 久矣”\n\n##### **那么,什么是 Zero ETL?**\n\n*在2022亚马逊云科技 re:Invent 全球大会上,**亚马逊云科技数据和机器学习副总裁 Swami Sivasubramanian** 表示:“当前,客户管理的数据既庞大又复杂,这意味着他们不能只用单一技术或几个工具来分析和探索这些数据。确保能够使用正确的工具完成工作,对于企业成功非常重要。我们的许多客户都通过亚马逊云科技的众多数据库和分析服务从数据中提取价值。在此次2022亚马逊云科技 re:Invent 全球大会上发布的新功能将帮助我们的客户迈向一个‘Zero ETL的未来’,借助 Zero ETL 减少在不同服务间手动迁移或转换数据的工作。无论企业和数据的规模有多大,复杂度有多高,通过为客户消除 ETL 和其它数据迁移任务,我们将助力客户专注于分析数据,面向业务获取新的洞察。”*\n\n\n亚马逊云科技一直在投入开发基于 Zero ETL 理念的功能,比如 Amazon Athena 的 Federated Query 联邦查询,可以对存储在关系数据源、非关系数据源、对象数据源和外部自定义数据源中的数据运行 SQL 查询,而无需移动数据。还有流式服务(如 Amazon Kinesis 和 Amazon MSK)向数据存储服务(如 Amazon S3)无缝注入数据,从而助力客户及时分析数据。同时,我们也发布了更多新的 Zero ETL 功能助力客户更快、更轻松、更经济地实践“数据一体化融合”。\n\n#### **重点介绍 1 Amazon Aurora Zero ETL to Amazon Redshift 助力 PB 级分析交易数据进行近实时分析**\n\n企业希望更好地了解核心业务驱动因素,制定战略以增加销售额、降低成本、获得竞争优势。因此近乎实时地从购买、预订和金融交易等交易数据中获得洞察的需求不断增加。\n\n\n\n然而,数据管道构建成本高昂且难以管理,需要开发人员编写自定义代码并且持续管理基础设施以确保其按需扩展,一些公司甚至需要投入整个团队以完成这项工作。此外,用这种方式准备好数据可能需要几天的时间,而且间歇性的数据传输错误会影响客户获得稍纵即逝的洞察,甚至错失商机。\n\n![image.png](https://dev-media.amazoncloud.cn/4821c6154ac84a20ba8ddc35fd00ca75_image.png)\n\n图例:构建一个 ETL 工作流\n\n\n\nAmazon Aurora Zero ETL to Amazon Redshift(预览版)支持将交易数据在写入 Amazon Aurora 后的几秒钟内可以自动连续复制,使其在 Amazon Redshift 中即时可用。一旦数据在 Amazon Redshift 中可用,客户立即可以开始分析数据,并且利用数据共享和 Amazon Redshift ML 等高级功能获得全面的预测性洞察。\n\n\n\n客户可以将数据从多个 Amazon Aurora 数据库集群复制到同一个 Amazon Redshift 实例,跨多个应用程序获得洞察。这样一来,客户可以使用 Amazon Aurora 支持交易数据库需求、使用 Amazon Redshift 进行分析,无需构建或维护复杂的数据管道。\n\n![image.png](https://dev-media.amazoncloud.cn/d6c4f33861574c3dba23459b03448daa_image.png)\n\n图:一键部署 Zero ETL\n\n#### **重点介绍 2 Amazon Redshift 系列创新均是 Zero ETL 的实践**\n\n发布于 re:Invent 2012的首个云原生数据仓库 Amazon Redshift 在十年中不断演进迭代,Amazon Redshift Serverless 作为升级版本也将于今年上线。在 Zero ETL 方面,2017年发布的 Amazon Redshift Spectrum 与联邦查询即是一个经典的特性,无需数据移动,用户即可使用 Spectrum 来访问数据湖 Amazon S3 中的数据,而今年 Redshift 的创新还在加速。\n\n![image.png](https://dev-media.amazoncloud.cn/5b0b6ffb57cd4243b5c37a41f0725ebe_image.png)\n\n![image.png](https://dev-media.amazoncloud.cn/4e863dd40abe43e9a7bd53f96edd462b_image.png)\n\n图:一图了解 Amazon Redshift 的创新\n\n**Amazon Redshift 支持 Amazon S3 自动复制(预览版)**\n\n借助这项新功能,Amazon Redshift 会将到达您指定的 Amazon S3 的文件自动加载到您的数据仓库中,例如 CSV、JSON、Parquet 和 Avro,无需手动或重复运行复制过程。Amazon Redshift 可自动提取文件并负责幕后数据的加载步骤。\n\n**Amazon Redshift streaming ingestion 流式数据接入功能**\n\nAmazon Redshift streaming ingestion 流式数据接入功能已上线,直接让流式数据接入数据仓库,这是打造云原生实时数仓的必要功能,让用户可以轻松地探索实时分析场景,基于历史数据的实时预测、反欺诈等场景。\n\n**Amazon Redshift Integration for Apache Spark 功能**\n\n帮助客户在使用亚马逊云科技的分析和机器学习服务时可以更快更轻松地通过 Apache Spark 应用程序访问到 Redshift 上的数据。开发人员可以快速而敏捷地实现分析与机器学习。\n\n#### **重点介绍 3 超百种外部数据连接助力构建 Zero ETL 未来**\n\n纵观全局,亚马逊云科技数据服务已经可以连接超过100种外部数据源,像 Adobe、Salesforce 等各类 SaaS 应用,也包括各类 on-premise 数据源类型,因此您能更全面地利用所有数据的力量。\n\n\n\nAmazon AppFlow 在本地系统和应用程序、SaaS 应用程序和亚马逊云服务之间提供双向数据集成。使用低代码或无代码、经济实惠的解决方案,只需单击几下,Amazon AppFlow 即可在应用程序与“智能湖仓”之间安全地传输数据,帮助客户打破数据孤岛。\n\n\n\n典型数据源包括了:\n\n- 营销连接器(例如:Facebook 广告、谷歌广告、Instagram 广告、领英广告)。\n- 用于客户服务和参与的连接器(例如:MailChimp、Sendgrid、Zendesk Sell 或 Chat 等)。\n- 业务运营(例如:Stripe、QuickBooks 在线和 GitHub)。\n\n\n\n在2022亚马逊云科技 re:Invent 全球大会上我们发布了22个新的连接器,现在 AppFlow 已经支持超过50种连接器。\n\n![image.png](https://dev-media.amazoncloud.cn/90b4dd6990ff4ac1a57a97566b47e0ad_image.png)\n\n\n**Amazon SageMaker Data Wrangler 支持超过40种基于 AppFlow 的 SaaS 数据源**\n\n客户可以在 Amazon SageMaker data Wrangler 中聚合 ML 的外部 SaaS 应用程序数据,为 ML 准备数据。数据源通过 AppFlow 注册后,用户即可在 SageMaker 中浏览这些数据源中的表和模式。该功能使得外部数据源与云原生机器学习之间实现了无缝数据集成。\n\n![image.png](https://dev-media.amazoncloud.cn/b3d7eca85a0a49efa98a17706ee01d2a_image.png)\n\n图:Amazon SageMaker Data Wrangler 数据源选择\n\n#### **客户故事**\n\n##### **1 Adobe**\n\n从个人和小型企业到政府机构和全球品牌,Adobe 使每个人都能创造和交付卓越的数字体验。\n\n\n*“Adobe 的使命是通过数字体验改变世界,在当今世界,这意味着拥有能够提供深刻和实时洞察的分析工具。” **Adobe Acrobat Sign 首席科学家 Jack Lull** 表示,“作为 Amazon Aurora 的客户,我们非常欢迎 Amazon Redshift 集成的 Amazon Aurora Zero ETL 功能。它将为我们不断扩大的 Acrobat Sign 客户群提供新的洞察和更快的分析能力,并随着他们用量的增加而同步增长。所有这些都不需要我们自己的团队做日常维护。”*\n\n##### **2 Infor**\n\nInfor 是商业云软件和特定行业 ERP 解决方案的全球领导者。\n\n*“在 Infor,我们使用亚马逊云科技构建和部署现代化的工具,帮助客户转型其业务并加速创新,其中包括我们最新提供的面向客户行业云数据的托管数据仓库服务,以帮助客户通过高级分析和机器学习更快地做出决策。” **Infor 云服务高级副总裁 Jim Plourde** 表示,“我们很高兴使用 Amazon Redshift 集成的 Amazon Aurora Zero ETL 功能,它将让 Amazon Aurora 中的交易数据近乎实时地提供给 Amazon Redshift,减轻我们的运营负担。现在,我们既可以受益于 Amazon Aurora 用作关系数据库管理系统的性能,又可以轻松利用 Amazon Redshift 的分析和机器学习功能实现新的托管数据仓库服务。”*\n\n##### **3 高盛集团**\n\n高盛集团是一家领先的全球金融机构,为包括企业、金融机构、政府和个人在内的庞大而多元化的客户群提供投资银行、证券、投资管理和消费者银行业务等广泛的金融服务。\n\n\n*“我们的重点是为高盛内所有用户提供自助式数据访问。当整个金融服务行业开展协作时,我们通过开源数据管理和治理平台 Legend 可以助力用户开发以数据为中心的应用程序,并且获得数据驱动的洞察。”**高盛首席数据官 Neema Raphael** 表示,“通过面向 Apache Spark 的 Amazon Redshift 集成功能,我们的数据平台团队以最少的定制化操作就可以访问 Amazon Redshift 数据,实现零代码 ETL,使我们更有能力在工程师收集完整及时的信息时,让他们更容易专注于完善其工作流。由于我们的用户现在可以轻松访问 Amazon Redshift 中的最新数据,我们将能实现更高的应用程序性能和更强的安全性。”*","render":"<p>对于众多企业来说,企业需要获取业务洞察就需要把不同来源的数据融合后进行一体化分析。</p>\n<p><strong>然而,这个过程中通过 ETL 将数据集成就往往显得必不可少,但是 ETL 的工作往往耗时且工程量巨大,成为企业的“长久之苦”。</strong></p>\n<p>下面来看看亚马逊云科技又是如何解决这一难题的。</p>\n<p>ETL 是将业务系统的数据经过提取(Extract)、转换清洗(Transform)和加载(Load)到数据仓库、大数据平台的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。ETL 是各类数据创新项目(比如 BI 辅助决策,反欺诈与内部合规项目等)重要的一个环节。通常情况下,在 BI 项目中,构建 ETL 会花掉整个项目至少1/3的时间。自传统数据仓库理论形成,ETL 构建与维护机会会占据数据工程师70%工作量。</p>\n<p>当我们进入大数据时代,这种痛苦也并未减少。这些痛苦体现在:</p>\n<ul>\n<li>市面上的 ETL 工具多、这代表选择多和学习成本高,<strong>ETL 工具选型就是个难题</strong>。</li>\n<li><strong>ETL 任务的多少往往和项目的复杂度呈“指数级正相关”</strong>。越复杂的项目调度任务越多,动辄数千个 ETL 任务的项目已屡见不鲜,任务调度与排查的复杂与维护是一个巨大的难题。</li>\n</ul>\n<p><img src=\"https://dev-media.amazoncloud.cn/96bf6776890f4807bcebb42652a5394e_image.png\" alt=\"image.png\" /></p>\n<p>图:“天下苦 ETL 久矣”</p>\n<h5><a id=\"_Zero_ETL_23\"></a><strong>那么,什么是 Zero ETL?</strong></h5>\n<p><em>在2022亚马逊云科技 re:Invent 全球大会上,<strong>亚马逊云科技数据和机器学习副总裁 Swami Sivasubramanian</strong> 表示:“当前,客户管理的数据既庞大又复杂,这意味着他们不能只用单一技术或几个工具来分析和探索这些数据。确保能够使用正确的工具完成工作,对于企业成功非常重要。我们的许多客户都通过亚马逊云科技的众多数据库和分析服务从数据中提取价值。在此次2022亚马逊云科技 re:Invent 全球大会上发布的新功能将帮助我们的客户迈向一个‘Zero ETL的未来’,借助 Zero ETL 减少在不同服务间手动迁移或转换数据的工作。无论企业和数据的规模有多大,复杂度有多高,通过为客户消除 ETL 和其它数据迁移任务,我们将助力客户专注于分析数据,面向业务获取新的洞察。”</em></p>\n<p>亚马逊云科技一直在投入开发基于 Zero ETL 理念的功能,比如 Amazon Athena 的 Federated Query 联邦查询,可以对存储在关系数据源、非关系数据源、对象数据源和外部自定义数据源中的数据运行 SQL 查询,而无需移动数据。还有流式服务(如 Amazon Kinesis 和 Amazon MSK)向数据存储服务(如 Amazon S3)无缝注入数据,从而助力客户及时分析数据。同时,我们也发布了更多新的 Zero ETL 功能助力客户更快、更轻松、更经济地实践“数据一体化融合”。</p>\n<h4><a id=\"_1_Amazon_Aurora_Zero_ETL_to_Amazon_Redshift__PB__30\"></a><strong>重点介绍 1 Amazon Aurora Zero ETL to Amazon Redshift 助力 PB 级分析交易数据进行近实时分析</strong></h4>\n<p>企业希望更好地了解核心业务驱动因素,制定战略以增加销售额、降低成本、获得竞争优势。因此近乎实时地从购买、预订和金融交易等交易数据中获得洞察的需求不断增加。</p>\n<p>然而,数据管道构建成本高昂且难以管理,需要开发人员编写自定义代码并且持续管理基础设施以确保其按需扩展,一些公司甚至需要投入整个团队以完成这项工作。此外,用这种方式准备好数据可能需要几天的时间,而且间歇性的数据传输错误会影响客户获得稍纵即逝的洞察,甚至错失商机。</p>\n<p><img src=\"https://dev-media.amazoncloud.cn/4821c6154ac84a20ba8ddc35fd00ca75_image.png\" alt=\"image.png\" /></p>\n<p>图例:构建一个 ETL 工作流</p>\n<p>Amazon Aurora Zero ETL to Amazon Redshift(预览版)支持将交易数据在写入 Amazon Aurora 后的几秒钟内可以自动连续复制,使其在 Amazon Redshift 中即时可用。一旦数据在 Amazon Redshift 中可用,客户立即可以开始分析数据,并且利用数据共享和 Amazon Redshift ML 等高级功能获得全面的预测性洞察。</p>\n<p>客户可以将数据从多个 Amazon Aurora 数据库集群复制到同一个 Amazon Redshift 实例,跨多个应用程序获得洞察。这样一来,客户可以使用 Amazon Aurora 支持交易数据库需求、使用 Amazon Redshift 进行分析,无需构建或维护复杂的数据管道。</p>\n<p><img src=\"https://dev-media.amazoncloud.cn/d6c4f33861574c3dba23459b03448daa_image.png\" alt=\"image.png\" /></p>\n<p>图:一键部署 Zero ETL</p>\n<h4><a id=\"_2_Amazon_Redshift__Zero_ETL__54\"></a><strong>重点介绍 2 Amazon Redshift 系列创新均是 Zero ETL 的实践</strong></h4>\n<p>发布于 re:Invent 2012的首个云原生数据仓库 Amazon Redshift 在十年中不断演进迭代,Amazon Redshift Serverless 作为升级版本也将于今年上线。在 Zero ETL 方面,2017年发布的 Amazon Redshift Spectrum 与联邦查询即是一个经典的特性,无需数据移动,用户即可使用 Spectrum 来访问数据湖 Amazon S3 中的数据,而今年 Redshift 的创新还在加速。</p>\n<p><img src=\"https://dev-media.amazoncloud.cn/5b0b6ffb57cd4243b5c37a41f0725ebe_image.png\" alt=\"image.png\" /></p>\n<p><img src=\"https://dev-media.amazoncloud.cn/4e863dd40abe43e9a7bd53f96edd462b_image.png\" alt=\"image.png\" /></p>\n<p>图:一图了解 Amazon Redshift 的创新</p>\n<p><strong>Amazon Redshift 支持 Amazon S3 自动复制(预览版)</strong></p>\n<p>借助这项新功能,Amazon Redshift 会将到达您指定的 Amazon S3 的文件自动加载到您的数据仓库中,例如 CSV、JSON、Parquet 和 Avro,无需手动或重复运行复制过程。Amazon Redshift 可自动提取文件并负责幕后数据的加载步骤。</p>\n<p><strong>Amazon Redshift streaming ingestion 流式数据接入功能</strong></p>\n<p>Amazon Redshift streaming ingestion 流式数据接入功能已上线,直接让流式数据接入数据仓库,这是打造云原生实时数仓的必要功能,让用户可以轻松地探索实时分析场景,基于历史数据的实时预测、反欺诈等场景。</p>\n<p><strong>Amazon Redshift Integration for Apache Spark 功能</strong></p>\n<p>帮助客户在使用亚马逊云科技的分析和机器学习服务时可以更快更轻松地通过 Apache Spark 应用程序访问到 Redshift 上的数据。开发人员可以快速而敏捷地实现分析与机器学习。</p>\n<h4><a id=\"_3__Zero_ETL__76\"></a><strong>重点介绍 3 超百种外部数据连接助力构建 Zero ETL 未来</strong></h4>\n<p>纵观全局,亚马逊云科技数据服务已经可以连接超过100种外部数据源,像 Adobe、Salesforce 等各类 SaaS 应用,也包括各类 on-premise 数据源类型,因此您能更全面地利用所有数据的力量。</p>\n<p>Amazon AppFlow 在本地系统和应用程序、SaaS 应用程序和亚马逊云服务之间提供双向数据集成。使用低代码或无代码、经济实惠的解决方案,只需单击几下,Amazon AppFlow 即可在应用程序与“智能湖仓”之间安全地传输数据,帮助客户打破数据孤岛。</p>\n<p>典型数据源包括了:</p>\n<ul>\n<li>营销连接器(例如:Facebook 广告、谷歌广告、Instagram 广告、领英广告)。</li>\n<li>用于客户服务和参与的连接器(例如:MailChimp、Sendgrid、Zendesk Sell 或 Chat 等)。</li>\n<li>业务运营(例如:Stripe、QuickBooks 在线和 GitHub)。</li>\n</ul>\n<p>在2022亚马逊云科技 re:Invent 全球大会上我们发布了22个新的连接器,现在 AppFlow 已经支持超过50种连接器。</p>\n<p><img src=\"https://dev-media.amazoncloud.cn/90b4dd6990ff4ac1a57a97566b47e0ad_image.png\" alt=\"image.png\" /></p>\n<p><strong>Amazon SageMaker Data Wrangler 支持超过40种基于 AppFlow 的 SaaS 数据源</strong></p>\n<p>客户可以在 Amazon SageMaker data Wrangler 中聚合 ML 的外部 SaaS 应用程序数据,为 ML 准备数据。数据源通过 AppFlow 注册后,用户即可在 SageMaker 中浏览这些数据源中的表和模式。该功能使得外部数据源与云原生机器学习之间实现了无缝数据集成。</p>\n<p><img src=\"https://dev-media.amazoncloud.cn/b3d7eca85a0a49efa98a17706ee01d2a_image.png\" alt=\"image.png\" /></p>\n<p>图:Amazon SageMaker Data Wrangler 数据源选择</p>\n<h4><a id=\"_107\"></a><strong>客户故事</strong></h4>\n<h5><a id=\"1_Adobe_109\"></a><strong>1 Adobe</strong></h5>\n<p>从个人和小型企业到政府机构和全球品牌,Adobe 使每个人都能创造和交付卓越的数字体验。</p>\n<p><em>“Adobe 的使命是通过数字体验改变世界,在当今世界,这意味着拥有能够提供深刻和实时洞察的分析工具。” <strong>Adobe Acrobat Sign 首席科学家 Jack Lull</strong> 表示,“作为 Amazon Aurora 的客户,我们非常欢迎 Amazon Redshift 集成的 Amazon Aurora Zero ETL 功能。它将为我们不断扩大的 Acrobat Sign 客户群提供新的洞察和更快的分析能力,并随着他们用量的增加而同步增长。所有这些都不需要我们自己的团队做日常维护。”</em></p>\n<h5><a id=\"2_Infor_116\"></a><strong>2 Infor</strong></h5>\n<p>Infor 是商业云软件和特定行业 ERP 解决方案的全球领导者。</p>\n<p><em>“在 Infor,我们使用亚马逊云科技构建和部署现代化的工具,帮助客户转型其业务并加速创新,其中包括我们最新提供的面向客户行业云数据的托管数据仓库服务,以帮助客户通过高级分析和机器学习更快地做出决策。” <strong>Infor 云服务高级副总裁 Jim Plourde</strong> 表示,“我们很高兴使用 Amazon Redshift 集成的 Amazon Aurora Zero ETL 功能,它将让 Amazon Aurora 中的交易数据近乎实时地提供给 Amazon Redshift,减轻我们的运营负担。现在,我们既可以受益于 Amazon Aurora 用作关系数据库管理系统的性能,又可以轻松利用 Amazon Redshift 的分析和机器学习功能实现新的托管数据仓库服务。”</em></p>\n<h5><a id=\"3__122\"></a><strong>3 高盛集团</strong></h5>\n<p>高盛集团是一家领先的全球金融机构,为包括企业、金融机构、政府和个人在内的庞大而多元化的客户群提供投资银行、证券、投资管理和消费者银行业务等广泛的金融服务。</p>\n<p><em>“我们的重点是为高盛内所有用户提供自助式数据访问。当整个金融服务行业开展协作时,我们通过开源数据管理和治理平台 Legend 可以助力用户开发以数据为中心的应用程序,并且获得数据驱动的洞察。”<strong>高盛首席数据官 Neema Raphael</strong> 表示,“通过面向 Apache Spark 的 Amazon Redshift 集成功能,我们的数据平台团队以最少的定制化操作就可以访问 Amazon Redshift 数据,实现零代码 ETL,使我们更有能力在工程师收集完整及时的信息时,让他们更容易专注于完善其工作流。由于我们的用户现在可以轻松访问 Amazon Redshift 中的最新数据,我们将能实现更高的应用程序性能和更强的安全性。”</em></p>\n"}
0
目录
关闭
contact-us