Amazon DataZone 重塑企业数据驱动创新

API
大数据
re:Invent
数字化转型
0
0
### 一、数据治理是趋势,也是难题 随着大数据应用的爆发式发展,数据处理能力与效率问题已成为大数据发展必须面对的现实问题。 当前,数据量已经大大超过了处理能力的上限,若信息技术仍然是渐进式发展,则数据处理能力的提升将远远落后于指数增长数据量。所以,数据技术的创新式、跨越式、颠覆式的发展是现实需要,将势在必行。 目前很多公司也在考虑数字转型,毕竟数据驱动是未来的趋势。公司想知道下一个项目应该往哪个产品投资,往往需要财务数据,产品销售数据,社交评论数据,用户数据等等,把这些数据给整合起来才能做决定。 但是存在的问题也很明显,公司有各种各样的服务数据:ERP ,有 CRM ,有关系数据库、 Kafka、Hadoop 、数据仓库、 S3 等等,而且数据太多、太杂,本地有,云端有,一团乱麻,数据资产没有梳理过,数据没有治理过,怎么做数据驱动呢? ![image.png](https://dev-media.amazoncloud.cn/d28d75552c6249509b470c138daac6ac_image.png "image.png") 这些数据存在于不同的系统中,需要 ETL (提取、转换、加载),有些数据(如用户数据)还需要审批以后才能使用,处理起来很麻烦,一个个现实的难题摆在企业IT团队的面前。 ### 二、Amazon DataZone 强势破局 作为全球云计算产品和技术的风向标,每年的 re:Invent 大会带给业界的思考和能量仍将产生深远影响。亚马逊云科技在各领域的重塑将赋能各行业探路者,共赴科技创新的星辰大海。 随着 re:Invent 2022 落下帷幕,亚马逊云科技在此次全球大会上宣布,推出一项全新的数据管理服务 Amazon DataZone ,它可以让客户更快、更轻松地对存储在亚马逊云科技、客户本地和第三方来源的数据进行编目、发现、共享和治理。 ![image.png](https://dev-media.amazoncloud.cn/13ff44b7051f424aa5ee51d312d18b08_image.png "image.png") Amazon DataZone 是一种全新的数据管理服务,它助力数据生产者轻松管理和控制数据访问,使数据消费者能够发现和使用数据、开展数据协作以获取业务洞察。Amazon DataZone 使用机器学习为每个数据集收集和建议元数据信息(如数据来源和数据类型),并根据客户的分级分类和偏好进行模型训练,不断优化,从而消除数据目录维护的繁重工作。 目前, Amazon DataZone 与 Amazon Redshift、Amazon Athena 和 Amazon QuickSight 等亚马逊云科技数据分析服务进行了集成,数据消费者能够在其数据项目的情境中访问这些服务,他们的数据在这些服务中自动可用、无需单独的登录凭证。Amazon DataZone 还提供应用程序编程接口(API)以与自定义解决方案或与DataBrick s、 Snowflake 和 Tableau 等合作伙伴进行集成,因此,客户可以轻松发布、搜索和使用其所有的数据资产。 ![image.png](https://dev-media.amazoncloud.cn/c6ce6a1a2eec43328283e18dc2687f84_image.png "image.png") ### 三、重塑数据管理服务 亚马逊云科技发布全新数据管理服务 Amazon DataZone ,帮助客户在整个企业内对数据进行编目、发现、共享和治理,打通企业内外部的双循环。 #### 3.1 盘活企业数据内循环 "良好的治理是整个组织都可以访问数据的基础,但我们经常听客户说,在使数据可发现和保持控制之间很难取得适当的平衡。" 亚马逊云科技数据与机器学习副总裁Swami Sivasubramanian 表示。 借助 Amazon DataZone ,管理员和数据资产管理者可以使用精细的控制工具管理和治理数据访问权限,确保数据访问发生在正确的权限和正确的情境之下。整个企业的工程师、数据科学家、产品经理、分析师和业务用户就都可以轻松访问整个企业的数据,从而发现、使用数据,通过数据进行协作来获得洞察,挖掘数据价值。 Amazon DataZone 在整个企业内解放了数据的束缚,每个员工都可以帮助推动获取新的洞察,最大限度地发挥数据价值。 使用 Amazon DataZone,可以轻松地创建起公司的组织结构。 ![image.png](https://dev-media.amazoncloud.cn/a620bfa5cfb24f38a6cdc360bc643a4f_image.png "image.png") 前面提到过,公司的数据可能来源于数据仓库、数据湖、流数据、关系数据库、第三方系统等多个地方,亚马逊云科技提供了一个叫 Amazon Glue 工具,可以轻松地发现、集成来自多个数据源的数据,并且可以对数据进行提取、转换、加载(ETL)。 用户可以按照自己的需求,把各个数据源的数据进行编目,形成数据目录( Data Catalog )。 ![image.png](https://dev-media.amazoncloud.cn/3b8ff83aede843b6ba6713776cf30783_image.png "image.png") 有了数据目录和组织结构做基础,每个部门就可以根据需要来创建属于自己的业务术语,元数据,从而建立自己的数据资产。 ![image.png](https://dev-media.amazoncloud.cn/8ef98a9153f74e78963f6b91ce81eb19_image.png "image.png") 数据资产一旦发布出去(当然,需要设置好权限),别人就可以查询了,Amazon DataZone 专门提供了一个门户(Portal)对数据资产进行查询,非常方便。 利用这种方式,可以迅速地对接生产者和消费者,把数据资产创建起来,马上投入使用,从而实现快速响应业务需求,应对市场变化。 ![image.png](https://dev-media.amazoncloud.cn/8b8222ca4fb041a4bd2aa53855558040_image.png "image.png") 随着沉淀下来的数据资产越来越多,大家都看到了业务价值,数据治理就会走上正轨。 #### 3.2 打通合作数据外循环 解决企业数据内循环治理的同时,亚马逊云科技推出全新分析服务 Amazon Clean Rooms ,帮助客户创建数据清洁空间以与业务合作伙伴协作,在产生新洞察的同时保护底层原始数据,它的作用是打通企业外部合作伙伴的数据。 在很多行业,例如广告业,企业需要利用外部业务合作伙伴的数据来补充自身数据,以便更好地开展自己的业务。在广告行业,品牌厂商、媒体和广告公司需要使用存储在多个渠道和应用程序中的数据集进行协作,提高市场活动的相关性,更好地与消费者互动。同时,这些公司也需要保护消费者敏感信息,减少或消除原始数据的共享。为实现这一目标,公司通常必须向合作伙伴提供用户数据的副本,并依靠合约防止数据滥用。 借助 Amazon Clean Rooms ,客户可以在几分钟内创建一个安全的数据清洗空间,只需点击几下即可开始分析集成的数据集,与亚马逊云科技之上的其它公司协作,无需将数据移出其亚马逊云科技环境或加载到其他平台,生成与广告营销活动、投资决策、临床研究等相关的独特洞察。 当客户运行查询时,Amazon Clean Rooms 会在数据所在的位置读取数据并应用内建分析规则帮助保持对数据的控制。此外, Amazon Clean Rooms 提供了多种可配置的数据访问控制,包括查询控制、查询输出限制和查询日志,允许公司自定义针对每个参与方的查询进行限制。Amazon Clean Rooms 还包括高级加密计算工具,即使在处理查询时也能保持数据加密,以符合严格的数据处理政策。 ![image.png](https://dev-media.amazoncloud.cn/e94425752b5d4cb09358e55be221c951_image.png "image.png") 亚马逊云科技应用程序副总裁 Dilip Kumar 表示:“ Amazon Clean Rooms 是亚马逊云科技整体智能营销解决方案的一部分,它帮助客户及其合作伙伴更好地分析和协作处理他们在亚马逊云科技上的数据。随着 Amazon Clean Rooms 的推出,我们使多家公司能够更轻松、更简单、更安全地共享和分析组合数据集,以生成他们无法独自完成的新洞察。使用 Amazon Clean Rooms ,客户可以协作完成一系列任务,例如更有效地生成广告活动洞察和分析投资数据,同时提高数据安全性。” #### 3.3 加速数据流通流转 我们知道,数据流通起来才有产生价值,不能移动和共享的数据只能成为数据沼泽,而移动数据势必需要各种 ETL 操作。 ETL 是 Extract-Transform-Load 的缩写,指数据的提取、转换和加载,是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据, ETL 是 BI(商业智能)项目重要的一个环节。 当前,许多企业分析交易数据的解决方案分为三部分: - 用关系数据库存储数据; - 用数据仓库分析数据; - 用数据管道在关系数据库和数据仓库之间提取、转换和加载(ETL)数据。 数据管道构建成本高昂且难以维护管理,需要开发人员编写自定义代码,并且持续管理基础设施以确保其按需扩展。同时数据传输的准确性会影响客户获得稍纵即逝的洞察,甚至错失商机。 Amazon Aurora zero-ETL与Amazon Redshift 集成的功能助力客户近乎实时地分析 PB 级交易数据,无需自定义数据管道。这意味着亚马逊打通了 Aurora 数据库和 Redshift 数据仓库,通过为客户消除 ETL 和其它数据迁移任务,我们都能助力客户专注于分析数据,面向业务获取新的洞察。 ### 四、稳定的服务保障 前文介绍的强大功能全速推进着 Amazon DataZone 向前发展,但同时它也需要一个稳定的基座。今年 re:Invent 发布的其他几项更新同样发挥着重要作用。 - 多 AZ 部署 你没听错,Redshift 原来是单 AZ 模式,但是不用担心,RA3 节点类型集群的数据是持久化在 S3 中的,像其他多 AZ 部署服务一样(例如 RDS ),客户可以选在多个可用区部署 Redshift 实现提高可用性。 多 AZ 部署通过自动恢复的能力来缩短恢复时间,特别适用于关键的业务分析场景,可以保证 RPO =0、RTO <1 分钟的数据恢复。 ![image.png](https://dev-media.amazoncloud.cn/956924d116db4280845196bb23c1809a_image.png "image.png") - 数据备份 集中管理服务 Amazon Backup 新补充了对 Redshift 的支持,可以集中地管理备份策略,进一步保护 Redshift 的数据。另外,对于许多国内出海的用户,他们尤其需要关注 GDPR 等隐私法规,所以新功能动态数据屏蔽千万不能错过,它可以用来保护 Redshift 中的敏感数据信息,并且在不用为不同用户创建不同数据拷贝的前提下完成。 ![image.png](https://dev-media.amazoncloud.cn/2a7bf7370da24b00a4cc7a5518e0be62_image.png "image.png") ### 五、总结 目前,云计算正在给各行各业带来颠覆性的变革。金融机构、医药企业、科研人员、零售代表、货运公司、电信公司、 NGO 、能源企业甚至娱乐工作室等,都以前所未有的方式实现了云上创新,服务数字化正在成为常态。 云计算在“用数”阶段的本质是“数据驱动企业创新“,但数据具备海量、多元等一些列复杂的属性,同时还受制于”使用权限“、”安全“、”组织架构“等多重因素,事实上,让”数据“产生效益变得异常艰难。 亚马逊云科技作为云计算得探路者,始终站用户角度解决实际问题,亚马逊云科技正在重塑整个数据之旅,从数据的摄取、存储、查询,到分析、可视化和运行机器学习,以及端到端治理,使用户更容易释放数据的价值。 亚马逊云科技前瞻的云服务布局,让中国企业不仅能经济快速地将市场需求转化为业务增长,同时凭借基础设施的无限可扩展、全球数据合规能力、智能和安全的服务管理,为中国企业扬帆‘出海’奠定了坚实的基础,这是件令人兴奋的事。
目录
亚马逊云科技解决方案 基于行业客户应用场景及技术领域的解决方案
联系亚马逊云科技专家
亚马逊云科技解决方案
基于行业客户应用场景及技术领域的解决方案
联系专家
0
目录
关闭