大规模管理数据

云计算
re:Invent
0
0
## 视频 <video src="https://dev-media.amazoncloud.cn/30-LibaiGenerate/31-LiBaiRebrandingVideo/ANT205-Curate_your_data_at_scale-LBrebrandingWCaptionCN.mp4" class="bytemdVideo" controls="controls"></video> ## 导读 大规模管理数据意味着识别和管理最有价值的数据源,包括数据库、数据湖和数据仓库,因此您可以限制关键数据资产的扩散和转换。管理数据还意味着确保正确的数据准确、新鲜,并适当使用敏感信息,以提高对数据驱动决策和数据馈送应用程序的信心。在本论坛中,了解 Amazon Glue、Amazon Glue 数据质量和 Amazon Lake Formation 等解决方案如何帮助您管理最佳来源和查找敏感信息。 ## 演讲精华 <font color = "grey">以下是小编为您整理的本次演讲的精华,共1100字,阅读时间大约是6分钟。如果您想进一步了解演讲内容或者观看演讲全文,请观看演讲完整视频或者下面的演讲原文。</font> 管理和治理大量数据已成为当今大型企业面临的最紧迫挑战之一。据亚马逊云科技Lake Formation的产品经理Mahesh Misra表示,最近的调查数据显示,尽管超过90%的《财富》1000强企业正在大力投资大数据基础设施和湖泊,但不到25%的企业觉得他们正在成为真正以数据驱动的组织。这种在仅仅在孤立的数据库中积累数据与利用数据推动业务价值之间的脱节令人担忧。迫切需要一种系统性的、可扩展的方法来整理数据。 Mahesh认为,“数据整理”是从大规模数据中提取价值的关键。他将数据整理定义为一种系统的、五阶段的过程: 1)识别数据源并将其整合在一起 2)将数据集成并集中到统一存储中 3)管理和保护数据 4)丰富元数据,使数据易于发现 5)根据精确的访问控制与用户共享数据 通过精心执行这五个步骤,企业可以打破长期存在的数据、系统和人员孤岛。这将把整个组织的利益相关者与清洁、可靠和可访问的数据产品连接起来,从而成为真正以数据驱动的组织。 然而,在大规模整理数据时也暴露出巨大的技术和治理挑战。第一个挑战来自于海量孤立数据源的激增。正如Mahesh所描述的,现在的企业在CRM、微服务、移动应用、网络应用等任务关键数据上出现了碎片化。当每个来源都有完全不同的界面、安全模型、存储格式和API时,将这些不同的数据统一到一个集中的数据湖中是非常困难的。 许多组织试图通过手动编码的ETL(提取、转换、加载)脚本来克服这些数据孤岛。但是,如Mahesh所述,在离散的不同异构源之上构建自定义ETL需要复杂的协调逻辑——专门的连接/模型、复杂的转换脚本、严格的监控以及随着数据量的膨胀而不断扩展的ETL基础架构。即使有英雄般的人力投入,传统的ETL方法也无法跟上必须整理的多样性和规模的数据。 管理和保护筛选后的数据是一项巨大挑战。为了在规模上正确地管理数据,公司需要对大量元数据进行编目、分类和组织,如模式、数据类型、访问级别和数据敏感性等。然而,目前管理这种元数据的技术和过程尚不够成熟。如果元数据整理不当,公司将无法实现云规模上的精确访问控制或审计数据环境。不准确的数据政策可能导致敏感数据泄露,从而削弱人们对数据的信任。 本质上,传统的数据集成、安全、治理和元数据管理方法无法应对云规模的数据环境的挑战。急需新的解决方案。 马赫什提出了一些最佳实践和关键思维转变,以帮助克服这些数据筛选挑战。首先,他建议选择正确的技术合作伙伴,例如亚马逊云科技等云提供商,他们提供专为大规模筛选而设计的管理功能。将繁琐的工作交给云允许宝贵的内部数据工程资源专注于核心业务逻辑而非基础设施。 其次,马赫什主张从简单入手,首先将数据整合到一个单一的目录和账户中,然后随着时间的推移逐渐发展到更联合的模式。同样,初始架构应非常简单,然后随着实践的成熟逐步添加复杂性。有了合适的云伙伴管理基础设施,重载的升级可以随着时间的推移无缝地进行。 最后,也是最关键的,马赫什认为公司必须通过数据所有权而非职能角色来调整团队。使产品和业务团队能够全程拥有数据集,包括构建、维护、治理和共享它们。结合由治理护栏支持的自助服务访问,这种“产品团队”模型打破了阻碍公司真正成为数据驱动的组织的障碍。 为了展示这些最佳实践,该视频深入了解了亚马逊如何跨越其庞大的电子商务数据湖解决数据筛选问题。负责亚马逊零售业务数据平台的杰瑞·摩斯(Gerry Moses)解释了他们如何利用亚马逊云科技构建一个强大的筛选管道。 杰里强调了他所负责的庞大规模:数百万个数据集、海量数据和数千个业务团队在运行分析。为了满足亚马逊的需求,他大力推动了进口、安全、治理和访问控制的自动化,这需要高度定制化的解决方案。 例如,亚马逊在亚马逊云科技的Glue基础上构建了一个自定义数据目录,利用Glue的目录联合功能。这使得团队能够继续使用他们偏好的目录工具,而Glue在底层提供了集成式的联合访问。为了实现精细的访问控制,他们在Lake Formation上构建了一个自定义权限模型,使用“策略”对数据进行标记,以将行、列和单元格映射到精确的用户访问级别。 通过Lake Formation资源链接实现了跨账户共享。为了向[Amazon Redshift](https://aws.amazon.com/cn/redshift/?trk=cndc-detail)集群共享数据,他们使用了Redshift数据共享,而不是传统的ETL复制,这样可以减少数据集的副本。正如杰里总结所说,利用亚马逊云科技服务允许亚马逊将每个数据集的数据副本从数百减少到一个,同时提高了安全性并解决了访问问题。 虽然亚马逊的架构是针对其独特的规模和需求定制的,但这个视频强调了亚马逊云科技的服务,如Glue、Lake Formation和DataZone,可以帮助任何客户加速他们的数据整理过程。 Ati Solanki,亚马逊云科技的数据架构师,展示了如何使用Glue的数据质量和敏感数据检测功能快速构建用于精炼原始数据集的整理管道。例如,Glue的数据质量筛查有助于确保只有准确、可信任的数据流入下游。敏感数据检测使用[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)来自动标记敏感的列。这些功能使得团队从第一天开始就能创造价值,而不必陷入基础设施复杂性的困境。 Ati还展示了如何使用Lake Formation提供粒度细化的访问控制,以安全地将整理后的数据集与不同的用户群组共享。这样可以在不复制数据的情况下,仍然限制每个用户对特定行、列或单元格的访问。结合Lake Formation与DataZone的数据发现集成,这使得简单地为用户连接他们所需的具体数据变得可能。 在总结中,对大量数据进行整理是一个复杂且多面的挑战,这涉及到对架构、管理实践和团队结构的深入思考。亚马逊云科技提供了一套全面的数据管理服务,可以自动化完成数据集成、安全性、元数据管理和访问控制等关键任务,让企业摆脱繁琐的工作。拥有了合适的云计算基础,企业可以从单纯地收集数据转向挖掘其实际价值。数据整理是实现真正数据驱动型企业目标的关键所在。 **下面是一些演讲现场的精彩瞬间:** 在规模上整理数据的方法是re:Invent的关键议题之一。 ![](https://d1trpeugzwbig5.cloudfront.net/ANT205-Curate_your_data_at_scale/images/rebranded/ANT205-Curate_your_data_at_scale_0.png) 亚马逊云科技引入了精细粒度的访问控制,以简化跨多个数据副本的权限和审计。 ![](https://d1trpeugzwbig5.cloudfront.net/ANT205-Curate_your_data_at_scale/images/rebranded/ANT205-Curate_your_data_at_scale_1.png) 领导者讨论了使用分类器对行和列进行标记,以便对数据集实现精细粒度的访问控制。 ![](https://d1trpeugzwbig5.cloudfront.net/ANT205-Curate_your_data_at_scale/images/rebranded/ANT205-Curate_your_data_at_scale_2.png) 领导者探讨了亚马逊云科技中属性标记和权限管理背后的技术机制。 ![](https://d1trpeugzwbig5.cloudfront.net/ANT205-Curate_your_data_at_scale/images/rebranded/ANT205-Curate_your_data_at_scale_3.png) 亚马逊云科技将订阅概念扩展到管理Glue的跨帐户权限,从而简化设置并在资源发生变化时实现协调更新。 ![](https://d1trpeugzwbig5.cloudfront.net/ANT205-Curate_your_data_at_scale/images/rebranded/ANT205-Curate_your_data_at_scale_4.png) 亚马逊云科技Glue中的谓词下推通过仅基于查询谓词访问相关分区,实现了更高效的查询。 ![](https://d1trpeugzwbig5.cloudfront.net/ANT205-Curate_your_data_at_scale/images/rebranded/ANT205-Curate_your_data_at_scale_5.png) 领导者强调了亚马逊云科技如何帮助用户在短时间内无缝地构建数据管道。 ![](https://d1trpeugzwbig5.cloudfront.net/ANT205-Curate_your_data_at_scale/images/rebranded/ANT205-Curate_your_data_at_scale_6.png) ## 总结 数据管理对企业实现数据驱动的目标至关重要,但在实际应用中,许多企业都因数据、系统和人员的孤立问题而陷入困境。演讲者将数据管理划分为五个阶段,旨在通过识别数据来源、整合与集中数据、采用控制方式进行监管以及与用户共享数据来解决这些问题。然而,面临的挑战包括脱节的源系统、复杂的ETL过程以及数据元数据管理的繁重任务。 为了解决这些问题,应采用长期策略并选择合适的技术合作伙伴(例如亚马逊云科技),以确保具备自动化功能。此外,还需要选择一个简单且可扩展的架构,并根据数据消费者的需求而不是功能角色来调整团队结构。亚马逊团队已经展示了如何利用亚马逊云科技的Lake Formation、Glue和Redshift等技术来实现精细化的访问控制,从而在不重复数据的情况下保持性能,实现集中的权限管理。演示还展示了如何使用Glue的功能,如质量检查、敏感数据标记和访问控制,快速整理数据,以便向分析师和工程师提供更精确的访问。通过将人员、数据和工具相互连接,Datazone可以完成整个数据管理过程。 ## 演讲原文 ## 想了解更多精彩完整内容吗?立即访问re:Invent 官网中文网站! [2023亚马逊云科技re:Invent全球大会 - 官方网站](https://webinar.amazoncloud.cn/reInvent2023/?s=8739&smid=19458 "2023亚马逊云科技re:Invent全球大会 - 官方网站") [点击此处](https://aws.amazon.com/cn/new/?trk=6dd7cc20-6afa-4abf-9359-2d6976ff9600&trk=cndc-detail "点击此处"),一键获取亚马逊云科技全球最新产品/服务资讯! [点击此处](https://www.amazonaws.cn/new/?trk=2ab098aa-0793-48b1-85e6-a9d261bd8cd4&trk=cndc-detail "点击此处"),一键获取亚马逊云科技中国区最新产品/服务资讯! ## 即刻注册亚马逊云科技账户,开启云端之旅! [【免费】亚马逊云科技“100 余种核心云服务产品免费试用”](https://aws.amazon.com/cn/campaigns/freecenter/?trk=f079813d-3a13-4a50-b67b-e31d930f36a4&sc_channel=el&trk=cndc-detail "【免费】亚马逊云科技“100 余种核心云服务产品免费试用“") [【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”](https://www.amazonaws.cn/campaign/CloudService/?trk=2cdb6245-f491-42bc-b931-c1693fe92be1&sc_channel=el&trk=cndc-detail "【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用“")
目录
亚马逊云科技解决方案 基于行业客户应用场景及技术领域的解决方案
联系亚马逊云科技专家
亚马逊云科技解决方案
基于行业客户应用场景及技术领域的解决方案
联系专家
0
目录
关闭