让数据更有价值,采用数据网格,克服集中式数据湖局限

机器学习
生成式人工智能
0
0
十多年来,组织一直在采用数据湖来克服数据仓库的技术限制,并逐步向更以数据驱动的实体发展。虽然许多组织利用数据湖探索新的数据使用案例并改进了数据驱动方法,但其他组织发现很难获得所承诺的收益。因此,许多数据湖计划的效率和投资回报率受到了质疑。 ### **规避陷阱:当数据湖变成“数据沼泽”** 随着一些组织在管理大量数据存储和避免“数据沼泽”方面面临挑战,科技界对数据湖的看法已经发生了变化。在“数据沼泽”中,数据虽然被存储但未被使用。这些“数据沼泽”是大型存储库,数据被无差别地倾倒其中,导致可发现性和可用性问题。集中化管理可能会造成瓶颈,从而减慢访问和分析速度,但如果缺乏严格的治理,数据质量会迅速恶化。 此外,对于数据湖实行一刀切办法,实际无法满足不同业务领域的具体需求。由于缺乏适当的工具或数据本身的复杂性,用户难以从数据湖中提取价值,使得数据湖的潜力往往无法充分发挥。 ![image.png](https://dev-media.amazoncloud.cn/0bfce989fb5d461eb471a4dee9bae828_image.png "image.png") ### **数据生产者与消费者:组织鸿沟** **这些问题的根源在于数据生产者和消费者与中央数据湖团队之间的组织互动**。数据生产者往往更倾向于开发新的应用程序功能,而不是提供可用于分析用例的数据。他们专注于事务性而非分析性工作负载,这意味着他们共享的数据质量无法保证。有时,甚至会与数据消费者脱节,导致生产内容与需求不匹配。 对于数据湖团队,需要应对大量数据源,必须执行复杂的技术维护,并不断衡量决策优先级的变化。由于分析能力有限且与数据生产者脱节,消费者对缺乏透明度、不清晰的价值以及需求优先级被低估而感到沮丧。数据消费者和生产者通常不会直接互动,这种沟通被数据湖的代理组织所分隔,因为所有数据都集中存储在那里。 ### **通过数据网格赋能团队:通往分布式数据生态系统** 科技界的讨论已转向一种更细致入微且可适应的数据策略,**即数据网格,它旨在通过推广分布式、以人为本和特定于上下文的数据管理方式,来克服集中式数据湖的一些局限性。** 数据网格是解决集中化问题的另一种方法。它将分析数据的责任分配给构建和运行应用程序并产生事务数据的特定领域团队,例如电子商务团队,以及那些消费数据并用于获取洞见的团队。例如,拥有网店结账页面将销售数据存储在事务数据库中的团队,比如营销或财务团队,负责为分析、报告生成式 AI 与[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)用例提供销售数据。**数据网格使消费者更容易、更简单地使用这些分析数据。** 这不仅仅是实现另一个接口——数据被作为独立的数据产品提供,为实际消费者带来特定利益。这种数据产品由特定数据及其元数据、准备和交付数据所需的源代码、必要的测试和生产基础设施(IaC)及其配置组成。 ### **培养数据素养:在数据网格团队中引入新角色** 创建和使用数据的团队,有可能会缺乏开发和管理分析数据的专业知识。然而,他们对数据的业务背景有深入的了解,这是非常宝贵的。在数据网格框架中,通过培养这些团队实施分析用例至关重要。这包括为现有成员提供大量培训,并创建额外的专门角色。其中,两个关键角色至关重要:**数据产品负责人负责指导数据的战略方向;数据工程师则负责构建和管理这些数据产品的技术方面。** 数据产品负责人是以业务为导向的数据人员,他们从事务和分析的角度了解业务领域,直接与数据产品的消费者沟通,并定义产品及其战略和路线图。 数据工程师在数据工程和数据科学方面是全面的通才,在业务所需的某个数据相关领域拥有更深的专业知识。该角色构建实际的数据产品,也是其他团队提出技术问题的对接人。 ### **为成功奠定基础:数据网格平台** 为充分发挥数据网格的潜力,我建议将这两个角色直接嵌入到生产和消费团队中。一种有效但次优的变体(因为它重新引入了代理团队)是为每个业务领域(如电子商务)建立一个独立的数据网格团队。**数据网格平台为生产者和消费者提供支持,使他们的工作更加高效**。数据网格平台团队不创建数据产品,也不存储或处理数据。 > **数据网格平台有三个角色:** > > 1.提供数据目录、访问控制、CI/CD 管道、监控以及预备开发和测试环境等工具和基础设施; > > 2.培训和指导生产者和消费者,必要时通过额外的开发能力为他们提供支持; > > 3.以联邦方式制定必须在整个组织内遵守的通用标准和程序。 **数据网格平台的使命是为生产者和消费者提供简单、高效、无压力的环境。** 但是,成功且可持续地运行平台并不容易。我在博客文章中总结了我的经验,内容是[如何建立有效支持开发团队的平台](https://aws.amazon.com/cn/blogs/enterprise-strategy/how-to-set-up-a-platform-that-effectively-supports-your-development-teams/?trk=cndc-detail)。 如果正确执行,数据网格模型将促进主动维护数据质量、相关性和可访问性,并根据不同业务部门的独特需求量身定制数据产品。通过将分析数据与其操作上下文紧密结合,数据网格有助于组织内部更有效地使用和共享数据。它利用了现代分布式架构原则(如源自微服务架构的原则),**不仅可以更高效地存储数据,还使数据可以随时使用,从而推动与业务目标紧密相关的可操作见解。** **相关阅读:** - [什么是数据网格?](https://aws.amazon.com/cn/what-is/data-mesh/?trk=cndc-detail) - [设计数据网格](https://aws.amazon.com/cn/blogs/big-data/design-a-data-mesh-architecture-using-aws-lake-formation-and-aws-glue/?trk=cndc-detail) - [数据网格架构](https://aws.amazon.com/cn/blogs/architecture/lets-architect-architecting-a-data-mesh/?trk=cndc-detail) ![image.png](https://dev-media.amazoncloud.cn/ee2a2aa3135d4a4e87534752f10e299b_image.png "image.png") ![开发者尾巴.gif](https://dev-media.amazoncloud.cn/0ef9fe29c10f43029a7a163c21183f04_%E5%BC%80%E5%8F%91%E8%80%85%E5%B0%BE%E5%B7%B4.gif "开发者尾巴.gif")
目录
亚马逊云科技解决方案 基于行业客户应用场景及技术领域的解决方案
联系亚马逊云科技专家
亚马逊云科技解决方案
基于行业客户应用场景及技术领域的解决方案
联系专家
0
目录
关闭