数据模式: 了解数据应用的全貌

云计算
re:Invent
0
0
## 视频 <video src="https://dev-media.amazoncloud.cn/30-LibaiGenerate/31-LiBaiRebrandingVideo/PEX309-Data_patterns__Get_the_big_picture_for_data_applications-LBrebrandingWCaptionCN.mp4" class="bytemdVideo" controls="controls"></video> ## 导读 在本论坛中,学习如何识别和分析关键数据模式,以了解数据、做出明智的决策,并在将数据迁移到亚马逊云科技时提取有价值的见解。探索典型的迁移过程,并了解如何选择正确的亚马逊云科技数据服务。了解如何在亚马逊云科技的数据生命周期中利用数据模式的技术架构和runbook。学习这些数据模式可以帮助您专注于主要的技术活动,这些活动可以推动从发现到启动和构建可扩展、可靠和安全的数据管道的机会,包括高级分析和 AI/ML。本论坛面向亚马逊云科技合作伙伴。 ## 演讲精华 <font color = "grey">以下是小编为您整理的本次演讲的精华,共1900字,阅读时间大约是10分钟。如果您想进一步了解演讲内容或者观看演讲全文,请观看演讲完整视频或者下面的演讲原文。</font> 资深合作伙伴解决方案架构师Elena Nari Karl在会议的第一天开始了她的演讲,热情欢迎观众的到来。她首先询问现场有多少数据工程师和数据架构师,以及其中有多少人具有实际操作大数据应用的经验。她表示,这个课程对于每天与数据打交道的人来说将非常有用。 Elena介绍了课程的焦点——数据模式。在深入核心内容之前,她简要介绍了自己。作为一名资深合作伙伴解决方案架构师,Elena整个职业生涯都专注于数据和数据库。她具备大多数关系和非关系型数据库的经验,并是DynamoDB方面的专家。Elena已与许多客户合作设计了他们的大数据应用,目前专注于帮助合作伙伴和客户增加对亚马逊云科技的基因组应用和医疗保健领域的NoSQL数据库的采用。 Elena介绍了她的两位同事——她的同事Resh,一位首席解决方案架构师和亚马逊云科技大使,以及来自CDL的数据架构师Matthew Houghton。然后,她概述了课程的议程,该议程将为现代数据策略、各种数据模式、基于使用情况的有效数据模式实施、解决客户挑战和顶级合作伙伴计划提供有价值的见解。课程结束时,将提供实施现代数据策略的步骤和资源。 过渡到第一个主要主题,Elena讨论了当今信息时代中数据的重要作用。她强调,过去两年中已经创建了90%的数据,显示出指数级的增长。虽然数据有价值,但也需要管理。只有三分之一的企业真正利用了自己的数据,而其余的企业则努力从中受益。那些确实使用自己的数据的企业能够通过应用现代数据策略来改进业务、创新、解决客户挑战并获得更好的数据管理。 埃琳娜解释说,现代数据策略为整个数据生命周期提供了最佳实践。她详细描述了整个生命周期,从各种数据源开始,越来越多的数据从中产生。现代数据策略采用灵活且经济高效的存储选项来存储数据,并使用专为通过分析、数据湖和[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)获取有价值见解而设计的专用数据库解决方案。在整个生命周期中,治理会创建元数据和管理安全性。最终,数据会被提供给最终用户(如人员、应用程序和设备)以提供见解。丰富的数据然后会返回到源,改善客户体验。 在概述现代数据策略之后,埃琳娜接着讨论了数据模式。数据模式是指现代数据策略中数据集的潜在结构和关系。分析这些模式对于理解数据和支持数据驱动的决策制定至关重要。她解释了如何进行这种分析并将数据迁移到亚马逊云科技,以便利用这些重要的数据模式。埃琳娜承认,虽然有很多数据模式,但缺乏指导其实施的现成可用资源,如操作手册和技术参考。该课程将重点提供这些资产。 这种模式的一个显著优势在于避免了早期进行重大架构变革的需求。客户可以在亚马逊云科技上运用与在本地环境中相同的技能和数据库,例如使用RDS的Oracle或SQL Server。主要的技术包括用于数据可视化的RDS、Redshift和QuickSight。埃琳娜强调,尽管数据迁移面临挑战,但亚马逊云科技提供了诸如Database Migration Service之类的工具来提供帮助。她引用了这样的统计数据:94%的组织认为他们可以依靠数据进行更明智的决策,然而80%的数据迁移项目失败或超支。 为了理解成本和挑战,埃琳娜列举了一些关键因素。要迁移的数据库数量可能令人望而生畏。此外,还需要考虑商业数据库的许可成本。其他成本包括数据传输以及构建和部署迁移脚本所需的资源。尽量减少停机时间也会增加复杂性。满足监管标准是另一个障碍。 埃琳娜阐述了亚马逊云科技如何帮助客户顺利地在云端进行迁移。亚马逊云科技提供详细的运行说明和参考架构,以便客户无需从零开始。她通过描述迁移Oracle数据仓库的推荐流程来说明这一点,该流程包括功能发现、许可优化、培训、架构验证、部署和采用Well-Architected Framework等步骤。遵循这种方法可以降低风险和努力。 接着,她介绍了迁移交易和分析系统的参考架构。它包括由Oracle数据库映像的亚马逊云科技的RDS、Redshift和QuickSight。数据同步和迁移服务(如DMS)连接两个环境。埃琳娜指出,客户不需要使用所有服务——他们可以根据自己的需求选择最合适的工具。 为了提供一个具体的案例,埃琳娜邀请了亚马逊云科技大使马修来概述CDL如何将600个Oracle数据库迁移到亚马逊云科技。马修解释说,他们的目标不仅仅是迁移到亚马逊云科技,还要将这些数据库转换为PostgreSQL,以减少许可成本。为了尽量减少停机时间,他们利用了变更数据捕获软件将本地交易日志实时复制到RDS PostgreSQL实例。这确保了源和目标数据库在生产过程中保持同步。 在将应用程式容器化并在亚马逊云科技(Amazon Web Services)的ECS上部署后,他们已经准备好“切换开关”。这种快速切换最大程度地减少了停机时间。据马修表示,将基础设施作为代码的自动化方法如何加速过程并降低跨多个环境迁移的风险。然而,他们面临了一个挑战——缺乏与Oracle物化视图相当的PostgreSQL功能,这些物化视图可以提升性能。通过与亚马逊云科技的数据库专家合作,他们开发了一个开源模块,以便将Oracle的功能引入到PostgreSQL中。 马修通过描述他们在亚马逊云科技上的最终架构结束了他的演讲。他们将PostgreSQL交易数据复制到Redshift进行数据分析,同时利用RDS的多AZ等功能。Lake Formation提供一个统一的数据目录,而QuickSight提供可视化。亚马逊云科技Glue支持额外的ETL,而Transfer Family则简化了数据共享。通过结合关键服务,他们在亚马逊云科技上实现了一个灵活且现代的数据架构。 接下来,Elena讨论了现代化分析的模式。她将在亚马逊云科技背景下将现代化定义为将单体应用程序拆分为微服务,以加速创新并解决技术挑战。这个模式也适用于其他行业。应用场景包括迁移到亚马逊云科技并利用云原生技术。一个主要动力是构建解耦合的架构,以提高灵活性。优点在于为每个工作负载使用最优数据库,而不是一刀切的方法。技术包括专为特定目的构建的数据库,如Aurora和DynamoDB,以及与分析和集成服务的组合。 尽管支持创新,但现代化也带来了挑战。正确选择技术非常困难。员工在使用新服务时需要大量培训。处理高数据量的需求可能会很大。管理复杂、分布式的数据生态系统增加了复杂性。克服对变化的组织阻力是另一个障碍。整合不同的数据源和各种服务带来了技术挑战。 为了帮助客户克服各种难题,亚马逊云科技提供了一份详细的结构化操作手册,以指导现代化改造过程。手册涵盖了功能发现、选择最优数据库、架构验证、部署、应用重构以及整合AI/ML功能的交易性工作负载等方面的建议步骤。参考架构展示了现代应用如何通过利用容器、[无服务器](https://aws.amazon.com/cn/serverless/?trk=cndc-detail)和管理服务等技术,实现跨数据存储、集成、分析和[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)等功能的高效运行。 在金融服务和房地产行业的现代化改造案例中,手册详细介绍了如何将关注点放在核心功能上,而非每个服务,从而简化现代化改造过程。例如,ElastiCache、Neptune、DynamoDB、S3和SageMaker等技术既满足特定需求,又降低了复杂性。 在讨论如何在亚马逊云科技上有效地分散组织数据时,手册提出了集中式和分散式方法的对比。集中式方法使得领域数据的汇集和扩展变得困难,而且数据共享和治理受到限制。相反,分散式方法(如数据网格)通过分散所有权、面向领域的自助服务和联邦计算治理等方式,解决了这些问题。这种方法允许组织独立地扩展生产和消费者,并将数据视为产品,从而更容易共享和发现。联邦治理在保持适当控制的同时,平衡了数据的分散。 以GoDaddy为例,该公司采用了数据网格架构。他们通过在中央目录中注册数据集,并允许团队管理自己的数据产品(包括精选、丰富和发布),实现了这一目标。中央目录提供了必要的治理,而数据仍然由其领域所有者拥有。消费者可以通过目录访问数据集,从而扩展了访问和分析的范围。 埃琳娜详细阐述了数据网格参考架构的概念。这个架构是由领域数据生产者组成的,他们将数据产品共享至集中式目录中。消费者可以通过目录访问这些数据,而治理则负责控制安全性、访问权和合规性。她解释了这个模型如何使得团队能够端到端地管理领域数据,同时在整个组织范围内实现数据的共享、发现和治理。 在谈到治理方面时,埃琳娜引述了她的搭档雷什的观点。雷什将数据治理定义为一种通过业务和IT合作的通用、行业通用的模式,以确保数据满足业务目标和运营需求。其动机包括增加集中的控制和大规模安全共享数据。亚马逊云科技的服务,如Lake Formation和Data Exchange,对此有所助益。 雷什指出,尽管85%的公司致力于成为数据驱动的企业,但只有35%成功地实现了这一目标——这通常是由于糟糕的治理抑制了价值创造。传统上,治理被认为是把双刃剑,但实际上,执行良好的治理反而能推动创新。由于数据遍布多个孤岛,因此保持一致性、访问控制和审计跟踪是非常困难的。雷什强调,治理为商业决策提供了必要的信任基础。 通过一份示例数据治理运行手册,雷什概述了如何制定业务计划、识别所需的数据、确定数据生产和消费者、以及在编写治理准则之前选择技术并实施治理实践的过程。参考架构展示了一个受治理的数据目录是如何实现数据生产者和消费者之间互动的。亚马逊云科技的服务支持在安全性、访问权限、合规性和生命周期管理方面的治理。 最后,雷什谈到了另一个模式,即利用AI/ML来生成合成数据和内容,以提高客户体验。然而,数据和模型中的偏见可能导致误导或有害的输出。通过微调预训练模型或在特定领域的数据上训练模型,可以更负责任和有效地应用生成式AI。亚马逊云科技的服务,如SageMaker、Kendra和Neptune,有助于开发健壮的解决方案。 雷什最终总结了关于定制生成性人工智能解决方案的四个关键数据模式:上下文提示工程、检索增强生成、模型微调以及训练特定领域的模型。总的来说,这次演讲对现代数据策略和架构进行了一次富有洞察力的概述。演讲者通过分享现实世界中的见解和实例,展示了亚马逊云科技如何帮助客户借助AI/ML技术从数据中实现迁移、现代化、去中心化和管理工作,从而提取价值。他们强调,通过运用经过验证的模式和服务,企业可以高效地实施现代数据策略以满足业务需求。 **下面是一些演讲现场的精彩瞬间:** 亚马逊云科技的部门负责人向在座的人员询问了多少数据工程师和架构师在现场,随后询问了谁具有实际操作大数据的经验。 ![](https://d1trpeugzwbig5.cloudfront.net/PEX309-Data_patterns__Get_the_big_picture_for_data_applications/images/rebranded/PEX309-Data_patterns__Get_the_big_picture_for_data_applications_0.png) 他表示,对于每天处理数据的人来说,这次会议将会非常有益。 ![](https://d1trpeugzwbig5.cloudfront.net/PEX309-Data_patterns__Get_the_big_picture_for_data_applications/images/rebranded/PEX309-Data_patterns__Get_the_big_picture_for_data_applications_1.png) 现代数据策略为企业提供了最佳实践,以便更好地管理和做出数据驱动的决策,从而改进业务、推动创新、解决客户挑战并充分利用数据。 ![](https://d1trpeugzwbig5.cloudfront.net/PEX309-Data_patterns__Get_the_big_picture_for_data_applications/images/rebranded/PEX309-Data_patterns__Get_the_big_picture_for_data_applications_2.png) 部门负责人强调,将交易和分析工作负载迁移到亚马逊云科技是一种常见的模式,许多行业在进一步现代化之前都在寻求以低风险的方式将其应用程序迁移到云端。 ![](https://d1trpeugzwbig5.cloudfront.net/PEX309-Data_patterns__Get_the_big_picture_for_data_applications/images/rebranded/PEX309-Data_patterns__Get_the_big_picture_for_data_applications_3.png) 部门负责人提醒,将工作负载迁移到云端的过程可能会涉及到许多潜在的成本,而且可能会很复杂,目的是将停机时间降到最低。 ![](https://d1trpeugzwbig5.cloudfront.net/PEX309-Data_patterns__Get_the_big_picture_for_data_applications/images/rebranded/PEX309-Data_patterns__Get_the_big_picture_for_data_applications_4.png) 亚马逊云科技的迁移操作手册提供了一份逐步指南,可以有效地将工作负载迁移到亚马逊云科技云。 ![](https://d1trpeugzwbig5.cloudfront.net/PEX309-Data_patterns__Get_the_big_picture_for_data_applications/images/rebranded/PEX309-Data_patterns__Get_the_big_picture_for_data_applications_5.png) 部门负责人还讨论了如何获取增强的生成能力,这是一种关键模式,可以使金融聊天机器人作为推荐者采取行动。 ![](https://d1trpeugzwbig5.cloudfront.net/PEX309-Data_patterns__Get_the_big_picture_for_data_applications/images/rebranded/PEX309-Data_patterns__Get_the_big_picture_for_data_applications_6.png) ## 总结 这是来自亚马逊云科技的re:Invent演讲,内容涵盖了各种用于管理和从云中数据中获取价值的数据模式和策略。 演讲者首先强调了采用一种现代化的数据战略的重要性,该战略旨在利用专为数据库解决方案、分析、数据湖和[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)设计的功能。这有助于从不断增长的数据量中提取见解。演讲者还讨论了数据迁移和现代化的常见挑战。 接下来,演讲者概述了几种关键数据模式,如迁移交易和分析工作负载、分散数据、实施治理以及使用生成性人工智能。针对每种模式,演讲者都提供了实际案例、客户需求、建议的技术、示例架构和操作手册的概览。 演讲者强调的关键点包括打破巨无霸应用程序、避免数据孤岛、实施联邦治理以及使用高质量数据微调生成性AI模型。他建议在云中从数据中创造价值的最佳方法是使用适合每个场景的正确工具来构建灵活的解决方案,同时确保安全性、可用性和合规性。 总的来说,现代数据战略需要针对性的数据库选择、分散且有治理的架构以及情境化的AI,以便在云中实现数据的价值。演讲者提供了一个实施这些模式的框架和资源的概述,以帮助组织有效地实现这些目标。 ## 演讲原文 ## 想了解更多精彩完整内容吗?立即访问re:Invent 官网中文网站! [2023亚马逊云科技re:Invent全球大会 - 官方网站](https://webinar.amazoncloud.cn/reInvent2023/?s=8739&smid=19458 "2023亚马逊云科技re:Invent全球大会 - 官方网站") [点击此处](https://aws.amazon.com/cn/new/?trk=6dd7cc20-6afa-4abf-9359-2d6976ff9600&trk=cndc-detail "点击此处"),一键获取亚马逊云科技全球最新产品/服务资讯! [点击此处](https://www.amazonaws.cn/new/?trk=2ab098aa-0793-48b1-85e6-a9d261bd8cd4&trk=cndc-detail "点击此处"),一键获取亚马逊云科技中国区最新产品/服务资讯! ## 即刻注册亚马逊云科技账户,开启云端之旅! [【免费】亚马逊云科技“100 余种核心云服务产品免费试用”](https://aws.amazon.com/cn/campaigns/freecenter/?trk=f079813d-3a13-4a50-b67b-e31d930f36a4&sc_channel=el&trk=cndc-detail "【免费】亚马逊云科技“100 余种核心云服务产品免费试用“") [【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”](https://www.amazonaws.cn/campaign/CloudService/?trk=2cdb6245-f491-42bc-b931-c1693fe92be1&sc_channel=el&trk=cndc-detail "【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用“")
目录
亚马逊云科技解决方案 基于行业客户应用场景及技术领域的解决方案
联系亚马逊云科技专家
亚马逊云科技解决方案
基于行业客户应用场景及技术领域的解决方案
联系专家
0
目录
关闭