## 视频
<video src="https://dev-media.amazoncloud.cn/30-LibaiGenerate/31-LiBaiRebrandingVideo/ANT216-Reimagine_data_integration_with_generative_AI_and_machine_learning-LBrebrandingWCaptionCN.mp4" class="bytemdVideo" controls="controls"></video>
## 导读
将不同来源的数据整合在一起,并确保数据质量高,可能很复杂且耗时。加入这个课程,了解亚马逊云科技如何通过新兴的生成式AI和[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)功能,帮助您重新思考数据整合。了解如何使用自然语言构建数据流水线和故障排除,如何使用[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)检测异常和偏差,以及如何更轻松地连接第三方数据源,包括Vertica、SAP HANA、Azure SQL数据库、Azure Cosmos DB、Redis和Apache HBase。
## 演讲精华
<font color = "grey">以下是小编为您整理的本次演讲的精华,共1100字,阅读时间大约是6分钟。如果您想进一步了解演讲内容或者观看演讲全文,请观看演讲完整视频或者下面的演讲原文。</font>
在2022年的亚马逊云科技re:Invent上,关于'利用生成性AI和[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)重塑数据集成'的主题演讲强调了亚马逊云科技Glue团队在利用人工智能和[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)帮助客户加速和简化数据集成过程方面的创新。"
"亚马逊云科技Glue的高级产品经理Matt Su在会议开始时,介绍了许多组织在数据集成方面面临的挑战。他指出,传统上,数据集成是一个繁琐的手动过程,需要专门的人员来完成。数据往往被划分为不同的领域,并且通常采用夜间批量处理的方式。然而,今天的企业比以往任何时候都更需要实时决策来驱动关键应用的数据。这使得数据集成比以往任何时候都更加重要且困难。"
"具体来说,Matt指出,公司感到无法足够快速地行动,因为他们依赖于中央数据平台团队。数据工程师还不得不学习多种工具并亲自管理基础设施。领导层对不能满足不同用户需求的传统数据集成工具的成本不断增加表示担忧。"
"为了解决这些挑战,亚马逊云科技Glue旨在通过四个支柱(连接、转换、实现和管理数据)来简化数据集成。接着,Matt介绍他的同事Gaurav Sharma和Shiv,他们将随后展示Glue在连接性、数据管理和使用人工智能编写作业方面的创新。"
"在概述了亚马逊云科技Glue之后,Matt分享了一些关键数据和统计数字,展示了Glue的巨大规模和采用情况。例如,亚马逊云科技Glue每年运行超过10亿个ETL作业,提供数百种内置的数据转换功能。它可以连接到亚马逊云科技内部的和外部的大量数据源。每月有数万名开发人员积极使用Glue Studio,这个可视界面来构建ETL工作流程。"
"Matt解释说,公司需要亚马逊云科技Glue,因为数据集成是使数据可用于分析和[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)的关键第一步。它汇集了孤立的数据,并将其清理和准备成适用于下游使用。尽管数据集成曾经是一个IT瓶颈,但Glue旨在使其对于任何用户都变得可访问和可扩展。"
"最后,Matt描述了一些亚马逊云科技Glue可以帮助解决的常见挑战:
商业团队渴望加强对数据的掌控能力,以便更快速地访问数据,不受依赖中央IT团队的影响。然而,数据工程师往往需花费大量时间在基础架构管理上,而非专注于数据分析。他们必须不断地学习新工具以适应需求变化,但传统的数据集成工具既昂贵又无法满足不同技能用户的需求,从而限制了新技术如[无服务器](https://aws.amazon.com/cn/serverless/?trk=cndc-detail)和[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)的应用。
亚马逊云科技的高级大数据架构师高拉夫·夏尔马(Gaurav Sharma)介绍了亚马逊云科技Glue在数据连接方面的新创新。他指出,连接到新的数据源通常既复杂又耗时,从而延缓了获取洞察的速度。为了解决这个问题,亚马逊云科技Glue已经在2022年增加了对10个更多数据库连接器的即时支持,包括Snowflake、Google BigQuery、Teradata和Azure SQL,从而简化并加速了添加新数据源的过程。
高拉夫还展示了一个新的亚马逊云科技Glue Studio连接器画廊的演示,它提供了一个直观的界面来创建连接。他通过一个示例展示了如何构建一个从MongoDB Atlas和[Amazon S3](https://aws.amazon.com/cn/s3/?trk=cndc-detail)提取数据、将数据合并然后加载到Teradata的可视化ETL管道。这表明非开发者可以通过简单的点击操作而非编写代码就能轻松构建工作流程。
接着,亚马逊云科技Glue数据质量功能的产品经理希夫·纳拉扬(Shiv Narayan)讨论了传统基于规则的数据质量方法的局限性。这些局限包括随着数据规模扩大而变得过时的静态阈值、无法识别隐藏问题以及手动定义复杂规则的负担。为了解决这一问题,希夫宣布了亚马逊云科技Glue数据质量的新动态规则,该规则可以根据过去的统计数据自动调整阈值。这意味着开发人员无需在数据发生变化时不断更新规则。更为强大的是,新的异常检测功能使用[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)来在不依赖预定义规则的情况下发现数据质量问题的见解。这使得随着时间的推移观察到的异常驱动的规定逐步创建成为可能。
希夫通过分析历史统计数据来检测异常行为,例如行计数减少和完整性降低,来说明了异常检测是如何工作的。然后,可以将推荐的补救规则添加到数据质量管道中。他还展示了如何将动态规则与现有的检查相结合,以使其更加智能。
最终,Matt Su再次阐述了如何通过运用人工智能,尤其是生成式AI,来简化在亚马逊云科技的Glue中创建数据集成作业的编写过程。他指出,当前,开发者需要在构建ETL工作流的多个组件中获得专业知识,这无疑面临著巨大的学习曲线。
为了应对这一问题,Amazon CodeWhisper为开发者提供了实时代码建议,以便他们在笔记本中编写Glue ETL脚本。Matt Su简短地向大家展示了CodeWhisper如何根据用户现有的代码和注释来自动提供上下文相关的代码建议。
展望未来的发展趋势,Matt Su预告了即将推出的一个功能,即把亚马逊Q(一种自然语言AI助手)与亚马逊云科技的Glue相结合。这将使得开发人员能够通过与[Amazon Q](https://aws.amazon.com/cn/q/?trk=cndc-detail)对话来生成ETL脚本、提问和解决问题。这个AI已经过亚马逊云科技Glue数据集成知识的微调,以提供直观的使用体验。
总的来说,这次演讲强调了亚马逊云科技Glue通过利用人工智能和[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)所带来的几个重要创新。这些功能旨在帮助开发人员和非技术用户更轻松地连接数据源、管理数据质量并编写ETL作业。这有助于简化和加速任何规模的数据集成。
演讲者在总结时表示,通过整合像Amazon CodeWhisper这样的服务,亚马逊云科技Glue正为处理数据提供智能化的帮助,以消除工作过程中的障碍。这使得企业可以专注于从数据中获取价值,而非解决集成复杂性的问题。亚马逊云科技对其新兴技术的承诺体现于其致力于利用AI等技术来解决客户需求。
参加会议的人员可以从re:Invent上了解到亚马逊云科技服务的最新功能和未来愿景。这样的一场演讲所传播的知识有助于技术领导者充分利用云计算的优势来应对业务挑战。
**下面是一些演讲现场的精彩瞬间:**
马特·苏,作为亚马逊云科技(Amazon Web Services)Glue的高级产品经理,欢迎大家在关于通过AI和[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)重新设计数据集成的主题演讲中发表意见。
![](https://d1trpeugzwbig5.cloudfront.net/ANT216-Reimagine_data_integration_with_generative_AI_and_machine_learning/images/rebranded/ANT216-Reimagine_data_integration_with_generative_AI_and_machine_learning_0.png)
他强调了亚马逊云科技的系统具有可扩展性,因为它实现了最少的数据传输,并与亚马逊Glue紧密集成,同时利用了其他亚马逊云科技服务,如Amazon DQ。
![](https://d1trpeugzwbig5.cloudfront.net/ANT216-Reimagine_data_integration_with_generative_AI_and_machine_learning/images/rebranded/ANT216-Reimagine_data_integration_with_generative_AI_and_machine_learning_1.png)
此外,他还提到了使用亚马逊云科技数据质量建议、现成的规则以及识别已通过或失败检查的记录的功能,以轻松开始数据集成过程。
![](https://d1trpeugzwbig5.cloudfront.net/ANT216-Reimagine_data_integration_with_generative_AI_and_machine_learning/images/rebranded/ANT216-Reimagine_data_integration_with_generative_AI_and_machine_learning_2.png)
在讨论如何从数据模式中的异常中提取关键业务见解时,他强调了让业务用户提供足够的数据质量规则的难度。
![](https://d1trpeugzwbig5.cloudfront.net/ANT216-Reimagine_data_integration_with_generative_AI_and_machine_learning/images/rebranded/ANT216-Reimagine_data_integration_with_generative_AI_and_machine_learning_3.png)
为了解决这一问题,亚马逊云科技宣布在Glue数据质量中引入了一种新的异常检测功能,该功能能够分析数据随时间的变化,从而揭示无需配置规则即可发现的数据质量问题。
![](https://d1trpeugzwbig5.cloudfront.net/ANT216-Reimagine_data_integration_with_generative_AI_and_machine_learning/images/rebranded/ANT216-Reimagine_data_integration_with_generative_AI_and_machine_learning_4.png)
亚马逊云科技Glue Studio允许用户使用可视化界面轻松编写、调试和监控ETL作业。
![](https://d1trpeugzwbig5.cloudfront.net/ANT216-Reimagine_data_integration_with_generative_AI_and_machine_learning/images/rebranded/ANT216-Reimagine_data_integration_with_generative_AI_and_machine_learning_5.png)
## 总结
视频探讨了亚马逊云科技(Amazon Web Services)的Glue如何通过生成性AI和[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)在数据集成领域进行的创新。首先概括了数据集成所面临的挑战,包括实时数据需求和自助服务访问需求。亚马逊云科技(Amazon Web Services)的Glue旨在简化跨越连接、转换、操作和管理四大支柱的数据集成过程。
近期的发展使得能够通过Glue连接器画廊中的新连接器轻松地与更多数据源进行连接。亚马逊云科技(Amazon Web Services)的Glue Studio提供了可视化界面来构建无代码的ETL任务。而对于数据管理,Glue Data Quality有助于确保数据的质量。如今,它具有基于历史数据的自动调整阈值的动态规则以及无需配置规则的异常检测功能。用户还可在Glue Studio笔记本中使用Amazon CodeWhisper来获取AI生成的代码建议。即将推出的还有,[Amazon Q](https://aws.amazon.com/cn/q/?trk=cndc-detail) for Glue将提供一位AI助手,用于编写ETL脚本并通过自然语言对话回答问题。
总之,这些创新通过让连接、转换、管理和编写任务(利用生成性AI)变得更加快速、简便,从而实现了对数据集成的重构。
## 演讲原文
## 想了解更多精彩完整内容吗?立即访问re:Invent 官网中文网站!
[2023亚马逊云科技re:Invent全球大会 - 官方网站](https://webinar.amazoncloud.cn/reInvent2023/?s=8739&smid=19458 "2023亚马逊云科技re:Invent全球大会 - 官方网站")
[点击此处](https://aws.amazon.com/cn/new/?trk=6dd7cc20-6afa-4abf-9359-2d6976ff9600&trk=cndc-detail "点击此处"),一键获取亚马逊云科技全球最新产品/服务资讯!
[点击此处](https://www.amazonaws.cn/new/?trk=2ab098aa-0793-48b1-85e6-a9d261bd8cd4&trk=cndc-detail "点击此处"),一键获取亚马逊云科技中国区最新产品/服务资讯!
## 即刻注册亚马逊云科技账户,开启云端之旅!
[【免费】亚马逊云科技“100 余种核心云服务产品免费试用”](https://aws.amazon.com/cn/campaigns/freecenter/?trk=f079813d-3a13-4a50-b67b-e31d930f36a4&sc_channel=el&trk=cndc-detail "【免费】亚马逊云科技“100 余种核心云服务产品免费试用“")
[【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”](https://www.amazonaws.cn/campaign/CloudService/?trk=2cdb6245-f491-42bc-b931-c1693fe92be1&sc_channel=el&trk=cndc-detail "【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用“")