基于亚马逊云科技的 MLOps 工程简介

云计算
re:Invent
0
0
## 视频 <video src="https://dev-media.amazoncloud.cn/30-LibaiGenerate/31-LiBaiRebrandingVideo/TNC215-Introduction_to_MLOps_engineering_on_AWS-LBrebrandingWCaptionCN.mp4" class="bytemdVideo" controls="controls"></video> ## 导读 本论坛介绍[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)运维([机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail) Ops)。缺乏MLOps 技能是操作人工智能( AI )的最大挑战之一。MLOps 构建并扩展了软件开发中流行的 DevOps 实践,以构建、训练和部署[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)模型。了解 DevOps 和 MLOps 实践之间的异同。 ## 演讲精华 <font color = "grey">以下是小编为您整理的本次演讲的精华,共900字,阅读时间大约是4分钟。如果您想进一步了解演讲内容或者观看演讲全文,请观看演讲完整视频或者下面的演讲原文。</font> 在re:Invent上,一位名为约翰的演讲者开始了他的演讲,约有500名观众参加。他在会议上介绍了自己,表示他居住在得克萨斯州休斯顿地区,与妻子、青少年期的儿子以及他的两只狗伙伴共同生活。 约翰定期在各种寻求实现[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)操作化的组织中担任讲师,这是为期三天的培训课程的一部分。他在一小时的会议中向观众概述了与MLOps相关的关键主题,包括: - 对[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)操作的定义提供背景需求,以及与传统软件应用程序的对比 - 描述参与MLOps的各个角色,包括数据工程师、数据科学家、ML工程师、DevOps工程师和ML治理团队成员 - 阐述典型的[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)项目的端到端工作流程,从解决业务问题到部署模型 - 介绍四个阶段的ML成熟度模型,从早期的实验到在整个组织内可扩展的自动化ML - 讨论在生产系统中实现[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)操作时的治理和安全考虑 约翰强调了实时部署在生产中的不足,尽管当前有大量实验和模型开发正在进行中。他认为,为了成为成熟的ML组织,建立将实验代码转换为自动化CI/CD管道和生产级系统的健壮过程至关重要。向可扩展的ML运营过渡是MLOps的核心目标。 John详细介绍了典型的MLOps环境,该环境涉及两种核心操作:批量处理(例如在大规模数据集上进行模型训练)和实时推理(已训练模型被部署以对新的数据进行预测)。模型训练阶段依赖于聚合百亿级数据集以及大量前期准备工作和数据加工。推理阶段将经过训练的模型用于对新输入的数据点进行预测。一个实际应用案例是欺诈检测,其中模型能够根据新的信用卡交易实时识别潜在的欺诈行为。这两个过程形成一个闭环系统并相互依赖。 在工作中,John解释道,ML项目从将业务问题转化为ML问题并开始收集相关数据开始。需要从原始数据中构建特征以输入到模型训练和调整中。实际上,模型建设和调整仅占整个工作流程的一小部分,可能仅为5-10%。模型需要在保留的测试数据集上进行严格评估,最终部署表现最好的模型。在整个过程中,数据任务发生在数据准备、模型建设、模型评估和部署监控等阶段。编码任务则发生在数据准备、模型开发、模型部署和监控阶段。整个工作流程高度互连,一个组件的改变可能需要其他组件做出相应的改变。 尽管MLOps严重依赖于核心的DevOps原则(如版本控制、计算管理、CI/CD管道和监控),但John强调它也存在一些关键差异。其中一个主要区别是引入了新的角色,如数据工程师、数据科学家和ML工程师,他们的技能和语言与传统软件开发者有所不同。此外,MLOps需要更复杂的管道,以及对数据血统、模型来源、模型建设工作和部署工作的更多关注。 John重申,人是最关键的组成部分,正如口号所说“人优于过程优于工具”。有效的数据团队、ML团队、DevOps工程师和ML治理之间的合作变得至关重要,需要协调多达五个不同的角色。这就像打排球,所有球员必须和谐合作才能取得成功。 在技术领域,John建议采用现有的组织技巧,选择具备内置审计、可解释性、法规遵从性的灵活且可扩展的工具。他强调,亚马逊SageMaker提供了许多现成的MLOps功能,例如CI/CD管道、模型注册表、实验追踪、训练、部署、监控以及偏差/漂移检测。尽管新工具令人充满期待,但在刚刚开始进行MLOps时,与现有工具的整合是实际可行的。 在安全方面,John强调需要对ML流水线采取与其他生产系统相同的对待方式——保护基础设施、限制访问、加密数据并监控活动。亚马逊SageMaker提供的有用工具包括虚拟专用网络(VPC)、认证、加密、Clarify和Model Monitor。此外,还需要考虑治理方面的问题,如文档记录、基于角色的访问控制、模型监控、审计轨迹和法规遵从性。 总的来说,尽管MLOps带来了新的复杂性,但遵循核心DevOps原则并采取特定的ML实践可以成功实施。John回顾了[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)成熟度的四个阶段,强调组织在开始运行之前需要进行规划。演讲者最后为那些在MLOps中寻求提高技能的人提供了进一步培训的建议,同时强调了优先考虑人员和工作流程而非工具的重要性。 **下面是一些演讲现场的精彩瞬间:** 演讲者约翰介绍了他自己,并在德克萨斯州休斯顿与他的家人共享了他们的生活。 ![](https://d1trpeugzwbig5.cloudfront.net/TNC215-Introduction_to_MLOps_engineering_on_AWS/images/rebranded/TNC215-Introduction_to_MLOps_engineering_on_AWS_0.png) 他认为,团队合作和有效沟通是实现目标的关键所在。 ![](https://d1trpeugzwbig5.cloudfront.net/TNC215-Introduction_to_MLOps_engineering_on_AWS/images/rebranded/TNC215-Introduction_to_MLOps_engineering_on_AWS_1.png) 在挑选[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)工程工具的过程中,领导者们强调了对现有技能和流程的考虑,而不仅仅是为了追求最新或最时髦的选择。 ![](https://d1trpeugzwbig5.cloudfront.net/TNC215-Introduction_to_MLOps_engineering_on_AWS/images/rebranded/TNC215-Introduction_to_MLOps_engineering_on_AWS_2.png) 在使用[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)整合业务流程时,他们强调了运用灵活、可扩展、可审计和可解释性强的工具的重要性。 ![](https://d1trpeugzwbig5.cloudfront.net/TNC215-Introduction_to_MLOps_engineering_on_AWS/images/rebranded/TNC215-Introduction_to_MLOps_engineering_on_AWS_3.png) 此外,他们还强调了[Amazon SageMaker](https://aws.amazon.com/cn/sagemaker/?trk=cndc-detail)所具备的内置[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)功能,例如数据准备、实验追踪、模型训练和优化等,这些都有助于实现持续集成和部署(CI/CD)的实践。 ![](https://d1trpeugzwbig5.cloudfront.net/TNC215-Introduction_to_MLOps_engineering_on_AWS/images/rebranded/TNC215-Introduction_to_MLOps_engineering_on_AWS_4.png) [机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)运营成熟度的四个阶段包括初始化、可重复性、可靠性和可扩展性。 ![](https://d1trpeugzwbig5.cloudfront.net/TNC215-Introduction_to_MLOps_engineering_on_AWS/images/rebranded/TNC215-Introduction_to_MLOps_engineering_on_AWS_5.png) 约翰鼓励观众们通过参与亚马逊云科技提供的培训课程以及利用[Amazon SageMaker](https://aws.amazon.com/cn/sagemaker/?trk=cndc-detail)工具来提升自己的[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)技能。 ![](https://d1trpeugzwbig5.cloudfront.net/TNC215-Introduction_to_MLOps_engineering_on_AWS/images/rebranded/TNC215-Introduction_to_MLOps_engineering_on_AWS_6.png) ## 总结 在跨职能协作方面,数据科学家、[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)工程师和DevOps工程师需要通过共享术语和框架来进行有效沟通,从而构建出高效的管道。此外,尽管实验对于研究非常重要,但是企业也需要制定稳定的流程,将模型大规模应用于实际操作中。例如,亚马逊的SageMaker等专用工具具有内置集成功能,能够支持可重复且自动化的[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)工作流程。最后,实施MLOps([机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)运维)需要一个从手动临时性操作向可靠、可扩展系统转变的成熟过程。随着企业的成长,他们将进行交叉培训、自动化验证以及复杂的监控,以确保模型的高可靠性部署。 ## 演讲原文 ## 想了解更多精彩完整内容吗?立即访问re:Invent 官网中文网站! [2023亚马逊云科技re:Invent全球大会 - 官方网站](https://webinar.amazoncloud.cn/reInvent2023/?s=8739&smid=19458 "2023亚马逊云科技re:Invent全球大会 - 官方网站") [点击此处](https://aws.amazon.com/cn/new/?trk=6dd7cc20-6afa-4abf-9359-2d6976ff9600&trk=cndc-detail "点击此处"),一键获取亚马逊云科技全球最新产品/服务资讯! [点击此处](https://www.amazonaws.cn/new/?trk=2ab098aa-0793-48b1-85e6-a9d261bd8cd4&trk=cndc-detail "点击此处"),一键获取亚马逊云科技中国区最新产品/服务资讯! ## 即刻注册亚马逊云科技账户,开启云端之旅! [【免费】亚马逊云科技“100 余种核心云服务产品免费试用”](https://aws.amazon.com/cn/campaigns/freecenter/?trk=f079813d-3a13-4a50-b67b-e31d930f36a4&sc_channel=el&trk=cndc-detail "【免费】亚马逊云科技“100 余种核心云服务产品免费试用“") [【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”](https://www.amazonaws.cn/campaign/CloudService/?trk=2cdb6245-f491-42bc-b931-c1693fe92be1&sc_channel=el&trk=cndc-detail "【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用“")
目录
亚马逊云科技解决方案 基于行业客户应用场景及技术领域的解决方案
联系亚马逊云科技专家
亚马逊云科技解决方案
基于行业客户应用场景及技术领域的解决方案
联系专家
0
目录
关闭