亚马逊SageMaker Clarify,快速评估模型偏差,保证AI公平公正

云计算
re:Invent
0
0
## 视频 <video src="https://dev-media.amazoncloud.cn/30-LibaiGenerate/31-LiBaiRebrandingVideo/AIM367-Accelerate_foundation_model_evaluation_with_Amazon_SageMaker_Clarify-LBrebrandingWCaptionCN.mp4" class="bytemdVideo" controls="controls"></video> ## 导读 [Amazon SageMaker](https://aws.amazon.com/cn/sagemaker/?trk=cndc-detail) Clarify可以帮助您评估哪个FM为您的使用案例生成最准确、负责任的内容。在模型选择和定制工作流程中使用这一新功能,以确保您拥有基于准确性、稳健性、有毒性和偏见等标准的最佳FM。对于需要人工判断的创造力、风格或语气等方面,您可以使用嵌入式人工干预功能设置人工审查。加入我们的学习,了解评估FM的最全面、最简单的方式之一,以便您可以放心地采用FM来构建关键的生成式AI应用程序。 ## 演讲精华 <font color = "grey">以下是小编为您整理的本次演讲的精华,共1600字,阅读时间大约是8分钟。如果您想进一步了解演讲内容或者观看演讲全文,请观看演讲完整视频或者下面的演讲原文。</font> 迈克尔·戴蒙德首先登台并与观众互动,通过一个例子展示了大型语言模型有时可能会产生不准确或不适当的输出。他分享了两个著名的案例——其中一个是由领先的语言模型错误地声称詹姆斯·韦伯太空望远镜取得了第一张系外行星的照片,而实际上这一发现是在2004年由欧洲航天局的甚大望远镜在十年前做出的。这是一个错觉的例子,即语言模型基于其训练数据中的词汇关系生成看似合理但错误的答案。迈克尔解释说,不幸的是,这个不幸的事件发生在Anthropic的推出活动上,导致他们的市值从约1240亿美元的市场资本中下降了超过10亿美元。 迈克尔分享的第二个例子是伯克利的一位科学家提示一个语言模型编写一个Python函数,根据候选人的种族和性别来判断他们是否适合成为科学家。该模型生成了一个带有偏见的函数,如果候选人是白人和男性,则返回true,否则返回false——这是一个明显的刻板印象的例子,加剧了训练数据的有关问题。 迈克尔解释说,虽然这些不适当的回应在消费者应用中可能看起来可笑,但在企业使用场景中,客户信任和品牌声誉处于风险之中。他指出,最近的政府倡议,如欧盟的人工智能法案和拜登的行政命令,呼吁对语言模型进行严格的评估,不仅由提供者进行评估,而且由消费者进行评估,特别是在医疗保健和金融等高影响领域。然而,适当地评估模型是困难且耗时的。有数百个潜在的模型可供选择,新的选项,如Anthropic的Claude和Anthropic的宪法性AI,每天都在出现。学术基准测试网站需要高度专业的知识来解释它们的分数。例如,一个MLM得分为236是好还是坏?构建自定义评估功能是复杂且资源密集的。迈克尔指出,在尝试本地运行Helm基准测试时,它需要超过100个大型ml.g4dn.16xlarge实例,并花费超过24小时。 最重要的是,据Mike解释,标准分数可能与公司的具体应用场景无关。例如,一个在学术问答数据集上表现优秀的语言模型可能无法表明其在应对客户服务查询方面的表现。关键在于要与预期应用紧密相关的数据来评估模型。 接着,Mike介绍了[Amazon SageMaker](https://aws.amazon.com/cn/sagemaker/?trk=cndc-detail) Clarify的一项新功能,可用于基本模型评估,这允许用户快速评估任何语言模型的质量和责任。他强调,这与只提供算法指标或人类评估的方案不同,因为它结合了算法指标和针对此目标定制的人类评估,构成了一个集成解决方案。其优点包括能够使用精选的数据集快速开始,为你的自己的数据定制评估,通过详细报告使严谨的科学变得易于理解和可操作,以及有助于遵守需要评估的法规——所有这些都在完全托管的SageMaker环境中完成。 Mike解释了SageMaker Clarify旨在支持的两个关键使用场景: 1. 模型选择 - 在准确性、鲁棒性和责任方面评估BERT或GPT-3等多个语言模型选项,以选择适用于你的应用的合适基础模型。 2. 模型优化 - 在自定义工程(如提示设计)或在你自己的数据上进行微调之后运行评估,以确定哪个模型表现最佳并准备生产部署。 他提到,预期的用户是利用自动化指标的SageMaker数据科学家和工程师,以及通过集成UI提供关于品牌适用性等方面的主观反馈的人类注释者。他们的输入相辅相成,其中人类评审关注算法标记的风险最高的模型输出。例如,自动化评估可能会识别出有毒输出的子集以供进一步的人类审查。 在深入了解这些功能之后,迈克详细阐述了工作流程。首先,用户需要选择一个任务,如开放式文本生成、问答、摘要或分类。然后,用户可以选择人工或自动化评估。自动化评估会在精选或定制的数据集上运行算法指标,而人工评估则通过SageMayer Ground Truth向注释者展示样本。如果选择自动化路线,用户可以在不同维度(如准确性、毒性、刻板印象等)上进行配置。每个维度都由专门针对该属性的专用数据集和算法支持。例如,毒性算法使用Unitary AI的预训练模型。最后,用户在管理的SageMayer基础设施上运行处理作业,并在S3中接收汇总和详细分析报告,包括帮助解释结果的指导。 接着,艾米丽·韦伯(Emily Webber)为我们提供了关于基础模型评估在整个开发周期中的作用的更多背景信息。她解释说,有许多方法可以自定义语言模型,从简单的提示工程到昂贵的预训练,形成了准确性和成本的谱系。评估对于知道何时进入下一个步骤、确定性能平台并避免在回报递减时过度支出至关重要。它还有助于优化成本、做出迁移决策、使用人类反馈循环进行强化学习以及监控模型漂移。 Emily列举了SageMayer Clarify的评价能力可以帮助语言模型开发者的几个关键用例: - 根据成本、准确性和能力权衡找到适合你的应用的合适基础模型 - 确定最佳停止优化点,如提示工程或微调,基于性能指标 - 通过识别较小模型可以通过定制实现平行性来降低成本 - 通过将新模型与现有生产系统进行基准测试来决定迁移决策 - 通过检测迭代过程中的风险,如毒性来实现治理和合规 - 使用人类注释引导模型改进的强化学习 艾米丽展示了端到端的工作流程,她启动了[Amazon SageMaker](https://aws.amazon.com/cn/sagemaker/?trk=cndc-detail)工作室并找到了新的模型评估部分。她从JumpStart中选择一个拥有70亿参数的Claude模型,并使用内置的包含超过1200个关于历史、科学和文学等主题的问题-答案对的T-REx数据集配置了一个自动化的事实知识评估。这通过将模型的回答与数据集中的已知真实答案进行比较来评估模型回答简单事实问题的能力。 她设置了一个处理作业,在1个管理ml.m5.2xlarge实例上运行评估,并将结果存储在[Amazon S3](https://aws.amazon.com/cn/s3/?trk=cndc-detail)中,强调较大的数据集可能需要更大的实例类型或更多的并行资源。由于T-REx数据集相对较小,所以只需要一个实例,但评估自定义企业知识库可能需要更多的计算能力。 艾米丽注意到,除了工作室的用户界面外,用户还可以利用GitHub上的FMEval开源Python库来进行程序化评估,包括与HuggingFace和自定义终点的集成。她展示了一个示例笔记本,该笔记本使用事实知识算法和T-Rex数据集在本地评估一个70亿参数的Lama模型。 在评估方面更进一步,艾米丽展示了新的管道,这些管道协调端到端的基础模型评估工作流程。这些模板允许用户轻松评估新开发的内容,如模型变体、数据集和提示工程技巧。她通过一个评估三个模型(Lama 7B、Falcon 7B和一个fine-tuned Lama)的平行流程来说明如何确定最佳性能选项。该流程的每个阶段都会部署每个模型,使用相同的配置运行评估,汇总结果,并确定赢家。 确实公司的塔恩·海曼加入讨论他们的负责任的人工智能方法。她解释说,确实的使命是帮助人们找到工作,所以他们希望通过他们的AI系统提供平等的机会。塔恩概述了确实的原则,即始终把求职者放在首位,以公平性和公平性为中心,倾听用户意见,让人类保持在循环中,以及负责任地创新。 Indeed拥有一支虽小但实力强大且负责任的AI团队,团队成员包括大约六位科学家、研究人员和工程师。他们采用协作和审计两种方法开展工作。作为协作者,他们确保开发团队收集无偏数据并进行包容性设计。作为审计员,他们独立评估高风险算法,以确保公平性和遵守FCRA等相关法规。 据Tarn介绍,评估AI系统当前非常复杂,而语言模型带来了新的挑战。他们必须关注二元分类器的指标,并考虑生成系统中可能存在的偏见,例如在生成的职位描述中可能出现的性别刻板印象,或者在招聘人员电子邮件中可能出现的毒性内容。Indeed计划利用SageMaker Clarify进行各种评估,如检查生成的文本是否真实,减少刻板印象语言,检测毒性,以及衡量用户人口统计学的性能差异。 具体而言,Tarn列举了一些Indeed可能的用例: - 评估AI生成的候选人简历摘要或推荐工作的事实准确性 - 使用刻板印象检测来减少生成的职位描述中的偏见语言 - 利用毒性模型避免招聘人员聊天机器人中的不合适内容 - 分析模型在不同人群中的性能以防止歧视 总之,Emily总结道,SageMaker Clarify提供了评估语言模型的端到端功能,将算法指标的客观性与人类审查的细微差别相结合。这有助于识别风险并提高模型质量和责任,同时无缝地集成到SageMaker工作流中。随着对严格评估语言模型的需求不断增长,无论是初始选择还是持续监控,都伴随着新的法规要求。SageMaker Clarify旨在使这一关键过程变得简单、高效和可操作。 **下面是一些演讲现场的精彩瞬间:** 领导者强调,在商业应用中,生成性人工智能可能面临不准确或质量低下的问题,这可能会影响客户信任和品牌声誉。 ![](https://d1trpeugzwbig5.cloudfront.net/AIM367-Accelerate_foundation_model_evaluation_with_Amazon_SageMaker_Clarify/images/rebranded/AIM367-Accelerate_foundation_model_evaluation_with_Amazon_SageMaker_Clarify_0.png) 领导者探讨了CaptionBot如何协助用户根据不同应用场景选择合适模型,并运用如提示工程等技巧进行定制,以提高性能。 ![](https://d1trpeugzwbig5.cloudfront.net/AIM367-Accelerate_foundation_model_evaluation_with_Amazon_SageMaker_Clarify/images/rebranded/AIM367-Accelerate_foundation_model_evaluation_with_Amazon_SageMaker_Clarify_1.png) 自动评估与人工审查相结合,共同优化模型质量和监控。 ![](https://d1trpeugzwbig5.cloudfront.net/AIM367-Accelerate_foundation_model_evaluation_with_Amazon_SageMaker_Clarify/images/rebranded/AIM367-Accelerate_foundation_model_evaluation_with_Amazon_SageMaker_Clarify_2.png) 领导者指出,亚马逊云科技SageMaker提供了从简单到复杂的三项用户界面选项,用于模型评估。 ![](https://d1trpeugzwbig5.cloudfront.net/AIM367-Accelerate_foundation_model_evaluation_with_Amazon_SageMaker_Clarify/images/rebranded/AIM367-Accelerate_foundation_model_evaluation_with_Amazon_SageMaker_Clarify_3.png) 对不同人口统计群体进行性能衡量,以确保公平性,这是负责任的人工智能的重要组成部分。 ![](https://d1trpeugzwbig5.cloudfront.net/AIM367-Accelerate_foundation_model_evaluation_with_Amazon_SageMaker_Clarify/images/rebranded/AIM367-Accelerate_foundation_model_evaluation_with_Amazon_SageMaker_Clarify_4.png) ## 总结 麦克·戴蒙德介绍了一项亚马逊SageMaker Clarify的新功能,该功能用于评估基本模型。他强调,像大型语言模型这样的一些生成性人工智能模型可能会产生有偏见的不准确或不负责的结果。然而,由于可用的模型和定制选项众多,因此评估它们的质量和责任是重要但具有挑战性的。 SageMaker Clarify旨在使模型评估变得更加容易访问和集成。它提供了一系列算法指标和人工评估选项,以便对模型的准确性、事实正确性和无偏见等方面进行评估。艾米丽·韦伯展示了如何使用SageMaker Studio的用户界面自动执行和人工评估工作流程。模型可以在短短几分钟内完成评估。 Indeed的塔恩·海曼讨论了他们关于负责任的人工智能开发的原则。她解释了在评估除了分类之外的其他模型(如排名和生成文本)方面的复杂性。语言模型带来了新的挑战,例如潜在的毒性、事实错误以及不同群体之间的性能差异。像SageMaker Clarify这样的工具可以帮助测试模型在诸如毒性和平面化等方面的表现。 总之,演讲者们传达了一个明确的信息,即彻底评估基本模型至关重要,但也非常困难。SageMaker Clarify旨在让每个开发阶段的模型质量和责任测试变得更加轻松。 ## 演讲原文 ## 想了解更多精彩完整内容吗?立即访问re:Invent 官网中文网站! [2023亚马逊云科技re:Invent全球大会 - 官方网站](https://webinar.amazoncloud.cn/reInvent2023/?s=8739&smid=19458 "2023亚马逊云科技re:Invent全球大会 - 官方网站") [点击此处](https://aws.amazon.com/cn/new/?trk=6dd7cc20-6afa-4abf-9359-2d6976ff9600&trk=cndc-detail "点击此处"),一键获取亚马逊云科技全球最新产品/服务资讯! [点击此处](https://www.amazonaws.cn/new/?trk=2ab098aa-0793-48b1-85e6-a9d261bd8cd4&trk=cndc-detail "点击此处"),一键获取亚马逊云科技中国区最新产品/服务资讯! ## 即刻注册亚马逊云科技账户,开启云端之旅! [【免费】亚马逊云科技“100 余种核心云服务产品免费试用”](https://aws.amazon.com/cn/campaigns/freecenter/?trk=f079813d-3a13-4a50-b67b-e31d930f36a4&sc_channel=el&trk=cndc-detail "【免费】亚马逊云科技“100 余种核心云服务产品免费试用“") [【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”](https://www.amazonaws.cn/campaign/CloudService/?trk=2cdb6245-f491-42bc-b931-c1693fe92be1&sc_channel=el&trk=cndc-detail "【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用“")
目录
亚马逊云科技解决方案 基于行业客户应用场景及技术领域的解决方案
联系亚马逊云科技专家
亚马逊云科技解决方案
基于行业客户应用场景及技术领域的解决方案
联系专家
0
目录
关闭