## 视频
<video src="https://dev-media.amazoncloud.cn/30-LibaiGenerate/31-LiBaiRebrandingVideo/AIM373-Evaluate_and_select_the_best_FM_for_your_use_case_in_Amazon_Bedrock-LBrebrandingWCaptionCN.mp4" class="bytemdVideo" controls="controls"></video>
## 导读
今天,组织在为其生成式人工智能应用程序提供动力方面有多种FM选项。为了在使用案例中实现准确性和性能的正确平衡,组织必须评估模型并根据其首选指标找到最佳选择。通过[Amazon Bedrock](https://aws.amazon.com/cn/bedrock/?trk=cndc-detail)上的模型评估,您可以仅需点击几下就能够评估、比较和选择适合您使用案例的最佳FM。在本次会议中,了解如何使用[Amazon Bedrock](https://aws.amazon.com/cn/bedrock/?trk=cndc-detail)自动和人工评估、交互界面以及自动生成的报告来选择适合任务的正确FM。
## 演讲精华
<font color = "grey">以下是小编为您整理的本次演讲的精华,共1700字,阅读时间大约是8分钟。如果您想进一步了解演讲内容或者观看演讲全文,请观看演讲完整视频或者下面的演讲原文。</font>
演讲由Jessie主持,欢迎观众参加关于如何在[Amazon Bedrock](https://aws.amazon.com/cn/bedrock/?trk=cndc-detail)上针对使用场景评估和选择最佳基础模型的会议。她对众多参会者在这样一个重要主题上齐聚一堂表示兴奋,尽管这是在re:Invent结束后的最后一天。
Jessie介绍了她的同事Keith Shore,他也参与了会议。她提到了Swami Sivasubramanian本周早些时候的主题演讲,他在演讲中宣布已经在[Amazon Bedrock](https://aws.amazon.com/cn/bedrock/?trk=cndc-detail)上提供了模型评估功能的预览版。Jessie解释说,她和Keith期待分享更多关于这个新功能如何运作、它所带来的好处以及参会者如何立刻开始使用的细节。
她概括了会议的议程,包括:
- 什么是基础模型评估以及为什么它如此重要;
- 客户目前如何应对这一挑战以及他们所遇到的问题;
- 新功能及其在Bedrock上的优势简介;
- Keith的演示,展示如何开始和使用该产品;
- 关于下一步的建议和用于开始的QR码。
Jessie开始解释基础模型评估是什么。简而言之,这是为您的特定应用程序选择正确的人工智能模型的过程。在构建生成性人工智能应用程序时,需要在模型响应或推理的质量、运行应用程序的成本效率以及从模型获得响应的速度之间取得平衡。开发人员当然希望实现高质量、低成本且响应迅速。模型评估使他们能够评估这些权衡。
质量方面涉及到输入提示“总结这个客户支持票证”,获取模型输出,并评估该响应是否适用于您的业务使用场景。这可以通过自动化过程与算法一起完成,也可以通过让人类审查响应来完成。测试许多提示后,汇总分数和见解以查看模型是否符合您的需求。
可携带自己的数据集或使用提供的精选数据集
- 访问自动化和人工评估指标
- 灵活性定义自己的定制指标以满足需求
- 可以选择使用自己的人工评估团队或让亚马逊云科技管理团队
- 简化设置,只需点击几次即可启动评估作业
与传统过程相比,这大大缩短了总体周期时间。Bedrock允许您在评估选项的所有一个地方找到模型评估,而不是客户当前经历的分散方法。
杰西进一步阐述了亚马逊Bedrock中自动评估的工作原理:
- 首先选择要评估的模型和测试类型 - 单提示,批量提示,单模型或比较两个模型
- 然后选择预定义的评价指标或携带自己的定制指标
- 如果需要,可以输入可选参数以适应特定指标
- 点击评估,并根据提示集大小在分钟内获得结果
- 查看,下载并与团队成员分享结果,以开始决定使用哪个模型。
在选择评估一个或两个模型时,可以选择进行单独评估或并行比较。内置指标适用于各种不同类型的任务,例如文本生成、摘要、问答和分类。根据需求,可以灵活地定义自己的自定义指标。目前提供有五种评估方法,包括Likert标尺评分、上下箭头、二元选择和有序排名。可以自行组织人类评估团队,也可以让亚马逊云科技代为管理。系统会将所有评级汇总成易于理解的图形得分卡。
对于亚马逊云科技管理的人类评估,只需通过请求表单输入关于任务类型、所需专业知识和提示数量的详细信息。随后,亚马逊云科技团队将设置咨询会议以讨论要求并提供端到端支持。
所有评估完成后,您将获得简单的图形结果,清楚地显示不同模型的性能。这样可节省处理数据和分析不同见解所花费的大量时间。评估的所有原始数据也会自动存储在您的S3桶中,以便进一步分析。
Jessie强调,Bedrock游乐场内已提供的成本和延迟指标可以帮助您在交互式环境中测试模型。结合模型评估的深入质量指标,为您提供了一个完整的场景——使您能够在质量、成本和速度之间找到平衡。重要的是,所有这些在Bedrock中是原生的集成,因此您可以在一个统一的平台上评估和部署生成性人工智能模型。
最后,Jessie介绍了她的同事Keith Shore,他将演示Bedrock中模型评估的工作原理。Keith在开始演示时强调了Jessie之前概述的关键成本、延迟和质量之间的权衡。他还展示了如何在Bedrock聊天游乐场中查看实时指标,如公共定价、令牌计数等。在那里,您可以选择不同的模型,输入提示,并查看基于公开价格的计算出的成本、令牌数和延迟等指标。同时,他也演示了如何使用“比较”模式并排查看两个模型的指标。同样的指标可以通过调用模型API获取。
尽管全面评估模型的质量需要更稳定的测试,但基思已经展示了Bedrock中新的模型评估功能是如何实现这一点的。他从自动化评估开始进行了演示。首先,他为评估命名并进行描述,接着选择合适的模型提供商(例如亚马逊的Titan)和模型,再选择任务类型(例如通用文本生成),然后挑选预定义指标,如毒性、准确性、鲁棒性和内置或自定义数据集。接下来,他为结果提供S3位置和IAM角色,然后查看并创建作业。
基思展示了正在进行和已完成的作业在历史记录页面上的显示方式。每个指标都有清晰的分数,同时还有评估配置和使用中的推理设置等详细信息。用户还可以深入S3桶研究原始输出数据。
接着,基思展示了如何创建一个人类评估作业。这包括为作业命名和描述,选择一个或两个要评估和比较的模型,选择任务类型(例如问题和答案),挑选或定义自定义指标和数据集,创建工作团队,设置评估说明,分配IAM角色,然后查看并创建作业。他强调,工作人员将通过电子邮件收到登录链接,以便进入门户完成评估。
基思还展示了一个完成的人类评估作业,其中包括他和Jessie评估的24个提示。图形计分卡提供了跨不同指标和提示类别的两种模型比较的易于理解的概述。此外,他还显示了评估配置细节。
最后,基思演示了创建一个亚马逊云科技托管人类评估的过程。这包括输入基本信息,如联系信息、任务类型、所需的专业知识和提示数量。然后,亚马逊云科技团队将安排咨询会议以讨论需求并提供端到端支持。
总的来说,基思总结说,这些演示展示了亚马逊Bedrock中评估模型成本、延迟和质量的所有功能。随后,他邀请了Jessie回到舞台上。
杰西详细介绍了Bedrock内置模型评估如何大幅减轻当今碎片化过程的困扰。该系统提供了自动化和人工评估的灵活性,支持精选或定制数据集及指标的使用。这使得工作流程得以简化,将评估时间从数周或数月缩短至仅几分钟。从交互式游乐场到生产部署,用户体验都非常简单易用。她鼓励与会者今天就开始使用提供的QR码评估模型,以便为他们的需求构建最佳的AI应用程序。杰西感谢每个人的出席,并提到了活动调查,随后邀请大家在会后提问。总的来说,演示文稿通过介绍亚马逊Bedrock的集成模型评估功能,展示了其解决当前关键挑战的能力。这使人们能够使用自动化和人工驱动的方法有效评估质量、成本和延迟。与Bedrock的本机集成意味着可以无缝地从交互式测试模型过渡到部署最佳模型进入生产环境。这意味着任何希望利用生成性人工智能的公司现在都可以显著加速为其应用程序选择正确模型的过程。
**下面是一些演讲现场的精彩瞬间:**
领导者们正在探讨如何评估并挑选出最适合[Amazon Bedrock](https://aws.amazon.com/cn/bedrock/?trk=cndc-detail)的基础模型。
![](https://d1trpeugzwbig5.cloudfront.net/AIM373-Evaluate_and_select_the_best_FM_for_your_use_case_in_Amazon_Bedrock/images/rebranded/AIM373-Evaluate_and_select_the_best_FM_for_your_use_case_in_Amazon_Bedrock_0.png)
作为一家企业,您可以从亚马逊云科技的新功能中受益,这些功能旨在简化人工智能模型的评估过程。
![](https://d1trpeugzwbig5.cloudfront.net/AIM373-Evaluate_and_select_the_best_FM_for_your_use_case_in_Amazon_Bedrock/images/rebranded/AIM373-Evaluate_and_select_the_best_FM_for_your_use_case_in_Amazon_Bedrock_1.png)
亚马逊云科技推出了一项名为SageMaker Ground Truth的新功能,它可以帮助客户轻松地评估人工智能模型的性能,从而提高其准确性。
![](https://d1trpeugzwbig5.cloudfront.net/AIM373-Evaluate_and_select_the_best_FM_for_your_use_case_in_Amazon_Bedrock/images/rebranded/AIM373-Evaluate_and_select_the_best_FM_for_your_use_case_in_Amazon_Bedrock_2.png)
这项功能提供了一个名为Chatbot Output的人工评估选项,可以让客户自己的团队或者亚马逊云科技提供的White Glove服务来完成评估工作。
![](https://d1trpeugzwbig5.cloudfront.net/AIM373-Evaluate_and_select_the_best_FM_for_your_use_case_in_Amazon_Bedrock/images/rebranded/AIM373-Evaluate_and_select_the_best_FM_for_your_use_case_in_Amazon_Bedrock_3.png)
借助亚马逊云科技的SageMaker Ground Truth,企业可以大大减少[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)周期的耗时,因为它们可以轻松获取到高质量的训练数据。
![](https://d1trpeugzwbig5.cloudfront.net/AIM373-Evaluate_and_select_the_best_FM_for_your_use_case_in_Amazon_Bedrock/images/rebranded/AIM373-Evaluate_and_select_the_best_FM_for_your_use_case_in_Amazon_Bedrock_4.png)
此外,亚马逊云科技还允许企业在自己的数据基础上评估人工智能模型,以确保这些模型能够满足它们的特定需求。
![](https://d1trpeugzwbig5.cloudfront.net/AIM373-Evaluate_and_select_the_best_FM_for_your_use_case_in_Amazon_Bedrock/images/rebranded/AIM373-Evaluate_and_select_the_best_FM_for_your_use_case_in_Amazon_Bedrock_5.png)
## 总结
亚马逊Bedrock现已推出模型评估功能,旨在协助客户为其AI应用挑选最佳基础模型。模型评估虽至关重要却充满挑战,涉及数据集、指标、基础设施及人为判断。新推出的Bedrock功能成功解决了这些问题。
客户可以利用精选和定制的数据集来衡量模型表现。预定义和自定义指标可实现自动化和人工评估。客户可以选择自行组建团队或使用亚马逊云科技提供的托管服务来进行人工审核。托管服务还包括咨询服务,确保评估符合客户需求。
只需简单操作便可设定模型评估任务。自动测试会输出明确的得分,例如准确性及毒性等指标。人工测试则提供关于一致性及相关性的可自定义评分。最终结果将以简洁的图形分数卡呈现,便于对比不同模型。
将评估整合至Bedrock中,可简化整个模型生命周期的挑选及部署过程。实际数据的早期测试确保所选模型与企业目标保持一致。总之,亚马逊Bedrock通过让模型评估变得更快速、高效且针对每个客户需求量身打造,推动了生成性AI的普及。
## 演讲原文
## 想了解更多精彩完整内容吗?立即访问re:Invent 官网中文网站!
[2023亚马逊云科技re:Invent全球大会 - 官方网站](https://webinar.amazoncloud.cn/reInvent2023/?s=8739&smid=19458 "2023亚马逊云科技re:Invent全球大会 - 官方网站")
[点击此处](https://aws.amazon.com/cn/new/?trk=6dd7cc20-6afa-4abf-9359-2d6976ff9600&trk=cndc-detail "点击此处"),一键获取亚马逊云科技全球最新产品/服务资讯!
[点击此处](https://www.amazonaws.cn/new/?trk=2ab098aa-0793-48b1-85e6-a9d261bd8cd4&trk=cndc-detail "点击此处"),一键获取亚马逊云科技中国区最新产品/服务资讯!
## 即刻注册亚马逊云科技账户,开启云端之旅!
[【免费】亚马逊云科技“100 余种核心云服务产品免费试用”](https://aws.amazon.com/cn/campaigns/freecenter/?trk=f079813d-3a13-4a50-b67b-e31d930f36a4&sc_channel=el&trk=cndc-detail "【免费】亚马逊云科技“100 余种核心云服务产品免费试用“")
[【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”](https://www.amazonaws.cn/campaign/CloudService/?trk=2cdb6245-f491-42bc-b931-c1693fe92be1&sc_channel=el&trk=cndc-detail "【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用“")