使用 Amazon Bedrock(预览版),评估、比较和选择适合您的用例的基础模型

re:Invent
生成式人工智能
Amazon Bedrock
0
0
我很高兴能够告诉大家,[Amazon Bedrock](https://aws.amazon.com/cn/bedrock/?trk=cndc-detail) 现在可以用来评估、比较和选择适合您的用例的基础模型了。[Amazon Bedrock](https://aws.amazon.com/cn/bedrock/?trk=cndc-detail) 中的模型评估现已推出预览版。 [Amazon Bedrock](https://aws.amazon.com/cn/bedrock/?trk=cndc-detail) 提供自动评估和人工评估两种选择。您可以使用预定义的准确性、稳定性和恶意内容等指标进行自动评估,也可以设定友好度、风格和与品牌声音的一致性等主观或自定义指标,只需点击几下,即可设置人工评估工作流。 模型评估在开发的各个阶段都至关重要。作为开发人员,您现在可以用评估工具来构建生成式人工智能应用程序。您可以先在平台环境中试验不同的模型。可添加模型自动评估功能,加快迭代速度。到准备首次发布或限量发布时,再加入人工审查,帮助确保质量。 下面为您简要介绍 [Amazon Bedrock](https://aws.amazon.com/cn/bedrock/?trk=cndc-detail) 中的模型评估。 ##### 自动模型评估 自动模型评估时,您可以自带数据,也可以使用内置精选数据集和预定义指标来完成特定任务,例如内容摘要、问答、文本分类和文本生成。如此一来,免除了设计和运行自有模型评估基准等繁重工作。 欲开始使用,请导航到 [Amazon Bedrock 控制台](https://signin.aws.amazon.com/signin?redirect_uri=https%3A%2F%2Fus-east-1.console.aws.amazon.com%2Fbedrock%2Fhome%3FhashArgs%3D%2523%26isauthcode%3Dtrue%26region%3Dus-east-1%26state%3DhashArgsFromTB_us-east-1_6c54ca325de3b71e&client_id=arn%3Aaws%3Asignin%3A%3A%3Aconsole%2Famazon-bedrock&forceMobileApp=0&code_challenge=U7BmnO6SCUEfp3h3UUwPWOjd6MWPTG6Ddyd4qF5vC1Y&code_challenge_method=SHA-256?trk=cndc-detail),然后在左侧菜单中选择评**估与部署**下的**模型评估**。创建新的模型评估并选择**自动**。 ![屏幕截图 2023-12-26 205122.png](https://dev-media.amazoncloud.cn/2303800c0a8f444fb2b338c88fff5b6d_%E5%B1%8F%E5%B9%95%E6%88%AA%E5%9B%BE%202023-12-26%20205122.png "屏幕截图 2023-12-26 205122.png") 接下来,根据设置对话框的内容,选择要评估的基础模型和任务类型,例如文本摘要。选择评估指标并指定数据集,可以是内置数据集,也可以是您自己的数据集。 如果您自带数据集,请确保该数据集采用 [JSON Lines](https://jsonlines.org/?trk=cndc-detail) 格式,且每行都包含您想要评估的模型维度的所有键值对。例如,如果要评估有关问答任务的模型,则数据如下格式化(其中 `category` 是可选的): ```JSON {"referenceResponse":"Cantal","category":"Capitals","prompt":"Aurillac is the capital of"} {"referenceResponse":"Bamiyan Province","category":"Capitals","prompt":"Bamiyan city is the capital of"} {"referenceResponse":"Abkhazia","category":"Capitals","prompt":"Sokhumi is the capital of"} ... ``` 然后,创建并运行评估作业,了解模型的特定任务性能。评估作业完成后,就可以在模型评估报告中查看评估结果。 ![屏幕截图 2023-12-26 205255.png](https://dev-media.amazoncloud.cn/1875e0e2d4cb49199fbc3a37c65ed68d_%E5%B1%8F%E5%B9%95%E6%88%AA%E5%9B%BE%202023-12-26%20205255.png "屏幕截图 2023-12-26 205255.png") ##### 人工模型评估 人工评估时,只需点击几下,[Amazon Bedrock](https://aws.amazon.com/cn/bedrock/?trk=cndc-detail) 就会为您设置人工审查工作流。您可以自带数据集并定义自定义评估指标,如相关性、风格或与品牌声音的一致性,还可以选择自己的内部团队担任审查员,或者聘请亚马逊云科技托管团队进行评估。如此一来,免除了构建和操作人工评估工作流程等繁琐工作。 欲开始使用,请创建一个新的模型评估并选择**人工**:**自带团队或人工**:**亚马逊云科技托管团队**。 如果您选择亚马逊云科技托管团队进行人工评估,请说明模型评估需求,包括任务类型、工作团队的专业知识、提示的大致数量以及联系信息。之后,亚马逊云科技专家将与您联系,详细讨论您的模型评估项目要求。审查后,该团队将提供一份定制报价和项目时间表。 如果您选择自带团队,请根据设置对话框的内容,选择要评估的基础模型和任务类型,例如文本摘要。然后,选择评估指标,上传测试数据集,并组建工作团队。 要进行人工评估,您可以将之前显示的示例数据再次格式化为如下所示的 JSON Lines 格式(其中 `category` 和 `referenceResponse` 是可选的): ```JSON {"prompt":"Aurillac is the capital of","referenceResponse":"Cantal","category":"Capitals"} {"prompt":"Bamiyan city is the capital of","referenceResponse":"Bamiyan Province","category":"Capitals"} {"prompt":"Senftenberg is the capital of","referenceResponse":"Oberspreewald-Lausitz","category":"Capitals"} ``` 人工评估完成后,[Amazon Bedrock](https://aws.amazon.com/cn/bedrock/?trk=cndc-detail) 会生成一份评估报告,内容包含模型相对于您所选指标的性能。 ![image.png](https://dev-media.amazoncloud.cn/20208fd7d3de4aceaef51cf883253994_image.png "image.png") ##### 须知事项 下面介绍一些重要的须知事项: **模型支持**——在预览版期间,您可以评估和比较 [Amazon Bedrock](https://aws.amazon.com/cn/bedrock/?trk=cndc-detail) 上可用的基于文本的大型语言模型(LLM)。在此期间,使用自己的团队进行模型评估时,可以为每个自动评估作业选择一个模型,为每个人工评估作业选择最多两个模型;而使用亚马逊云科技托管团队进行人工评估时,可以指定自定义项目要求。 **定价**——在预览版期间,亚马逊云科技只对执行评估所需的模型推理收费(对处理后的输入和输出词元,按需定价)。不会对人工评估或自动评估单独收费。[Amazon Bedrock](https://aws.amazon.com/cn/bedrock/?trk=cndc-detail) 定价提供所有详细信息。 ##### 申请试用预览 自动评估和使用自己的工作团队的人工评估现已在亚马逊云科技商业服务区域美国东部(弗吉尼亚州北部)和美国西部(俄勒冈州)推出公开预览版。使用亚马逊云科技托管团队的人工评估现已在亚马逊云科技商业服务区域美东区(弗吉尼亚州北部)推出公开预览版。欲了解更多信息,请访问 [Amazon Bedrock 开发人员体验](https://aws.amazon.com/cn/bedrock/developer-experience/?trk=cndc-detail)网页并查看[用户指南](https://docs.aws.amazon.com/bedrock/latest/userguide/model-evaluation.html?trk=cndc-detail)。 ##### 开始使用 登录[ Amazon Management 控制台](https://signin.aws.amazon.com/signin?redirect_uri=https%3A%2F%2Fus-east-1.console.aws.amazon.com%2Fbedrock%2Fhome%3FhashArgs%3D%2523%26isauthcode%3Dtrue%26region%3Dus-east-1%26state%3DhashArgsFromTB_us-east-1_96a9c2c55f06e889&client_id=arn%3Aaws%3Asignin%3A%3A%3Aconsole%2Famazon-bedrock&forceMobileApp=0&code_challenge=S_CHQGizZNklnQM1vNkioDpGyUHarGqf-rtT8gjnYJY&code_challenge_method=SHA-256?trk=cndc-detail),立即开始探索 [Amazon Bedrock](https://aws.amazon.com/cn/bedrock/?trk=cndc-detail) 中的模型评估! 文章来源: https://aws.amazon.com/blogs/aws/evaluate-compare-and-select-the-best-foundation-models-for-your-use-case-in-amazon-bedrock-preview?trk=cndc-detail/ — [Antje](https://www.linkedin.cn/incareer/in/antje-barth/?trk=cndc-detail)
0
目录
关闭