**亚马逊云科技宣布 [Amazon Bedrock](https://aws.amazon.com/cn/bedrock/?trk=cndc-detail) 新增两项评估功能,以优化生成式 AI 应用程序:**
1. **RAG 评估功能(预览版)**:[Amazon Bedrock](https://aws.amazon.com/cn/bedrock/?trk=cndc-detail) 知识库现在支持检索增强生成(RAG)评估。该功能利用大语言模型(LLM)自动评估 RAG 应用的能力,帮助用户比较不同配置,调整设置,以满足特定需求。
2. **LLM-as-a-judge 功能(预览版)**:用户可以使用 LLM 作为评估标准,以类人工的质量评测其他模型,显著降低人工评估的成本和时间。
**这两项功能提供了快速、自动化的评估方法,能够缩短反馈周期,加速改进过程。**
### **在 Amazon Bedrock 知识库中使用 RAG 评估**
在 [Amazon Bedrock](https://aws.amazon.com/cn/bedrock/?trk=cndc-detail) 控制台中,您选择“推理和评估”部分中的“评估”,随后页面会显示新的知识库选项卡。
![image.png](https://dev-media.amazoncloud.cn/b65520ae703d4e6798ba13d851f0d372_image.png "image.png")
选择“创建”,输入评估的名称和描述,并选择用于计算指标的评估模型。本文演示使用 Anthropic 的 Claude 3.5 Sonnet。
![image.png](https://dev-media.amazoncloud.cn/fcc4292c508644dab71ff576faa04aa5_image.png "image.png")
选择要评估的知识库。本文之前创建了一个仅包含 Amazon Lambda 开发人员指南 PDF 文件的知识库,以在评估时可以提出有关 Amazon Lambda 服务的问题。
您既可以单独评估检索功能,也可以评估完整的检索——生成工作流程,这一选择会影响下一步可用的指标。本文演示选择评估检索和响应生成,并选择要使用的模型,本例使用 Anthropic 的 Claude 3 Haiku。您还可以使用 [Amazon Bedrock Guardrails](https://aws.amazon.com/cn/bedrock/guardrails?trk=cndc-detail),并通过选择响应生成器模型后的配置链接来调整运行时推理设置。
![image.png](https://dev-media.amazoncloud.cn/219995b11a014b5794db78bdb8655cf4_image.png "image.png")
接下来选择要评估的指标。本文在“质量”部分选择了“有用性”和“正确性”,在“负责任的 AI 标准”部分选择了“有害性”。
![image.png](https://dev-media.amazoncloud.cn/5ff72a44ea3f488c84222d1f9d428ffc_image.png "image.png")
选择将用于评估的数据集。以下是为这次评估准备并上传到 [Amazon S3](https://aws.amazon.com/cn/s3/?trk=cndc-detail) 的 .jsonl 文件,每一行都提供一个对话,并且每条消息都有一个参考响应。
```js
{"conversationTurns":[{"referenceResponses":[{"content":[{"text":"A trigger is a resource or configuration that invokes a Lambda function such as an AWS service."}]}],"prompt":{"content":[{"text":"What is an AWS Lambda trigger?"}]}}]}
{"conversationTurns":[{"referenceResponses":[{"content":[{"text":"An event is a JSON document defined by the AWS service or the application invoking a Lambda function that is provided in input to the Lambda function."}]}],"prompt":{"content":[{"text":"What is an AWS Lambda event?"}]}}]}
```
指定用来存储评估结果的 [Amazon S3](https://aws.amazon.com/cn/s3/?trk=cndc-detail) 位置,评估任务要求在 [Amazon S3](https://aws.amazon.com/cn/s3/?trk=cndc-detail) 存储桶中配置 [Amazon Bedrock](https://aws.amazon.com/cn/bedrock/?trk=cndc-detail) 用户指南中所述的[跨源资源共享(CORS)权限](https://docs.aws.amazon.com/bedrock/latest/userguide/what-is-bedrock.html?trk=cndc-detail)。
对于服务访问,需要创建或提供一个 [Amazon Bedrock](https://aws.amazon.com/cn/bedrock/?trk=cndc-detail) 可以承担的 Amazon IAM 服务角色,并且该角色允许访问评估所使用的 [Amazon Bedrock](https://aws.amazon.com/cn/bedrock/?trk=cndc-detail) 和 [Amazon S3](https://aws.amazon.com/cn/s3/?trk=cndc-detail) 资源。
几分钟后评估完成,您可以浏览评估结果。不过评估的实际持续时间,取决于提示数据集的大小以及使用的生成器和评估模型。
在页面顶部,“指标摘要”使用所有会话的平均分来评估整体性能。
![image.png](https://dev-media.amazoncloud.cn/c009fbef092a4267b94991de8f64585b_image.png "image.png")
随后“生成指标明细”会提供每个选定评估指标的详细信息。本文演示的评估数据集很小(仅有两行),因此没有大量的分布可供查看。
![image.png](https://dev-media.amazoncloud.cn/83a93183dc81456f8060fbb2213349d0_image.png "image.png")
在下图所示的页面,您还可以看到示例对话及其评分情况。您可以访问 [Amazon S3](https://aws.amazon.com/cn/s3/?trk=cndc-detail) 存储桶中的完整输出查看所有对话。
如果您想了解评估指标(如“有用性”)的评分为何略低于1,您可以展开放大“有用性”的示例对话,这将提供生成的输出、随评估数据集提供的真实情况以及评分情况。选择评分以查看模型推理,如果模型能够提供更深入的信息将会更有帮助。
![image.png](https://dev-media.amazoncloud.cn/55c79189d30f44bd92b91c74ca2b3129_image.png "image.png")
### **对比 RAG 评估**
知识库评估结果本身可能难以解释,因此控制台允许比较多个评估结果,以便了解其中的差异,并且方便用户了解所关心的指标是否有所改善。
例如本演示之前运行了另外两个知识库评估,它们与具有相同数据源、但分块和解析配置以及嵌入模型不同的知识库相关。
选择这两个评估,然后选择比较。要在控制台中进行比较,评估必须涵盖相同的指标。
![image.png](https://dev-media.amazoncloud.cn/9a0db674219045c0a7cc388a373ab0a4_image.png "image.png")
在“一览”选项卡中,使用雷达图对指标进行直观比较。这种情况下结果差别不大,主要区别在于忠实度得分。
![image.png](https://dev-media.amazoncloud.cn/d005150b78b54568b9f3c7ad1efd3ec3_image.png "image.png")
在“评估详情”选项卡中,您可以看到每项指标的详细比较结果,包括分数差异。
![image.png](https://dev-media.amazoncloud.cn/de31674983a64c03ac4aa76f19fbbaa0_image.png "image.png")
### **在 Amazon Bedrock 模型评估中使用 LLM-as-a-judge(预览版)**
在 [Amazon Bedrock](https://aws.amazon.com/cn/bedrock/?trk=cndc-detail) 控制台中导航窗格的“推理和评估”部分选择“评估”。选择“创建”后,再选择新的“Automatic:Model as a judge”选项。
输入评估的名称和描述,并选择用于生成评估指标的评估模型,本文演示使用 Anthropic 的 Claude 3.5 Sonnet。
![image.png](https://dev-media.amazoncloud.cn/0e6bfe15acf24608a55da58c144f98f5_image.png "image.png")
然后选择生成器模型(即您要评估的模型),模型评估可以帮助您了解一个更小更经济的模型是否能满足您的用例需求,本文使用的是 Anthropic 的 Claude 3 Haiku。
![image.png](https://dev-media.amazoncloud.cn/2fb2c39a4748425394ec838c9f52897f_image.png "image.png")
在下一部分选择要评估的指标,本文在“质量”部分选择“有用性”和“正确性”,在“负责任的 AI 标准”部分选择“有害性”。
![image.png](https://dev-media.amazoncloud.cn/a307a1ee1a9e4ad8a2000a195067d1ee_image.png "image.png")
在“数据集”部分,指定存储评估数据集的 [Amazon S3](https://aws.amazon.com/cn/s3/?trk=cndc-detail) 位置,以及存储模型评估任务结果的 [Amazon S3](https://aws.amazon.com/cn/s3/?trk=cndc-detail) 存储桶中的文件夹。
对于评估数据集,本文准备了另一个 .jsonl 文件,每一行都提供了一个提示和一个参考答案。请注意,这与知识库评估的格式有所不同。
```js
{"prompt":"Write a 15 words summary of this text:\\n\\nAWS Fargate is a technology that you can use to run containers without having to manage servers or clusters. With AWS Fargate, you no longer have to provision, configure, or scale clusters of virtual machines to run containers. This removes the need to choose server types, decide when to scale your clusters, or optimize cluster packing.","referenceResponse":"AWS Fargate allows running containers without managing servers or clusters, simplifying container deployment and scaling."}
{"prompt":"Give me a list of the top 3 benefits from this text:\\n\\nAWS Fargate is a technology that you can use to run containers without having to manage servers or clusters. With AWS Fargate, you no longer have to provision, configure, or scale clusters of virtual machines to run containers. This removes the need to choose server types, decide when to scale your clusters, or optimize cluster packing.","referenceResponse":"- No need to manage servers or clusters.\\n- Simplified infrastructure management.\\n- Improved focus on application development."}
```
最后您可以选择一个 Amazon IAM 服务角色,以便 [Amazon Bedrock](https://aws.amazon.com/cn/bedrock/?trk=cndc-detail) 可以访问此评估任务使用的资源。
此时已经完成了评估的创建,评估任务会在几分钟后完成。与知识库评估类似,评估结果以“指标摘要”开始。
![image.png](https://dev-media.amazoncloud.cn/38cf62e7a2af416cac40e565d7d2dce7_image.png "image.png")
生成指标明细表详细列出了每个指标,您可以查看几个示例提示的详细信息。本演示查看了“有用性”,以便更好了解评估分数。
![image.png](https://dev-media.amazoncloud.cn/2808d9c2b24b4a52af870e2c7cb41814_image.png "image.png")
模型已正确处理评估中的提示,您可以将此结果应用到用例中。如果应用程序需要管理与本次评估中所用提示相类似的提示,那么这一经过评估的模型将是不错的选择。
您可访问 [Amazon Bedrock 文档](https://docs.aws.amazon.com/bedrock/latest/userguide/what-is-bedrock.html?trk=cndc-detail),了解更多详细信息。
![image.png](https://dev-media.amazoncloud.cn/0469428172a540ba8d53bcc7f1afd49f_image.png "image.png")
![image.png](https://dev-media.amazoncloud.cn/12390ed97dd74a2a8b0b791c8b48107d_image.png "image.png")
> *前述特定亚马逊云科技生成式人工智能相关的服务仅在亚马逊云科技海外区域可用,亚马逊云科技中国仅为帮助您发展海外业务和/或了解行业前沿技术选择推荐该服务。