Guardrails for Amazon Bedrock 现已推出新的安全过滤器和隐私控制功能

人工智能

大语言模型

生成式人工智能

Amazon Bedrock

Guardrails for [Amazon Bedrock](https://aws.amazon.com/cn/bedrock/?trk=cndc-detail) 功能已正式上线，这项功能于亚马逊云科技 re:Invent 2023 期间首次推出预览版。使用该功能可以根据自身使用场景和负责任 AI 政策，为生成式 AI 应用程序实施保护措施。您可以创建多个定制的 Guardrails 防护机制，用于不同的使用场景，并在多个基础模型（FMs）之间应用，从而改善最终用户体验，并在生成式 AI 应用程序中标准化安全控制。您还可以在 [Amazon Bedrock](https://aws.amazon.com/cn/bedrock/?trk=cndc-detail) 中的所有大语言模型（LLMs）上使用 Guardrails for [Amazon Bedrock](https://aws.amazon.com/cn/bedrock/?trk=cndc-detail)，包括经过微调的模型。 Guardrails for [Amazon Bedrock](https://aws.amazon.com/cn/bedrock/?trk=cndc-detail) 在基础模型原生功能的基础上提供了行业领先的安全防护，可帮助客户比今天 [Amazon Bedrock](https://aws.amazon.com/cn/bedrock/?trk=cndc-detail) 上某些基础模型原生提供的防护多阻止高达 85% 有害内容。Guardrails for [Amazon Bedrock](https://aws.amazon.com/cn/bedrock/?trk=cndc-detail) 是顶级云供应商中唯一一款可让客户在单一解决方案中为其生成式 AI 应用程序构建和定制安全与隐私保护的负责任 AI 功能，并且它适用于 [Amazon Bedrock](https://aws.amazon.com/cn/bedrock/?trk=cndc-detail) 中的所有大型语言模型（LLM）以及经过微调的模型。 Aha! 是一家软件公司，为超过 100 万人提供将产品战略付诸实践的服务。Aha! 联合创始人兼首席技术官 Chris Waters 博士表示： > 我们的客户每天都依赖我们来设定目标、收集客户反馈，并创建可视化路线图，这就是为什么我们使用 [Amazon Bedrock](https://aws.amazon.com/cn/bedrock/?trk=cndc-detail) 来实现许多生成式 AI 功能。[Amazon Bedrock](https://aws.amazon.com/cn/bedrock/?trk=cndc-detail) 提供负责任 AI 特性，使我们能够通过其数据保护和隐私政策来完全控制我们的信息，并通过 Guardrails for [Amazon Bedrock](https://aws.amazon.com/cn/bedrock/?trk=cndc-detail) 来阻止有害内容。我们通过分析客户提交的反馈，帮助产品经理发现洞见。这只是个开始，我们将继续建立在先进的亚马逊云科技技术之上，信心十足地帮助全球各地的产品开发团队优先考虑接下来要构建的内容。在预览文章中，Antje 向您展示了如何使用 Guardrails 功能来配置阈值，以过滤各种有害类别的内容，并定义一组在您的应用程序环境中需要避免的主题。内容过滤器现在新增了两个安全类别：**不当行为**（用于检测犯罪活动）和**提示攻击**（用于检测提示注入和逃脱尝试）。我们还添加了一些重要的新功能，包括敏感信息过滤器（用于检测和编辑个人身份信息 PII）和词汇过滤器（用于阻止包含亵渎和自定义词语的输入，例如有害词语、竞争对手名称和产品）。 Guardrails for [Amazon Bedrock](https://aws.amazon.com/cn/bedrock/?trk=cndc-detail) 位于应用程序和模型之间。它会自动评估从应用程序传入模型和从模型传出应用程序的所有内容，以检测并帮助防止落入受限类别的内容。您可以回顾预览版发布[博客](https://aws.amazon.com/blogs/aws/guardrails-for-amazon-bedrock-helps-implement-safeguards-customized-to-your-use-cases-and-responsible-ai-policies-preview/?trk=cndc-detail)中的步骤，了解如何配置**禁止主题**和**内容过滤器**：接下来我将演示新功能的工作原理。要开始使用 Guardrails for [Amazon Bedrock](https://aws.amazon.com/cn/bedrock/?trk=cndc-detail)，可以进入亚马逊云科技管理控制台的 [Amazon Bedrock](https://aws.amazon.com/cn/bedrock/?trk=cndc-detail) 部分。在这里可以创建 Guardrails 并配置新功能。在 [Amazon Bedrock](https://aws.amazon.com/cn/bedrock/?trk=cndc-detail) 控制台的导航窗格中，选择 **Guardrails**，然后选择**创建 Guardrails**。输入 Guardrails 的**名称**和**描述**，选择**下一步**进入**添加敏感信息过滤器**步骤。 ![image.png](https://dev-media.amazoncloud.cn/a2bf008ac9a6438ba57677367154241d_image.png "image.png") 使用**敏感信息过滤器**来检测用户输入和 FM 输出中的敏感和私人信息。根据使用场景，可以选择一组实体，在输入时阻止（例如基于常见问题的聊天机器人不需要用户特定信息）或在输出时编辑（例如基于聊天记录的对话总结）。敏感信息过滤器支持一组预定义的 PII 类型。我还可以根据特定使用场景和需求定义基于正则表达式的自定义实体。从列表中添加两种 **PII 类型**（姓名、电子邮件），并使用订单 ID 作为**名称**，使用 [0-9a-fA-F]{8} 作为**正则表达式模式**添加一个正则表达式模式。 ![image.png](https://dev-media.amazoncloud.cn/1adbccd931df452aa973222432593e95_image.png "image.png") 选择**下一步**，并在**定义阻止信息**步骤中输入自定义信息，当 Guardrails 阻止输入或模型响应时，将显示这些信息。在最后一步审核配置，然后选择**创建 Guardrails**。导航至 **Guardrails 概览**页面，并使用**测试**部分选择 **Anthropic Claude Instant 1.2 **模型。在**提示**字段中输入以下呼叫中心记录，然后选择**运行**。请总结以下呼叫中心记录。将姓名、电子邮件和订单 ID 放在顶部：客服：欢迎致电 ABC 公司。我能为您做些什么吗？客户：我想取消酒店预订。客服：好的，我可以帮您办理取消手续。请告诉我您的预订号码。客户：好的，我的预订号码是 550e8408。客服：谢谢。为确认信息，请问可以告诉我您的姓名和电子邮件吗？客户：我的名字是 Jane Doe，我的电子邮件是 jane.doe@gmail.com 客服：谢谢确认。我将为您取消预订。 ![image.png](https://dev-media.amazoncloud.cn/11deed8917644ca3bddf5cba2272ca16_image.png "image.png") **Guardrails 动作**显示 Guardrails 功能生效了三次。我使用**查看追踪**检查详细信息。我注意到 Guardrails 防护机制检测到**姓名、电子邮件和订单 ID**，并在最终响应中将它们屏蔽。 ![image.png](https://dev-media.amazoncloud.cn/8a30cfff7be34a4b9be93c2902f70fae_image.png "image.png") 我使用**词汇过滤器**阻止包含亵渎和自定义词语的输入（例如竞争对手名称或冒犯性词语）。我勾选**过滤亵渎**框。亵渎词语列表基于亵渎的全球定义。此外，我还可以指定最多 10,000 个短语（每个短语最多三个单词），由 Guardrails 防护机制阻止。如果我的输入或模型响应包含这些词语或短语，将显示阻止信息。现在，我在**词汇过滤器**下选择**自定义词语和短语**，然后选择**编辑**。我使用**手动添加词语和短语**添加自定义词语 CompetitorY。或者，如果我需要上传一串短语，可以使用**从本地文件上传**或**从 [Amazon S3](https://aws.amazon.com/cn/s3/?trk=cndc-detail) 对象上传**。我选择**保存并退出**返回到我的 Guardrails 页面。 ![image.png](https://dev-media.amazoncloud.cn/4f0a175ef4c74710a3ff15757c5e9d39_image.png "image.png") 我输入一个包含关于虚构公司及其竞争对手信息的提示，并添加问题 CompetitorY 提供了哪些额外功能。我选择**运行**。 ![image.png](https://dev-media.amazoncloud.cn/bee6053b00f34b6daf4b5f993cc9d315_image.png "image.png") 使用**查看追踪**检查详细信息。我注意到 Guardrails 防护机制根据我配置的策略进行了干预。 ![image.png](https://dev-media.amazoncloud.cn/16cd9f34fade4bb7bbbd8655349b0282_image.png "image.png") **Guardrails for [Amazon Bedrock](https://aws.amazon.com/cn/bedrock/?trk=cndc-detail) 在美国东部（弗吉尼亚北部）和美国西部（俄勒冈州）地区现已上线。** 有关定价信息，请访问 [Amazon Bedrock 定价页面](https://aws.amazon.com/cn/bedrock/pricing/?trk=cndc-detail) 要开始使用此功能，请访问 [Guardrails for Amazon Bedrock 网页](https://aws.amazon.com/cn/bedrock/guardrails/?trk=cndc-detail) 如需深入技术内容，并了解我们的开发者如何在解决方案中使用 [Amazon Bedrock](https://aws.amazon.com/cn/bedrock/?trk=cndc-detail)，请访问我们的[亚马逊云科技社区网站](https://community.aws/generative-ai?trk=e8665609-785f-4bbe-86e8-750a3d3e9e61&sc_channel=el?trk=cndc-detail) ![开发者尾巴.gif](https://dev-media.amazoncloud.cn/72576aa826e24bc688e66b185274a2a5_%E5%BC%80%E5%8F%91%E8%80%85%E5%B0%BE%E5%B7%B4.gif "开发者尾巴.gif")