开源模型 Mistral 7B+Amazon SageMaker 部署实践

Amazon SageMaker

生成式人工智能

Amazon Bedrock

技领云博主

> 文章作者：中杯可乐多加冰 ![image.png](https://dev-media.amazoncloud.cn/c86b8844557f4ed89afff6b3b9da4e3d_image.png "image.png") ### 一、Mistral 7B 简述 Mistral AI 是一家总部位于法国的 AI 公司，其使命是将公开可用的模型提升至最先进的性能水平。他们专注于构建快速而安全的大型语言模型（LLM），此类模型可用于从聊天机器人到代码生成等各种任务。不久前其发布了一个开源模型 Mistral 7B，支持英语文本生成任务并具备自然编码能力。它为实现低延迟进行过优化，并且相对其规模，该模型对内存的要求较低，可提供高吞吐量。该模型体积虽小，但功能强大，可支持从文本摘要和分类到文本完善和代码补全等多种使用案例。 Mistral 7B 的基础使用了 Transformer 的思想，其使用分组查询注意力和滑动窗口注意力来实现更快的推理（低延迟）并处理更长的序列。其中组查询注意力是一种结合了多查询和多头注意力的架构，以实现接近多头注意力的输出质量和与多查询注意力相当的速度。 ![image.png](https://dev-media.amazoncloud.cn/0dc347072d784ad2abef84417e071915_image.png "image.png") 滑动窗口注意力使用变压器的堆叠层来关注过去超出窗口大小的内容，以增加上下文长度。Mistral 7B 具有 8,000 个令牌的上下文长度，具有低延迟和高吞吐量，并且与较大的模型替代方案相比具有强大的性能，在 7B 模型大小下提供较低的内存要求，该模型在宽松的 Apache 2.0 许可证下提供，可以不受限制地使用。 ![image.png](https://dev-media.amazoncloud.cn/df3eaccef7c44ef09bccfd94a3a7a105_image.png "image.png") 另外其还引入了稀疏专家组合 **Sparse** **Mixture of Experts (SMoE)** ，Sparse Mixture of Experts (MoE) 是允许通过仅激活每个 token 的整体模型的子集来将吞吐量与内存成本解耦的一种方法。这种方法的工作原理是将复杂的任务划分为更小、更易于管理的子任务，每个子任务都由专门的迷你模型或“专家”处理，在这种策略中，每个 token 被分配给一个或多个“专家”并且只由这些专家处理。其中： 1. 专家层：较小的神经网络，经过训练，在特定领域具有很高的技能。每个专家处理相同的输入，但处理方式与其独特的专业相一致。 2. 门控网络：这是 MoE 架构的决策者。它评估哪位专家最适合给定的输入数据。网络计算输入与每个专家之间的兼容性分数，然后使用这些分数来确定每个专家在任务中的参与程度。这些组件共同确保正确的专家处理正确的任务。 ![image.png](https://dev-media.amazoncloud.cn/555bcab0ecfb4c5a99f716fde5eb3a4a_image.png "image.png") 门控网络有效地将每个输入路由给最合适的专家，而专家则专注于他们的特定优势领域。这种协作培训带来了更加通用和强大的整体模型。与其他模型相比，Mistral 7B 具有： 1. 在所有基准测试中优于 Llama 2 13B 2. 在许多基准测试中优于 Llama 1 34B 3. 在代码方面接近 CodeLlama 7B 的性能，同时在英语任务中表现良好 4. 使用分组查询注意力（GQA）进行更快的推理 5. 使用滑动窗口注意力（SWA）以更小的成本处理更长的序列 6. Apache 2.0 许可证，可以无限制地使用。 ### 二、使用 Amazon SageMaker 访问并部署 Mistral 7B 现在已经可以通过 [Amazon SageMaker JumpStart](https://aws.amazon.com/cn/sagemaker/jumpstart/?trk=cndc-detail) 一键部署由 Mistral AI 开发的 Mistral 7B 基础模型来运行推理，只需在 [Amazon SageMaker](https://aws.amazon.com/cn/sagemaker/?trk=cndc-detail) Studio 中单击几下即可发现并部署 Mistral 7B，或者通过 SageMaker Python SDK 以编程方式发现和部署 Mistral 7B，从而利用 [Amazon SageMaker](https://aws.amazon.com/cn/sagemaker/?trk=cndc-detail) Pipelines、[Amazon SageMaker](https://aws.amazon.com/cn/sagemaker/?trk=cndc-detail) Debugger 或容器日志等 SageMaker 功能获得模型性能和 MLOps 控制。该模型部署在亚马逊云科技安全环境中并受您的 VPC 控制，有助于确保数据安全。首先进入 SageMaker Studio 中：https://www.amazonaws.cn/sagemaker/studio/?trk=cndc-detail ![image.png](https://dev-media.amazoncloud.cn/d21e6dcec22e4ab9ba3ba178a70a6a40_image.png "image.png") 访问 SageMaker JumpStart，进入 SageMaker JumpStart ，然后在 Foundation Models: Text Generation carousel 中找到 Mistral 7B： ![image.png](https://dev-media.amazoncloud.cn/7cb1648f117e43f5bbc35ec68be48d66_image.png "image.png") 其次，选择模型卡来查看有关模型的详细信息，例如许可证、用于训练的数据以及如何使用。点击 deploy 开始部署。 ![image.png](https://dev-media.amazoncloud.cn/8bfcc49d43de404ea261d80b2f998813_image.png "image.png") 要使用笔记本进行部署，我们首先选择 Mistral 7B 模型，由 model_id 可以使用以下代码在 SageMaker 上部署任何选定的模型： ``` from sagemaker.jumpstart.model import JumpStartModel model = JumpStartModel(model_id="huggingface-llm-mistral-7b-instruct") predictor = model.deploy() ``` 这会使用默认配置在 SageMaker 上部署模型，包括默认实例类型 (ml.g5.2xlarge) 和默认 VPC 配置。可以通过在 JumpStartModel 中指定非默认值来更改这些配置。部署后，可以通过 SageMaker 预测器对部署的终端节点运行推理： ``` payload = {"inputs": "<s>[INST] Hello! [/INST]"} predictor.predict(payload) ``` 另外，Mistral 7B 和 Mixtral 8x7B，很快将在 [Amazon Bedrock](https://aws.amazon.com/cn/bedrock/?trk=cndc-detail) 上推出，借助这两种 Mistral AI 模型，可以为使用案例灵活选择最优的高性能 LLM，在 [Amazon Bedrock](https://aws.amazon.com/cn/bedrock/?trk=cndc-detail) 上构建并扩展生成式 AI 应用程序。 [![3.png](https://dev-media.amazoncloud.cn/9d9fe19c11fd497faae424a514d21de2_3.png "3.png")](https://summit.amazoncloud.cn/2024/register.html?source=DSJAVfG2GS7gEk2Osm6kYXAa+8HnSEVdbCVjkuit7lE= )

亚马逊云科技解决方案基于行业客户应用场景及技术领域的解决方案

联系亚马逊云科技专家