2022 年,[无服务器](https://aws.amazon.com/cn/serverless/?trk=cndc-detail)推理受到了越来越多的关注。常见的推理方式包括实时推理、批量转换和异步推理:
![image.png](https://dev-media.amazoncloud.cn/8a4d606f067b4fe5a142f05cbda06610_image.png "image.png")
- 实时推理:具有低延迟、高吞吐、多模型部署的特点,能够满足 A/B 测试的需求
- 批量转换:能够基于任务 (Job-based) 的系统进行大数据集的处理
- 异步推理:具有近实时、大负载 (1 GB) 的优势,但推理时间较长(一般在 15 分钟内)
本文将为您重点介绍在[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)中[无服务器](https://aws.amazon.com/cn/serverless/?trk=cndc-detail)推理的发展和演变,并通过实际的场景分析和部署方式来分享[无服务器](https://aws.amazon.com/cn/serverless/?trk=cndc-detail)推理的应用,下面就一起来看看吧:
## **为什么选择无服务器推理**
[无服务器](https://aws.amazon.com/cn/serverless/?trk=cndc-detail)推理本身是个相对宽泛的术语。对于开发者来说,[无服务器](https://aws.amazon.com/cn/serverless/?trk=cndc-detail)推理代表了一种构建可自动扩展的新型应用程序的具体方式,其最突出的优势在于无需维护、运行或修复包括服务器、集群乃至负载均衡器在内的各类基础设施元素。
通常开发者在无法预测用户的访问模式时会考虑使用[无服务器](https://aws.amazon.com/cn/serverless/?trk=cndc-detail)推理:
![image.png](https://dev-media.amazoncloud.cn/5546ba00de964965be703bc2616ec6c5_image.png "image.png")
有些情况下,上线应用时会存在负载的间歇性。如果开发者不考虑用户用量而使用定量部署模式的话,当应用长时间没有用户访问时就会导致过度的容量部署,造成利用率低而成本高。
而当用量增加,面临容量部署的挑战时,开发者需要投入大量的时间和资源,部署并管理维护服务器的弹性扩展,导致 TCO (Total Cost of Ownership) ,即总拥有成本的增加。
我们通过下面这个具体的场景帮助开发者更好地理解[无服务器](https://aws.amazon.com/cn/serverless/?trk=cndc-detail)推理:
> Sarah 是一家线上订餐应用的 DevOps 的开发人员,她希望通过[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)来为客户个性化的推荐餐厅。由于应用的访问流量不可预测,Sarah 面临管理配置自动扩展策略的挑战,担心由于过量部署资源而导致成本过高。
>
> ![image.png](https://dev-media.amazoncloud.cn/ea1ff78744ed49faa107f6f27ffab5bd_image.png "image.png")
> **Sarah 决定采用[无服务器](https://aws.amazon.com/cn/serverless/?trk=cndc-detail)推理的方式。**
>
> 她不再需要自己管理配置扩展策略,也无需过量部署资源,而是根据应用的用量按需自动伸缩。全托管服务不仅节省了 Sarah 的时间也降低了推理成本,让她可以把更多的时间和资源投入到优化算法和项目上。
>
> ![image.png](https://dev-media.amazoncloud.cn/281ec75881e646d5bf2cbe19ba4e3021_image.png "image.png")
## **无服务器推理的优势**
从 Sarah 的例子我们可以看出[无服务器](https://aws.amazon.com/cn/serverless/?trk=cndc-detail)推理的优势是**能够实现模型的开箱即用,帮助开发者降低[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)的成本。**
具体来说,对比早期的 Amazon Lambda [无服务器](https://aws.amazon.com/cn/serverless/?trk=cndc-detail)推理,开发者仍然需要配置模型参数(例如使用 EFS 放置模型时,需要自行配置 EFS 访问的终端节点来完成推理)。而 [Amazon SageMaker](https://aws.amazon.com/cn/sagemaker/?trk=cndc-detail) [无服务器](https://aws.amazon.com/cn/serverless/?trk=cndc-detail)的推理方式拥有更好的封装,能够形成一个独立的特征和服务特性。开发者不需要自己搭建部署[无服务器](https://aws.amazon.com/cn/serverless/?trk=cndc-detail)推理的其他工作,而是将更多的精力和资源聚焦于具体业务逻辑的实现。
[Amazon SageMaker](https://aws.amazon.com/cn/sagemaker/?trk=cndc-detail) 的服务器推理能够在抽象基础设施的同时,显著降低间歇性流量工作负载的成本。
### **全托管的无服务器化推理**
全托管的[无服务器](https://aws.amazon.com/cn/serverless/?trk=cndc-detail)化推理有三大优势:拥有全托管的基础资源、[无服务器](https://aws.amazon.com/cn/serverless/?trk=cndc-detail)化、能够自动伸缩资源。
![image.png](https://dev-media.amazoncloud.cn/bcf04710f30145dbb331b85aa90dd62f_image.png "image.png")
- 拥有全托管的基础资源等于拥有安全、监控、日志记录、高可用、高容错的资源。
- [无服务器](https://aws.amazon.com/cn/serverless/?trk=cndc-detail)化代表着用户无需选择服务器类型和容量,能够直接基于推理需求来进行内存大小的选择。
- 自动伸缩资源代表着无需配置扩展策略。
### **一键部署无服务器化推理节点**
完成[无服务器](https://aws.amazon.com/cn/serverless/?trk=cndc-detail)化推理节点部署需要三个步骤:
![image.png](https://dev-media.amazoncloud.cn/a0382776e9974024a62c727d45433431_image.png "image.png")
1. 用 ECR 镜像来存放推理代码;
2. 用 S3 存放模型文件;
3. 选择合适的内存大小。
在第二步中,[Amazon SageMaker](https://aws.amazon.com/cn/sagemaker/?trk=cndc-detail) 将通过[无服务器](https://aws.amazon.com/cn/serverless/?trk=cndc-detail)化推理终端节点实现自动管理计算资源;按需自动伸缩;管理日志、监控及安全。客户端应用或其它云服务将触发推理请求给[无服务器](https://aws.amazon.com/cn/serverless/?trk=cndc-detail)化推理终端节点,而[无服务器](https://aws.amazon.com/cn/serverless/?trk=cndc-detail)化推理终端节点经过处理后,再将推理结果发给最终客户。
### **代码示例:Amazon SageMaker 无服务器推理**
创建节点配置:开发者需要对用户端配置内存使用大小,以及最大并发推理的调用数。
```
endpoint_config_response = client.create_endpoint_config(
EndpointConfigName=xgboost_epc_name,
ProductionVariants=[
{
"VariantName": "byoVariant",
"ModelName": model_name,
"ServerlessConfig": {
"MemorySizeInMB": 4096,
"MaxConcurrency": 1,
},
},
],
)
```
创建节点及推理:
```
response = runtime.invoke_endpoint(
EndpointName=endpoint_name,
Body=b".345,0.224414,.131102,0.042329,.279923,-0.110329,-0.099358,0.0",
ContentType="text/csv",
)
print(response["Body"].read())
```
完整代码可参考如下链接:
https://github.com/aws/amazon-sagemaker-examples/blob/main/serverless-inference/Serverless-Inference-Walkthrough.ipynb?trk=cndc-detail
希望这篇文章可以帮助您更清晰地了解[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)在[无服务器](https://aws.amazon.com/cn/serverless/?trk=cndc-detail)推理方面的进展。您也可以在 Build On Cloud 视频号观看这一部分的视频演讲:
<video src="https://dev-media.amazoncloud.cn/eb625a272d1945b8a53893b73ad530c4_%E9%BB%84%E6%B5%A9%E6%96%873%E6%96%B0_%E5%B0%81%E9%9D%A2%E5%B1%85%E5%B7%A6.mp4" class="bytemdVideo" controls="controls"></video>
欢迎阅读《[机器学习洞察](https://mp.weixin.qq.com/mp/appmsgalbum?__biz=Mzg5Mzg1NDc2NQ==&action=getalbum&album_id=2674381074877399043#wechat_redirect?trk=cndc-detail)》系列文章中查看对于多模态[机器学习](https://aws.amazon.com/cn/machine-learning/?trk=cndc-detail)和分布式训练的解读。下一篇文章我们将介绍有关 JAX 框架的演进趋势,请持续关注 Build On Cloud 微信公众号。
## **往期推荐**
- [机器学习洞察 | 挖掘多模态数据机器学习的价值](https://dev.amazoncloud.cn/column/article/63e32a58e5e05b6ff897ca0c)
- [机器学习洞察 | 分布式训练让机器学习更加快速准确](https://dev.amazoncloud.cn/column/article/63e32dd06b109935d3b77259)
![Build on cloud.gif](https://dev-media.amazoncloud.cn/55ac6f67a1a044f59ef979666b7cc6dd_Build%20on%20cloud.gif "Build on cloud.gif")