亚马逊云科技 AI For Good-2022 优秀方案开源分享—望楼

Amazon SageMaker

{"value":"在刚刚结束的【亚马逊云科技 AI For Good-2022 遥感光学影像目标检测挑战赛】中，望楼团队斩获第1名的优异成绩，本次赛事聚焦遥感光学目标检测，存在图像尺寸大、目标角度各异等诸多难点，挑战难度高。为此，望楼团队为我们分享了他们在比赛中采用的算法策略与开发体验。\n\n\n\n#### **01 团队介绍**\n\n望楼团队成员包括：来自东南大学的马云飞和来自中国科学院自动化研究所的苏一飞。\n\n![1.png](https://dev-media.amazoncloud.cn/6ee2b676dd4142feae834cc3eeda6f09_1.png)\n\n#### **02 算法策略**\n\n望楼团队：遥感图像目标检测是遥感智能解译的关键技术，在智慧交通、城市规划、国遥感图像目标检测是遥感智能解译的关键技术，在智慧交通、城市规划、国土监测等领域有着重要应用。\n\n由于遥感图像的目标和成像平台的特点，其具有目标尺寸差异大、目标分布密集和目标角度变化大等难点。针对这些问题我们的解决方案是使用先进的旋转目标检测方案作为基线以缓解上述问题、并在数据增强、骨干网络和网络结构方面进行一些针对性改进。\n\n我们使用DOTA数据集具有单张图像分辨率高的特点，我们采用了遥感领域常用的裁剪方式，将大分辨率图像裁剪为1024*1024像素的小图像输入网络后合并输出结果。\n\n此外，我们还采用了遥感目标检测领域常用的数据增强方式，包括多尺度训练（以0.5、1.0、1.5的比例缩放图像并进行训练）、随机翻转（以各25%的概率在水平、垂直和对角线方向进行翻转和随机角度旋转）和输入图像标准化。\n\n![2.png](https://dev-media.amazoncloud.cn/c8ab372139234834b15526d97c7f98ae_2.png)\n\n![3.png](https://dev-media.amazoncloud.cn/8dc51417006044efa25ca51a59f92b43_3.png)\n图1多尺度划分\n\n![4.png](https://dev-media.amazoncloud.cn/35bd3cfae0bd426599cf7b6ce609dcb7_4.png)\n图2数据增强\n\n**望楼团队**：在核心算法方面，在经过不同算法实验比较之后，我们选择现阶段比较先进的两阶段旋转目标检测算法OrientedRCNN作为我们的基线算法，它是一种通用的两阶段检测器，达成了较好的速度-精度平衡。\n\n在骨干网络选择方面我们通过实验选择了 VAN 作为骨干网络，其通过大卷积核的思想实现构建长程建模能力的注意力通道这一想法，又通过将一个大核卷积分解成一个局部空间卷积、一个空间长程卷积、一个通道卷积的堆叠代替大卷积核以降低骨干网络的参数量和训练难度。\n\n![5.png](https://dev-media.amazoncloud.cn/526e7d608a434775aec4f1b2980d71a2_5.png)\n图3VAN 中的卷积分解\n\n\n\n#### **03 开发体验**\n\n本次赛事中，望楼团队使用了 Amazon Sagemaker 进行算法模型搭建及训练。\n\n**望楼团队**：Sagemaker 功能丰富，集数据处理、模型训练、模型推理、云端部署等功能于一体，可以帮助机器学习开发者完成“一站式”的快速构建、训练和部署模型；\n\n同时，Sagemaker 提供了方便易用的集成开发环境，包括笔记本、Studio 和 Studio Lab 等等，可以方便的创建模型、管理模型、试验调试以及测试评估；更重要的是，Sagemaker 系统资源丰富，不仅提供了不同层次、不同性能的加速计算服务器，\n\n也集成了TensorFlow、PyTorch、Apache MXNet、Chainer等多种深度学习框架，省时省力；Sagemaker还提供了丰富的教程文档，易用性较好。\n\n\n\n#### **04 训练流程**\n\n在控制面板中创建笔记本实例进行训练。创建实例为 ml.g5.12xlarge 类型，包含4张 NVIDIA A10G 显卡，内存为192G。笔记本成功创建的界面如下\n\n![6.png](https://dev-media.amazoncloud.cn/981c64056d8548d7bfe3a377ce6774d4_6.png)\n\n该笔记本实例的具体信息如下\n\n![7.png](https://dev-media.amazoncloud.cn/adabe47a3e6442c08690ca9f637c8c98_7.png)\n\n然后将本队代码和 DOTA-2.0 数据上传到服务器中进行训练，并记录训练过程的 log 信息。\n\n首先将本作品的代码上传到 JupyterLab 中，其代码工程结构如下图所示\n\n![8.png](https://dev-media.amazoncloud.cn/ab6415e98e954a17bfae4a9b5125e501_8.png)\n\n随后在创建 notebook 进行训练，如下所示\n \n![9.png](https://dev-media.amazoncloud.cn/c5d139bdde45451e9b129d28cf0d2734_9.png)\n\n训练过程中的日志信息如下所示。左侧为 Sagemaker 笔记本实例中特有的示例 notebook 和介绍 notebook。\n\n![10.png](https://dev-media.amazoncloud.cn/a3ec6a160408476a9667eaf00733fc3a_10.png)\n\n训练过程中的 GPU 使用情况如下\n\n![11.png](https://dev-media.amazoncloud.cn/43d66f43f3634bd08f9ba49ef9a0bdc3_11.png)\n\n![12.png](https://dev-media.amazoncloud.cn/d0d262acf3f94a479d13658656c1525d_12.png)\n\n训练过程中输出日志的具体形式如下\n\n![13.png](https://dev-media.amazoncloud.cn/db7088a9be2a4e19bfdfb3ab47c6ed67_13.png)\n\n**望楼团队**：总结这次参赛经历，在替换大卷积核思想构成的骨干网络、进行数据增强和多尺度训练后网络都得到了一定的性能提升。希望在未来，我们的能够继续优化算法，实现高效能的遥感图像处理。\n\n本次亚马逊云科技 AI For Good-2022 遥感光学影像目标检测挑战赛赛题难度较大，望楼团队以 Oriented-RCNN 为基线算法，达到了目标检测算法速度-精度的平衡，同时 Amazon Sagemaker 也为模型提供了良好的训练环境，希望望楼团队的算法策略能够为广大开发者提供有益启发。","render":"在刚刚结束的【亚马逊云科技 AI For Good-2022 遥感光学影像目标检测挑战赛】中，望楼团队斩获第1名的优异成绩，本次赛事聚焦遥感光学目标检测，存在图像尺寸大、目标角度各异等诸多难点，挑战难度高。为此，望楼团队为我们分享了他们在比赛中采用的算法策略与开发体验。\n<h4><a id=\"01__4\"></a>01 团队介绍</h4>\n望楼团队成员包括：来自东南大学的马云飞和来自中国科学院自动化研究所的苏一飞。\n<img src=\"https://dev-media.amazoncloud.cn/6ee2b676dd4142feae834cc3eeda6f09_1.png\" alt=\"1.png\" />\n<h4><a id=\"02__10\"></a>02 算法策略</h4>\n望楼团队：遥感图像目标检测是遥感智能解译的关键技术，在智慧交通、城市规划、国遥感图像目标检测是遥感智能解译的关键技术，在智慧交通、城市规划、国土监测等领域有着重要应用。\n由于遥感图像的目标和成像平台的特点，其具有目标尺寸差异大、目标分布密集和目标角度变化大等难点。针对这些问题我们的解决方案是使用先进的旋转目标检测方案作为基线以缓解上述问题、并在数据增强、骨干网络和网络结构方面进行一些针对性改进。\n我们使用DOTA数据集具有单张图像分辨率高的特点，我们采用了遥感领域常用的裁剪方式，将大分辨率图像裁剪为1024*1024像素的小图像输入网络后合并输出结果。\n此外，我们还采用了遥感目标检测领域常用的数据增强方式，包括多尺度训练（以0.5、1.0、1.5的比例缩放图像并进行训练）、随机翻转（以各25%的概率在水平、垂直和对角线方向进行翻转和随机角度旋转）和输入图像标准化。\n<img src=\"https://dev-media.amazoncloud.cn/c8ab372139234834b15526d97c7f98ae_2.png\" alt=\"2.png\" />\n<img src=\"https://dev-media.amazoncloud.cn/8dc51417006044efa25ca51a59f92b43_3.png\" alt=\"3.png\" /> \n图1多尺度划分\n<img src=\"https://dev-media.amazoncloud.cn/35bd3cfae0bd426599cf7b6ce609dcb7_4.png\" alt=\"4.png\" /> \n图2数据增强\n望楼团队：在核心算法方面，在经过不同算法实验比较之后，我们选择现阶段比较先进的两阶段旋转目标检测算法OrientedRCNN作为我们的基线算法，它是一种通用的两阶段检测器，达成了较好的速度-精度平衡。\n在骨干网络选择方面我们通过实验选择了 VAN 作为骨干网络，其通过大卷积核的思想实现构建长程建模能力的注意力通道这一想法，又通过将一个大核卷积分解成一个局部空间卷积、一个空间长程卷积、一个通道卷积的堆叠代替大卷积核以降低骨干网络的参数量和训练难度。\n<img src=\"https://dev-media.amazoncloud.cn/526e7d608a434775aec4f1b2980d71a2_5.png\" alt=\"5.png\" /> \n图3VAN 中的卷积分解\n<h4><a id=\"03__37\"></a>03 开发体验</h4>\n本次赛事中，望楼团队使用了 Amazon Sagemaker 进行算法模型搭建及训练。\n望楼团队：Sagemaker 功能丰富，集数据处理、模型训练、模型推理、云端部署等功能于一体，可以帮助机器学习开发者完成“一站式”的快速构建、训练和部署模型；\n同时，Sagemaker 提供了方便易用的集成开发环境，包括笔记本、Studio 和 Studio Lab 等等，可以方便的创建模型、管理模型、试验调试以及测试评估；更重要的是，Sagemaker 系统资源丰富，不仅提供了不同层次、不同性能的加速计算服务器，\n也集成了TensorFlow、PyTorch、Apache MXNet、Chainer等多种深度学习框架，省时省力；Sagemaker还提供了丰富的教程文档，易用性较好。\n<h4><a id=\"04__49\"></a>04 训练流程</h4>\n在控制面板中创建笔记本实例进行训练。创建实例为 ml.g5.12xlarge 类型，包含4张 NVIDIA A10G 显卡，内存为192G。笔记本成功创建的界面如下\n<img src=\"https://dev-media.amazoncloud.cn/981c64056d8548d7bfe3a377ce6774d4_6.png\" alt=\"6.png\" />\n该笔记本实例的具体信息如下\n<img src=\"https://dev-media.amazoncloud.cn/adabe47a3e6442c08690ca9f637c8c98_7.png\" alt=\"7.png\" />\n然后将本队代码和 DOTA-2.0 数据上传到服务器中进行训练，并记录训练过程的 log 信息。\n首先将本作品的代码上传到 JupyterLab 中，其代码工程结构如下图所示\n<img src=\"https://dev-media.amazoncloud.cn/ab6415e98e954a17bfae4a9b5125e501_8.png\" alt=\"8.png\" />\n随后在创建 notebook 进行训练，如下所示\n<img src=\"https://dev-media.amazoncloud.cn/c5d139bdde45451e9b129d28cf0d2734_9.png\" alt=\"9.png\" />\n训练过程中的日志信息如下所示。左侧为 Sagemaker 笔记本实例中特有的示例 notebook 和介绍 notebook。\n<img src=\"https://dev-media.amazoncloud.cn/a3ec6a160408476a9667eaf00733fc3a_10.png\" alt=\"10.png\" />\n训练过程中的 GPU 使用情况如下\n<img src=\"https://dev-media.amazoncloud.cn/43d66f43f3634bd08f9ba49ef9a0bdc3_11.png\" alt=\"11.png\" />\n<img src=\"https://dev-media.amazoncloud.cn/d0d262acf3f94a479d13658656c1525d_12.png\" alt=\"12.png\" />\n训练过程中输出日志的具体形式如下\n<img src=\"https://dev-media.amazoncloud.cn/db7088a9be2a4e19bfdfb3ab47c6ed67_13.png\" alt=\"13.png\" />\n望楼团队：总结这次参赛经历，在替换大卷积核思想构成的骨干网络、进行数据增强和多尺度训练后网络都得到了一定的性能提升。希望在未来，我们的能够继续优化算法，实现高效能的遥感图像处理。\n本次亚马逊云科技 AI For Good-2022 遥感光学影像目标检测挑战赛赛题难度较大，望楼团队以 Oriented-RCNN 为基线算法，达到了目标检测算法速度-精度的平衡，同时 Amazon Sagemaker 也为模型提供了良好的训练环境，希望望楼团队的算法策略能够为广大开发者提供有益启发。\n"}

亚马逊云科技解决方案基于行业客户应用场景及技术领域的解决方案

联系亚马逊云科技专家