莫把暑假插错秧,代码哪有足球香,Alluxio足球青训营在线摇人!

0
0
{"value":"![image.png](https://dev-media.amazoncloud.cn/8d471632275046b197e8438b9e92a894_image.png)\n足球开源编程夏令营,开始组队啦!\n\n首先出场的是两位队长\n第一位队长是来自 **南京大学的顾荣**(影子前锋—12年) 第二位是来自 **微软亚洲研究院的张虔熙**(后腰—20年)\n![image.png](https://dev-media.amazoncloud.cn/e3a72ce95fc24f21b80c9d7298a21330_image.png)\n\n正所谓,“没有什么Bug是一场球赛解决不了的”,如果有,那就来一场夏令营\n\n‍# 活动介绍\nGitLink编程夏令营(GLCC),是在CCF中国计算机学会指导下,由CCF开源发展委员会(CCF ODC)举办的面向全国高校学生的暑期编程活动。\n\n活动覆盖近千所高校,并联合各大开源基金会、开源企业、开源社区、开源专家,旨在鼓励青年学生通过参加真实的开源软件开发,提升自身技术能力,为开源社区输送优秀人才。为青年学生提供开放友好的交流平台,希望进一步推动国内开源社区的繁荣发展。\n![image.png](https://dev-media.amazoncloud.cn/aa3e3e7f72594b52a277d25650288325_image.png)\n\n# ‍ 高校学生参与能够获得\n## 1. 参与一线开源项目贡献\n直接接触开源项目开发,熟悉开源社区运作流程,提高代码水平;远程参与,可自由安排时间。\n\n## 2.结识技术大咖,获得开源软件专家指导\n结识更多伙伴和技术大咖,每位学生配备一名开源项目导师,享受资深开源专家指导。\n\n## 3. 丰厚奖金与周边&实习机会&官方证书\n入选同学完成开源任务后获得丰厚奖金和结项证书,GLCC也会评选出优秀学生,同时有机会进入企业实习。\n\n‍# 活动介绍\nAlluxio系统是全球首个分布式超大规模数据编排系统,孵化于加州大学伯克利分校AMP实验室。自项目开源以来,已有超过来自300多个组织机构的1200多位贡献者参与开发,包括全球最头部科技公司、最顶尖的计算机科研院所等,现已成为发展最快的开源大数据项目之一。\n\n目前,全球十大互联网公司中已有包括Meta(原“Facebook公司”)、Airbnb、Uber、阿里巴巴、腾讯和字节跳动在内的八家企业部署了Alluxio,还有更多大型企业在生产中运行 Alluxio。\n\n**【点击下方,深入了解Alluxio】**\n\n[社区GitHub](社区GitHub)\n\n[Slack](Slack)\n\n[Alluxio网站](Alluxio网站)\n\n‍ # 项目介绍\n## 项目一\n**基于近似数据结构的分布式缓存数据工作集大小在线预估**\n\n(导师介绍)\n![image.png](https://dev-media.amazoncloud.cn/eb3522053e1c4b11ad92dcb82a1209f8_image.png)\n\n**邮箱地址**\n\ngurong@nju.edu.cn\n\n**申请课题**\n\n[点击申请](点击申请)\n\n## 课题简介\n\n**一. 【题目描述】**\n\n使用缓存来降低分布式查询系统的查询时延越来越常见,为了提高缓存利用率,一个关键的因素是要调整缓存容量,使得缓存能够存下目前应用的工作集。所谓工作集就是应用访问的所有对象的集合。然而,一个合理的工作集大小估计算法不仅要考虑时间上的动态性、统计结果的准确性,还需要综合考虑对CPU、内存等资源的使用量,以及同时支持多域工作集大小估计的扩展性。\n\n我们将需要解决的关键问题罗列如下:\n\n(1)实时性:能够快速响应用户的工作集大小查询请求。\n(2)动态性:给出的结果要随着最近一段时间内的工作集大小的变化而变化。\n(3)空间高效性:能以较小的空间开销跟踪海量的工作集。\n(4)准确性:给出的结果要能有精度的保证。\n(5)可扩展性:该算法结构能够被扩展到跟踪多域,并分别给出每个域的工作集大小。\n\n**二. 【编码任务】**\n\n为了解决这个问题,我们正在基于Alluxio推进一个名为ShadowCache的基本功能实现,该实现基于一个近似的数据结构来估计工作集大小,但由于Alluxio的版本重大更新,ShadowCache暂时被合并了。\n\n接下来我们的主要工作是需要在解决上面所提及问题的同时优化以下三点:\n\n(1)空间开销:目前对于每个数据流对象的编码方式较为原始,可以考虑加入一些新型的编码方式来节省空间开销。\n(2)时间开销:设计并实现基于优化位操作的ShadowCache数据流对象更新,从而降低操作的时间开销。\n(3)兼容性和其他优化:考虑Alluxio版本升级的兼容性与其他统计数据存储和访问的优化方案。\n\n可以从以上几点中选择任意几点编写代码实现。\n\n**三. 【技能要求和编程语言】**\n\n✓ 了解Alluxio;\n✓ 熟悉缓存机制;\n✓ 熟悉滑动窗口机制;\n✓ 熟悉布隆过滤器、布谷鸟过滤器等数据结构;\n✓ 编程语言:Java\n\n**四. 【预期完成结果】**\n\n能够以较小的空间开销,实时灵活的地告知用户或上层应用最近时间内的Alluxio数据访问的工作集大小。\n\n## 项目二\nAI训练场景下数据缓存优化\n\n(导师介绍)\n![image.png](https://dev-media.amazoncloud.cn/e88c24a13a3b49c78cc5715d05c6161f_image.png)\n\n**邮箱地址**\n\nQianxi.Zhang@microsoft.com\n\n**申请课题**\n\n[点击申请](点击申请)\n\n## 课题简介\n\n**一. 【题目描述】**\n\n随着GPU等计算加速器的快速发展,数据存储层逐渐成为潜在的性能瓶颈。很多时候我们喜欢把数据放在如S3、Azure Storage、阿里云对象存储OSS等云存储服务中,但如果直接读取云存储上的数据来进行AI训练,性能很多时候并不理想。数据缓存是优化数据服务的重要手段,尤其是在存储与计算的平台环境中。\n\n在面向多用户的AI训练场景中,有一些问题需要解决:\n\n(1) 什么样的缓存淘汰算法可以提高缓存利用率?因为缓存容量是有限的,当缓存空间被占满后再有新的数据需要被缓存,就要决定删除原来的哪些数据,常见的淘汰算法如FIFO、LRU、LFU是否仍然适合AI训练的场景?\n\n(2) 如何管理分布式缓存副本?缓存副本不但可以提升缓存数据的可用性,并且可以缓解数据热点,那么多少个数据副本是最优的?\n\n(3) 如何分配数据的缓存容量,从而提升计算性能和缓存利用率?在多任务场景中,给每一个任务分配多少缓存容量可以使得全局训练效率最高?\n\n(4) 如何支持数据共享和重用?在AI训练场景中,很多场景的数据集会被很多任务反复地读取,数据的共享和重用可以减少数据被换入换出的代价。\n\n**二. 【编码任务】**\n\n上述问题中可以选择一个或者多个并基于Alluxio进行编码实现解决。\n\n**三. 【技能要求和编程语言】**\n\n✓ 了解缓存机制\n✓ 了解AI训练中数据访问模式\n✓ 编程语言不限\n\n**四. 【预期完成结果】**\n\n可以提升缓存利用率,优化AI训练性能。\n\n# ‍ 参与流程\n## 1. 申请资格\n只要年满18岁的在读学生均可参加,参加学生需要在报名时提供证明,包含但不限于:\n\n在校学生证,有效期内\n在校学生卡,有效期内\n录取通知书,且申请时间在毕业之前\n在读证明,且申请时间在毕业之前\n其他证明,且当前申请时间在毕业之前\n## 2. 项目时间表\n![image.png](https://dev-media.amazoncloud.cn/d70ef7512f9b4b069e6cd8b77d6e3111_image.png)\n## 3. 参与建议\n✓ 仔细阅读学生指南:[【点击阅读】](【点击阅读】)\n✓ 认真了解社区:仔细阅读社区的文档、设计、源码,认真熟悉社区的参与方式。\n✓ 多与导师沟通:对开源项目有一个全面的认识;主动联系导师,和导师充分沟通;细化方案,提升可行性。\n✓ 为了方便学生与Alluxio社区项目导师及时交流,添加Alluxio小助手微信,备注**“夏令营”进入【Alluxio GLCC编程夏令营】微信群**。","render":"<p><img src=\"https://dev-media.amazoncloud.cn/8d471632275046b197e8438b9e92a894_image.png\" alt=\"image.png\" /><br />\n足球开源编程夏令营,开始组队啦!</p>\n<p>首先出场的是两位队长<br />\n第一位队长是来自 <strong>南京大学的顾荣</strong>(影子前锋—12年) 第二位是来自 <strong>微软亚洲研究院的张虔熙</strong>(后腰—20年)<br />\n<img src=\"https://dev-media.amazoncloud.cn/e3a72ce95fc24f21b80c9d7298a21330_image.png\" alt=\"image.png\" /></p>\n<p>正所谓,“没有什么Bug是一场球赛解决不了的”,如果有,那就来一场夏令营</p>\n<p>‍# 活动介绍<br />\nGitLink编程夏令营(GLCC),是在CCF中国计算机学会指导下,由CCF开源发展委员会(CCF ODC)举办的面向全国高校学生的暑期编程活动。</p>\n<p>活动覆盖近千所高校,并联合各大开源基金会、开源企业、开源社区、开源专家,旨在鼓励青年学生通过参加真实的开源软件开发,提升自身技术能力,为开源社区输送优秀人才。为青年学生提供开放友好的交流平台,希望进一步推动国内开源社区的繁荣发展。<br />\n<img src=\"https://dev-media.amazoncloud.cn/aa3e3e7f72594b52a277d25650288325_image.png\" alt=\"image.png\" /></p>\n<h1><a id=\"__15\"></a>‍ 高校学生参与能够获得</h1>\n<h2><a id=\"1__16\"></a>1. 参与一线开源项目贡献</h2>\n<p>直接接触开源项目开发,熟悉开源社区运作流程,提高代码水平;远程参与,可自由安排时间。</p>\n<h2><a id=\"2_19\"></a>2.结识技术大咖,获得开源软件专家指导</h2>\n<p>结识更多伙伴和技术大咖,每位学生配备一名开源项目导师,享受资深开源专家指导。</p>\n<h2><a id=\"3__22\"></a>3. 丰厚奖金与周边&amp;实习机会&amp;官方证书</h2>\n<p>入选同学完成开源任务后获得丰厚奖金和结项证书,GLCC也会评选出优秀学生,同时有机会进入企业实习。</p>\n<p>‍# 活动介绍<br />\nAlluxio系统是全球首个分布式超大规模数据编排系统,孵化于加州大学伯克利分校AMP实验室。自项目开源以来,已有超过来自300多个组织机构的1200多位贡献者参与开发,包括全球最头部科技公司、最顶尖的计算机科研院所等,现已成为发展最快的开源大数据项目之一。</p>\n<p>目前,全球十大互联网公司中已有包括Meta(原“Facebook公司”)、Airbnb、Uber、阿里巴巴、腾讯和字节跳动在内的八家企业部署了Alluxio,还有更多大型企业在生产中运行 Alluxio。</p>\n<p><strong>【点击下方,深入了解Alluxio】</strong></p>\n<p><a href=\"%E7%A4%BE%E5%8C%BAGitHub\" target=\"_blank\">社区GitHub</a></p>\n<p><a href=\"Slack\" target=\"_blank\">Slack</a></p>\n<p><a href=\"Alluxio%E7%BD%91%E7%AB%99\" target=\"_blank\">Alluxio网站</a></p>\n<p>‍ # 项目介绍</p>\n<h2><a id=\"_39\"></a>项目一</h2>\n<p><strong>基于近似数据结构的分布式缓存数据工作集大小在线预估</strong></p>\n<p>(导师介绍)<br />\n<img src=\"https://dev-media.amazoncloud.cn/eb3522053e1c4b11ad92dcb82a1209f8_image.png\" alt=\"image.png\" /></p>\n<p><strong>邮箱地址</strong></p>\n<p>gurong@nju.edu.cn</p>\n<p><strong>申请课题</strong></p>\n<p><a href=\"%E7%82%B9%E5%87%BB%E7%94%B3%E8%AF%B7\" target=\"_blank\">点击申请</a></p>\n<h2><a id=\"_53\"></a>课题简介</h2>\n<p><strong>一. 【题目描述】</strong></p>\n<p>使用缓存来降低分布式查询系统的查询时延越来越常见,为了提高缓存利用率,一个关键的因素是要调整缓存容量,使得缓存能够存下目前应用的工作集。所谓工作集就是应用访问的所有对象的集合。然而,一个合理的工作集大小估计算法不仅要考虑时间上的动态性、统计结果的准确性,还需要综合考虑对CPU、内存等资源的使用量,以及同时支持多域工作集大小估计的扩展性。</p>\n<p>我们将需要解决的关键问题罗列如下:</p>\n<p>(1)实时性:能够快速响应用户的工作集大小查询请求。<br />\n(2)动态性:给出的结果要随着最近一段时间内的工作集大小的变化而变化。<br />\n(3)空间高效性:能以较小的空间开销跟踪海量的工作集。<br />\n(4)准确性:给出的结果要能有精度的保证。<br />\n(5)可扩展性:该算法结构能够被扩展到跟踪多域,并分别给出每个域的工作集大小。</p>\n<p><strong>二. 【编码任务】</strong></p>\n<p>为了解决这个问题,我们正在基于Alluxio推进一个名为ShadowCache的基本功能实现,该实现基于一个近似的数据结构来估计工作集大小,但由于Alluxio的版本重大更新,ShadowCache暂时被合并了。</p>\n<p>接下来我们的主要工作是需要在解决上面所提及问题的同时优化以下三点:</p>\n<p>(1)空间开销:目前对于每个数据流对象的编码方式较为原始,可以考虑加入一些新型的编码方式来节省空间开销。<br />\n(2)时间开销:设计并实现基于优化位操作的ShadowCache数据流对象更新,从而降低操作的时间开销。<br />\n(3)兼容性和其他优化:考虑Alluxio版本升级的兼容性与其他统计数据存储和访问的优化方案。</p>\n<p>可以从以上几点中选择任意几点编写代码实现。</p>\n<p><strong>三. 【技能要求和编程语言】</strong></p>\n<p>✓ 了解Alluxio;<br />\n✓ 熟悉缓存机制;<br />\n✓ 熟悉滑动窗口机制;<br />\n✓ 熟悉布隆过滤器、布谷鸟过滤器等数据结构;<br />\n✓ 编程语言:Java</p>\n<p><strong>四. 【预期完成结果】</strong></p>\n<p>能够以较小的空间开销,实时灵活的地告知用户或上层应用最近时间内的Alluxio数据访问的工作集大小。</p>\n<h2><a id=\"_91\"></a>项目二</h2>\n<p>AI训练场景下数据缓存优化</p>\n<p>(导师介绍)<br />\n<img src=\"https://dev-media.amazoncloud.cn/e88c24a13a3b49c78cc5715d05c6161f_image.png\" alt=\"image.png\" /></p>\n<p><strong>邮箱地址</strong></p>\n<p>Qianxi.Zhang@microsoft.com</p>\n<p><strong>申请课题</strong></p>\n<p><a href=\"%E7%82%B9%E5%87%BB%E7%94%B3%E8%AF%B7\" target=\"_blank\">点击申请</a></p>\n<h2><a id=\"_105\"></a>课题简介</h2>\n<p><strong>一. 【题目描述】</strong></p>\n<p>随着GPU等计算加速器的快速发展,数据存储层逐渐成为潜在的性能瓶颈。很多时候我们喜欢把数据放在如S3、Azure Storage、阿里云对象存储OSS等云存储服务中,但如果直接读取云存储上的数据来进行AI训练,性能很多时候并不理想。数据缓存是优化数据服务的重要手段,尤其是在存储与计算的平台环境中。</p>\n<p>在面向多用户的AI训练场景中,有一些问题需要解决:</p>\n<p>(1) 什么样的缓存淘汰算法可以提高缓存利用率?因为缓存容量是有限的,当缓存空间被占满后再有新的数据需要被缓存,就要决定删除原来的哪些数据,常见的淘汰算法如FIFO、LRU、LFU是否仍然适合AI训练的场景?</p>\n<p>(2) 如何管理分布式缓存副本?缓存副本不但可以提升缓存数据的可用性,并且可以缓解数据热点,那么多少个数据副本是最优的?</p>\n<p>(3) 如何分配数据的缓存容量,从而提升计算性能和缓存利用率?在多任务场景中,给每一个任务分配多少缓存容量可以使得全局训练效率最高?</p>\n<p>(4) 如何支持数据共享和重用?在AI训练场景中,很多场景的数据集会被很多任务反复地读取,数据的共享和重用可以减少数据被换入换出的代价。</p>\n<p><strong>二. 【编码任务】</strong></p>\n<p>上述问题中可以选择一个或者多个并基于Alluxio进行编码实现解决。</p>\n<p><strong>三. 【技能要求和编程语言】</strong></p>\n<p>✓ 了解缓存机制<br />\n✓ 了解AI训练中数据访问模式<br />\n✓ 编程语言不限</p>\n<p><strong>四. 【预期完成结果】</strong></p>\n<p>可以提升缓存利用率,优化AI训练性能。</p>\n<h1><a id=\"__135\"></a>‍ 参与流程</h1>\n<h2><a id=\"1__136\"></a>1. 申请资格</h2>\n<p>只要年满18岁的在读学生均可参加,参加学生需要在报名时提供证明,包含但不限于:</p>\n<p>在校学生证,有效期内<br />\n在校学生卡,有效期内<br />\n录取通知书,且申请时间在毕业之前<br />\n在读证明,且申请时间在毕业之前<br />\n其他证明,且当前申请时间在毕业之前</p>\n<h2><a id=\"2__144\"></a>2. 项目时间表</h2>\n<p><img src=\"https://dev-media.amazoncloud.cn/d70ef7512f9b4b069e6cd8b77d6e3111_image.png\" alt=\"image.png\" /></p>\n<h2><a id=\"3__146\"></a>3. 参与建议</h2>\n<p>✓ 仔细阅读学生指南:<a href=\"%E3%80%90%E7%82%B9%E5%87%BB%E9%98%85%E8%AF%BB%E3%80%91\" target=\"_blank\">【点击阅读】</a><br />\n✓ 认真了解社区:仔细阅读社区的文档、设计、源码,认真熟悉社区的参与方式。<br />\n✓ 多与导师沟通:对开源项目有一个全面的认识;主动联系导师,和导师充分沟通;细化方案,提升可行性。<br />\n✓ 为了方便学生与Alluxio社区项目导师及时交流,添加Alluxio小助手微信,备注**“夏令营”进入【Alluxio GLCC编程夏令营】微信群**。</p>\n"}
目录
亚马逊云科技解决方案 基于行业客户应用场景及技术领域的解决方案
联系亚马逊云科技专家
亚马逊云科技解决方案
基于行业客户应用场景及技术领域的解决方案
联系专家
0
目录
关闭
contact-us