在Presto中利用一致性哈希算法增强动态集群的数据缓存本地性

{"value":"> 本文作者：钟荣荣 Presto TSC member/Commiter\n将Alluxio与Presto结合运行在社区中越来越流行，使用固态硬盘或内存来缓存热数据集，能够实现近Presto worker的数据本地行，从而避免了远程读取数据导致的高延迟。Presto支持基于哈希的软亲和调度（soft affinity scheduling），这样整个集群中相同数据只缓存一、两个副本，更多的热数据能被缓存到本地，提高缓存效率。现有哈希算法在集群规模发生变化时效果并不理想。针对这一问题，本文介绍了一种可用于软亲和调度的新哈希算法——一致性哈希（consistent hashing）。\n\n# 软亲和调度\nPresto使用一种叫做软亲和调度（soft affinity scheduling）的调度策略，将一个分片（split, 最小的数据处理单位）调度到同一个Presto worker（首选节点）上。分片和Presto worker之间的映射关系是由分片上的哈希函数计算出来的，确保同一个分片总是被散列到同一个worker上。\n\n在第一次处理分片时，数据将被缓存在首选worker节点上。当后续的查询处理同一分片时，这些请求将再次被调度到同一个worker节点上。此时，由于数据已经缓存在本地，不需要再远程读取数据。\n\n为了提高负载均衡，更好地处理worker节点响应不稳定的问题，会选择两个首选节点。如果第一个节点繁忙或没有响应，则会使用第二个节点。数据可能会被物理缓存到两个worker节点上。\n\n关于软亲和调度的更多信息，请查看“通过 Alluxio 数据缓存降低Presto延迟”[https://prestodb.io/blog/2020/06/16/alluxio-datacaching#soft-affinity-scheduling](（https://prestodb.io/blog/2020/06/16/alluxio-datacaching#soft-affinity-scheduling）)\n\n# 哈希算法\n软亲和调度依靠哈希算法来计算分片和worker节点之间的映射关系。原先使用的是取模函数：\n![image.png](https://dev-media.amazoncloud.cn/8786e17ba1944c4b86e7e0b803940a65_image.png)\n\n该哈希策略很简单，而且在集群稳定、worker节点没有变化的情况下效果很好。但是，如果某个worker节点暂时不可用或者掉线，worker节点的数量可能会发生变化，分片到worker节点的映射将全部需要重新分配，导致缓存命中率大幅下降。如果出现问题的worker稍后重新上线，则需要再次重新分配。\n\n针对这个问题，Presto在通过取模计算出哪个worker分配给特定分片时，会对worker总数取模，而不是正在运行的worker数量。然而，这只能缓解worker节点临时掉线造成的重新分配问题。有时候因为工作负载的波动，增加/删除worker是合理操作。在这些情况下，是否可能保持合理的缓存命中率而无需进行大规模的重新分配？\n\n我们的解决方案是一致性哈希算法。\n\n# 一致性哈希\n一致性哈希由David Karger在1997年第一次提出，是一种将网络访问请求分发到一组数量时常发生变化的网络服务器的分配算法。该技术被广泛用于负载均衡、分布式哈希表等。\n\n# 一致性哈希的工作原理\n比如，将哈希输出范围[0, MAX_VALUE]映射到一个圆环上（将MAX_VALUE连接到0）。为了说明一致性哈希的工作原理，我们假设一个Presto集群由3个Presto worker节点组成，其中有10个分片被反复查询。\n\n首先，worker节点被散列到哈希环上。每个分片都被分配给哈希环上与该分片的哈希值相邻的worker（注：这里“相邻”定义为从分片哈希值所在位置，按顺时针方向找到的第一个worker节点）。\n![image.png](https://dev-media.amazoncloud.cn/96f0877fd1e642429be13779b571b584_image.png)\n\n上述情况下，分片的分配如下：\n![image.png](https://dev-media.amazoncloud.cn/b3b55cf3167a4e7b844e5ad064904a82_image.png)\n\n# 删除一个worker\n现在，如果worker2由于某种原因下线，那么根据算法，分片0、5和7将被调度到对应下一个哈希值的worker，也就是worker1上。\n![image.png](https://dev-media.amazoncloud.cn/5633b10e926e43d6a37fed22c1578265_image.png)\n\n只有被分配到到已下线worker（在这里是worker2）的分片需要重新确定分配到哪个worker。其他数据不受影响。如果 worker32 稍后上线，分片 0、5 和 7 将会被重新分配到 worker2，不会影响其他worker的命中率。\n\n# 增加一个worker\n如果工作负载增加，需要在集群中增加另一个worker节点——worker4, worker4的哈希值在哈希环上的位置情况如下图所示：\n![image.png](https://dev-media.amazoncloud.cn/7b0dc1a624684f08a86e1277a84865b9_image.png)\n\n在这种情况下，分片8将落入worker4的区间，所有其他分片的分配不受影响，因此这些分片的缓存命中率不会受到影响。重新分配的结果如下：\n![image.png](https://dev-media.amazoncloud.cn/18d5ac9fd76344479f9d8d37b0d0a1da_image.png)\n\n# 虚拟节点\n从上面可以看出，一致性哈希可以保证在节点变化的情况下，平均只有\n![image.png](https://dev-media.amazoncloud.cn/bfe25e22f7704352a50bd67277ec0270_image.png)\n\n的分片需要被重新分配。然而，由于worker分布缺乏随机性，分片可能不会均匀地分布在所有worker节点上。针对这一问题，我们引入了“虚拟节点 ”的概念。虚拟节点能够在某个节点断开连接时将它的负载重新分配给多个节点，从而减少因集群不稳定而造成的负载波动。\n\n将每个物理worker节点映射成多个虚拟节点。这样虚拟节点便替代原先的物理节点，位于哈希环上。随后，每个分片将首先被分配到相邻（顺时针方向最邻近）的虚拟节点，再路由到虚拟节点映射的物理节点。下图的示例是一种可能出现的情况，即每个物理worker节点都对应3个虚拟节点。\n![image.png](https://dev-media.amazoncloud.cn/2a5b7f0363474a5c886ba4aff17a8c46_image.png)\n![image.png](https://dev-media.amazoncloud.cn/606e218c0276416198dd351ab124a036_image.png)\n\n随着哈希环上节点数量的增加，哈希空间将被分割地更均匀。\n\n在一个物理节点宕机的情况下，与该物理节点相对应的所有虚拟节点都将被重新散列。这里不是所有的分片都被重新分配到同一个节点上，而是会分配到多个虚拟节点，从而映射到多个物理节点上，以达到更好的负载均衡。\n\n如下图所示，当删除worker3时，分片2和3将被重新散列到worker2，而分片8被重新散列到worker1。\n![image.png](https://dev-media.amazoncloud.cn/67cc821782a84d2fa8ebddba0e7afd78_image.png)\n![image.png](https://dev-media.amazoncloud.cn/b24c841eddb542078ca41957cc5db2af_image.png)\n\n# 如何在Presto中使用一致性哈希？\n这是我们最近贡献给Presto的一个实验性功能。如果有意向进行测试或合作，请联系我们。\n\n使用该功能前，请先根据指南[https://prestodb.io/docs/current/cache/alluxio.html](（https://prestodb.io/docs/current/cache/alluxio.html）)或教程[https://docs.alluxio.io/os/user/stable/en/compute/Presto.html](（https://docs.alluxio.io/os/user/stable/en/compute/Presto.html）)启用Presto的缓存。确保你选择SOFT_AFFINITY作为调度策略的配置项。在/catalog/hive.properties文件中，添加hive.node-selection-strategy=SOFT_AFFINITY。\n\n需要通过在config.properties中添加node-scheduler.node-selection-hash-strategy=CONSISTENT_HASHING来启用一致性哈希。\n\n# 结论\n如上所述，当增加或删除节点时，一致性哈希可以使工作负载重新分配所产生的的影响降到最低。当集群的worker节点发生变化时，基于一致性哈希算法进行工作负载在worker节点间的分配，可以尽量降低对现有节点上缓存命中率的影响。因此，在Presto集群规模按照工作负载的需要扩缩容的场景下，或者部署环境中的硬件设备不完全受控而导致worker节点可能随时被重新分配和调整的场景下，一致性哈希策略都会成为一种更好的选择。\n\n在Alluxio社区，我们一直在不断改进Alluxio和各类计算引擎（例如文中的Presto）在功能性和可用性方面的集成。随着在Presto调度中引入一致性哈希，Alluxio可以利用Presto的软亲和特性，实现更好的数据本地性和缓存效率，最终提高处理性能并降低成本。我们将持续致对整个数据生态圈进行贡献，不断改进和优化我们的产品。","render":"<blockquote>\n<p>本文作者：钟荣荣 Presto TSC member/Commiter<br />\n将Alluxio与Presto结合运行在社区中越来越流行，使用固态硬盘或内存来缓存热数据集，能够实现近Presto worker的数据本地行，从而避免了远程读取数据导致的高延迟。Presto支持基于哈希的软亲和调度（soft affinity scheduling），这样整个集群中相同数据只缓存一、两个副本，更多的热数据能被缓存到本地，提高缓存效率。现有哈希算法在集群规模发生变化时效果并不理想。针对这一问题，本文介绍了一种可用于软亲和调度的新哈希算法——一致性哈希（consistent hashing）。</p>\n</blockquote>\n<h1><a id=\"_3\"></a>软亲和调度</h1>\n<p>Presto使用一种叫做软亲和调度（soft affinity scheduling）的调度策略，将一个分片（split, 最小的数据处理单位）调度到同一个Presto worker（首选节点）上。分片和Presto worker之间的映射关系是由分片上的哈希函数计算出来的，确保同一个分片总是被散列到同一个worker上。</p>\n<p>在第一次处理分片时，数据将被缓存在首选worker节点上。当后续的查询处理同一分片时，这些请求将再次被调度到同一个worker节点上。此时，由于数据已经缓存在本地，不需要再远程读取数据。</p>\n<p>为了提高负载均衡，更好地处理worker节点响应不稳定的问题，会选择两个首选节点。如果第一个节点繁忙或没有响应，则会使用第二个节点。数据可能会被物理缓存到两个worker节点上。</p>\n<p>关于软亲和调度的更多信息，请查看“通过 Alluxio 数据缓存降低Presto延迟”<a href=\"%EF%BC%88https://prestodb.io/blog/2020/06/16/alluxio-datacaching#soft-affinity-scheduling%EF%BC%89\" target=\"_blank\">https://prestodb.io/blog/2020/06/16/alluxio-datacaching#soft-affinity-scheduling</a></p>\n<h1><a id=\"_12\"></a>哈希算法</h1>\n<p>软亲和调度依靠哈希算法来计算分片和worker节点之间的映射关系。原先使用的是取模函数：<br />\n<img src=\"https://dev-media.amazoncloud.cn/8786e17ba1944c4b86e7e0b803940a65_image.png\" alt=\"image.png\" /></p>\n<p>该哈希策略很简单，而且在集群稳定、worker节点没有变化的情况下效果很好。但是，如果某个worker节点暂时不可用或者掉线，worker节点的数量可能会发生变化，分片到worker节点的映射将全部需要重新分配，导致缓存命中率大幅下降。如果出现问题的worker稍后重新上线，则需要再次重新分配。</p>\n<p>针对这个问题，Presto在通过取模计算出哪个worker分配给特定分片时，会对worker总数取模，而不是正在运行的worker数量。然而，这只能缓解worker节点临时掉线造成的重新分配问题。有时候因为工作负载的波动，增加/删除worker是合理操作。在这些情况下，是否可能保持合理的缓存命中率而无需进行大规模的重新分配？</p>\n<p>我们的解决方案是一致性哈希算法。</p>\n<h1><a id=\"_22\"></a>一致性哈希</h1>\n<p>一致性哈希由David Karger在1997年第一次提出，是一种将网络访问请求分发到一组数量时常发生变化的网络服务器的分配算法。该技术被广泛用于负载均衡、分布式哈希表等。</p>\n<h1><a id=\"_25\"></a>一致性哈希的工作原理</h1>\n<p>比如，将哈希输出范围[0, MAX_VALUE]映射到一个圆环上（将MAX_VALUE连接到0）。为了说明一致性哈希的工作原理，我们假设一个Presto集群由3个Presto worker节点组成，其中有10个分片被反复查询。</p>\n<p>首先，worker节点被散列到哈希环上。每个分片都被分配给哈希环上与该分片的哈希值相邻的worker（注：这里“相邻”定义为从分片哈希值所在位置，按顺时针方向找到的第一个worker节点）。<br />\n<img src=\"https://dev-media.amazoncloud.cn/96f0877fd1e642429be13779b571b584_image.png\" alt=\"image.png\" /></p>\n<p>上述情况下，分片的分配如下：<br />\n<img src=\"https://dev-media.amazoncloud.cn/b3b55cf3167a4e7b844e5ad064904a82_image.png\" alt=\"image.png\" /></p>\n<h1><a id=\"worker_34\"></a>删除一个worker</h1>\n<p>现在，如果worker2由于某种原因下线，那么根据算法，分片0、5和7将被调度到对应下一个哈希值的worker，也就是worker1上。<br />\n<img src=\"https://dev-media.amazoncloud.cn/5633b10e926e43d6a37fed22c1578265_image.png\" alt=\"image.png\" /></p>\n<p>只有被分配到到已下线worker（在这里是worker2）的分片需要重新确定分配到哪个worker。其他数据不受影响。如果 worker32 稍后上线，分片 0、5 和 7 将会被重新分配到 worker2，不会影响其他worker的命中率。</p>\n<h1><a id=\"worker_40\"></a>增加一个worker</h1>\n<p>如果工作负载增加，需要在集群中增加另一个worker节点——worker4, worker4的哈希值在哈希环上的位置情况如下图所示：<br />\n<img src=\"https://dev-media.amazoncloud.cn/7b0dc1a624684f08a86e1277a84865b9_image.png\" alt=\"image.png\" /></p>\n<p>在这种情况下，分片8将落入worker4的区间，所有其他分片的分配不受影响，因此这些分片的缓存命中率不会受到影响。重新分配的结果如下：<br />\n<img src=\"https://dev-media.amazoncloud.cn/18d5ac9fd76344479f9d8d37b0d0a1da_image.png\" alt=\"image.png\" /></p>\n<h1><a id=\"_47\"></a>虚拟节点</h1>\n<p>从上面可以看出，一致性哈希可以保证在节点变化的情况下，平均只有<br />\n<img src=\"https://dev-media.amazoncloud.cn/bfe25e22f7704352a50bd67277ec0270_image.png\" alt=\"image.png\" /></p>\n<p>的分片需要被重新分配。然而，由于worker分布缺乏随机性，分片可能不会均匀地分布在所有worker节点上。针对这一问题，我们引入了“虚拟节点 ”的概念。虚拟节点能够在某个节点断开连接时将它的负载重新分配给多个节点，从而减少因集群不稳定而造成的负载波动。</p>\n<p>将每个物理worker节点映射成多个虚拟节点。这样虚拟节点便替代原先的物理节点，位于哈希环上。随后，每个分片将首先被分配到相邻（顺时针方向最邻近）的虚拟节点，再路由到虚拟节点映射的物理节点。下图的示例是一种可能出现的情况，即每个物理worker节点都对应3个虚拟节点。<br />\n<img src=\"https://dev-media.amazoncloud.cn/2a5b7f0363474a5c886ba4aff17a8c46_image.png\" alt=\"image.png\" /><br />\n<img src=\"https://dev-media.amazoncloud.cn/606e218c0276416198dd351ab124a036_image.png\" alt=\"image.png\" /></p>\n<p>随着哈希环上节点数量的增加，哈希空间将被分割地更均匀。</p>\n<p>在一个物理节点宕机的情况下，与该物理节点相对应的所有虚拟节点都将被重新散列。这里不是所有的分片都被重新分配到同一个节点上，而是会分配到多个虚拟节点，从而映射到多个物理节点上，以达到更好的负载均衡。</p>\n<p>如下图所示，当删除worker3时，分片2和3将被重新散列到worker2，而分片8被重新散列到worker1。<br />\n<img src=\"https://dev-media.amazoncloud.cn/67cc821782a84d2fa8ebddba0e7afd78_image.png\" alt=\"image.png\" /><br />\n<img src=\"https://dev-media.amazoncloud.cn/b24c841eddb542078ca41957cc5db2af_image.png\" alt=\"image.png\" /></p>\n<h1><a id=\"Presto_65\"></a>如何在Presto中使用一致性哈希？</h1>\n<p>这是我们最近贡献给Presto的一个实验性功能。如果有意向进行测试或合作，请联系我们。</p>\n<p>使用该功能前，请先根据指南<a href=\"%EF%BC%88https://prestodb.io/docs/current/cache/alluxio.html%EF%BC%89\" target=\"_blank\">https://prestodb.io/docs/current/cache/alluxio.html</a>或教程<a href=\"%EF%BC%88https://docs.alluxio.io/os/user/stable/en/compute/Presto.html%EF%BC%89\" target=\"_blank\">https://docs.alluxio.io/os/user/stable/en/compute/Presto.html</a>启用Presto的缓存。确保你选择SOFT_AFFINITY作为调度策略的配置项。在/catalog/hive.properties文件中，添加hive.node-selection-strategy=SOFT_AFFINITY。</p>\n<p>需要通过在config.properties中添加node-scheduler.node-selection-hash-strategy=CONSISTENT_HASHING来启用一致性哈希。</p>\n<h1><a id=\"_72\"></a>结论</h1>\n<p>如上所述，当增加或删除节点时，一致性哈希可以使工作负载重新分配所产生的的影响降到最低。当集群的worker节点发生变化时，基于一致性哈希算法进行工作负载在worker节点间的分配，可以尽量降低对现有节点上缓存命中率的影响。因此，在Presto集群规模按照工作负载的需要扩缩容的场景下，或者部署环境中的硬件设备不完全受控而导致worker节点可能随时被重新分配和调整的场景下，一致性哈希策略都会成为一种更好的选择。</p>\n<p>在Alluxio社区，我们一直在不断改进Alluxio和各类计算引擎（例如文中的Presto）在功能性和可用性方面的集成。随着在Presto调度中引入一致性哈希，Alluxio可以利用Presto的软亲和特性，实现更好的数据本地性和缓存效率，最终提高处理性能并降低成本。我们将持续致对整个数据生态圈进行贡献，不断改进和优化我们的产品。</p>\n"}

亚马逊云科技解决方案基于行业客户应用场景及技术领域的解决方案

联系亚马逊云科技专家