条条大路通罗马 —— 使用 Go-Redis 连接 Amazon ElastiCache for Redis 集群

分布式

Redis

缓存

Amazon ElastiCache

# 一、前言 [Amazon ElastiCache](https://aws.amazon.com/cn/elasticache/?trk=cndc-detail) 是一种 Web 服务，可让用户在云中轻松设置、管理和扩展分布式内存数据存储或缓存环境。它可以提供高性能、可扩展且具有成本效益的缓存解决方案。同时，它可以帮助消除与部署和管理分布式缓存环境相关的复杂性。 Amaozn ElastiCache for Redis 集群是一个或多个缓存节点的集合，其中所有节点都运行 Redis 缓存引擎软件的实例。ElastiCache for Redis 启用集群模式比之禁用集群模式拥有更好的可扩展性，尤其是写入可扩展性，更强的高可用性以及更高的资源上限，因而现在越来越多的客户选择 ElastiCache for Redis 启用集群模式。要使用 ElastiCache for Redis 集群（启用集群模式），您需要使用可以支持 Redis 集群模式的客户端。当您使用 Go 程序连接 ElastiCache 集群时，目前目前主流的 SDK 是 Go-Redis 项目，本篇 Blog 将为您介绍如何使用 Go-Redis 连接和使用 ElastiCache for Redis 集群。除此以外，我们还推出了一系列博客，展示了如何在不同语言中，使用不同的支持 ElastiCache 集群模式的客户端对 ElastiCache 集群进行连接和操作，欢迎大家阅读。 # 二、Go-Redis 测试环境搭建 **Go-Redis** 是目前排名最高的 Go 语言版本的 Redis client，支持连接哨兵和集群模式的 Redis，并且提供了高级的 API 封装，区别于另一个比较常用的 Go 语言 Redis client 库：Redigo，在服务集成过程中提供更多的功能支持，并且保障 Redis 数据类型安全支持。可以参考 **Go-Redis 和 Redigo 对比** 去了解更多的差异。 [Go-Redis](https\\://redis.uptrace.dev/?trk=cndc-detail) [Go-Redis 和 Redigo 对比](https\\://redis.uptrace.dev/guide/Go-Redis-vs-redigo.html?trk=cndc-detail) #### ▌ElastiCache for Redis 集群搭建在亚马逊云科技上搭建 ElastiCache for Redis 集群，可以参考本篇的系列 Blog，**条条大路通罗马 —— 使用 Redisson 连接 [Amazon ElastiCache](https://aws.amazon.com/cn/elasticache/?trk=cndc-detail) for Redis 集群** 的2.1章节，这里就不再赘述。（Redis Cluster，打开 Auth+TLS 模式）。条条大路通罗马 —— [使用 Redisson 连接 Amazon ElastiCache for Redis 集群](https\\://aws.amazon.com/cn/blogs/china/connecting-amazon-elasticache-for-redis-cluster-using-redisson/?trk=cndc-detail) #### ▌构建 Golang SDK 测试代码工程的目录结构 ```[ec2-user src]\$ tree test-redis-sdk/ test-redis-sdk/ |-- cmd | `-- test-redis | `-- redis_test.go |-- go.mod `-- go.sum ``` 使用 Go-Redis 最新的版本分支 v8 版本，下图总结了初始化 cluster client 常用参数，PoolSize 和 MinIdleConns 控制请求的连接池。Go-Redis 支持 TLS 连接，本示例主要演示打开 TLS+Password 的 ElastiCache for Redis 集群如何接入，如下图所示，参数 Password 已设置，参数 TLSConfig 控制 TLS 开关已打开。如果您连接的 ElastiCache for Redis 集群没有开启 TLS 接入，只需要把 Password 参数置为空字符串，去除 TLSConfig 配置即可（TLSConfig 默认关闭）。 ![1.png](https://dev-media.amazoncloud.cn/ce490a0c30604f6984a77c0ac8298583_1.png "1.png") #### ▌使用 Go-Redis SDK 初始化 cluster client，包括读请求的测试逻辑（源代码） ```[ec2-user test-redis]\$ cat redis_test.go package main import ( "context" "crypto/tls" "fmt" goredis "github.com/Go-Redis/redis/v8" "strconv" "sync" "testing" "time" ) func TestGoRedisCluster(t *testing.T) { var ctx = context.Background() rdb := goredis.NewClusterClient(&goredis.ClusterOptions{ Addrs: []string{"cluster-configuration-endpoint:6379"}, Password: "password", //密码 //连接池容量及闲置连接数量 PoolSize: 10, // 连接池最大socket连接数，默认为4倍CPU数， 4 * runtime.NumCPU MinIdleConns: 10, //在启动阶段创建指定数量的Idle连接，并长期维持idle状态的连接数不少于指定数量；。 //超时 DialTimeout: 5 * time.Second, //连接建立超时时间，默认5秒。 ReadTimeout: 3 * time.Second, //读超时，默认3秒， -1表示取消读超时 WriteTimeout: 3 * time.Second, //写超时，默认等于读超时 PoolTimeout: 4 * time.Second, //当所有连接都处在繁忙状态时，客户端等待可用连接的最大等待时长，默认为读超时+1秒。 //闲置连接检查包括IdleTimeout，MaxConnAge IdleCheckFrequency: 60 * time.Second, //闲置连接检查的周期，默认为1分钟，-1表示不做周期性检查，只在客户端获取连接时对闲置连接进行处理。 IdleTimeout: 5 * time.Minute, //闲置超时，默认5分钟，-1表示取消闲置超时检查 MaxConnAge: 0 * time.Second, //连接存活时长，从创建开始计时，超过指定时长则关闭连接，默认为0，即不关闭存活时长较长的连接 //命令执行失败时的重试策略 MaxRetries: 10, // 命令执行失败时，最多重试多少次，默认为0即不重试 MinRetryBackoff: 8 * time.Millisecond, //每次计算重试间隔时间的下限，默认8毫秒，-1表示取消间隔 MaxRetryBackoff: 512 * time.Millisecond, //每次计算重试间隔时间的上限，默认512毫秒，-1表示取消间隔 TLSConfig: &tls.Config{ InsecureSkipVerify: true, }, // ReadOnly = true，只择 Slave Node // ReadOnly = true 且 RouteByLatency = true 将从 slot 对应的 Master Node 和 Slave Node，择策略为: 选择PING延迟最低的点 // ReadOnly = true 且 RouteRandomly = true 将从 slot 对应的 Master Node 和 Slave Node 选择，选择策略为: 随机选择 ReadOnly: true, RouteRandomly: true, RouteByLatency: true, }) defer rdb.Close() rdb.Set(ctx, "test-0", "value-0", 0) rdb.Set(ctx, "test-1", "value-1", 0) rdb.Set(ctx, "test-2", "value-2", 0) AllMaxRun := 6 wg := sync.WaitGroup{} wg.Add(AllMaxRun) for i := 0; i < AllMaxRun; i ++ { go func(wg *sync.WaitGroup, idx int) { defer wg.Done() for i := 0; i < 50000; i++ { key := "test-" + strconv.Itoa(i % 3) val, err := rdb.Get(ctx, key).Result() if err == goredis.Nil { fmt.Println("job-" + strconv.Itoa(idx) + " " + key + " does not exist") } else if err != nil { fmt.Printf("err : %s", err.Error()) } else { fmt.Printf("%s Job-%d %s = %s-%d \\n", time.Now().Format("2006-01-02 15:04:05"), idx, key, val, i) } time.Sleep(500 * time.Millisecond) } }(&wg, i) } wg.Wait() stats := rdb.PoolStats() fmt.Printf("Hits=%d Misses=%d Timeouts=%d TotalConns=%d IdleConns=%d StaleConns=%d\\n", stats.Hits, stats.Misses, stats.Timeouts, stats.TotalConns, stats.IdleConns, stats.StaleConns) } ```  ## 三、Go-Redis 读写分离控制测试 Redis cluster 是有 Master 和 Slave 节点，Go-Redis 支持对 Slave 节点的访问，通过配置 ReadOnly 参数，控制 Master 和 Slave 节点的读写管理。下面我们通过不同的配置去做测试验证。 #### ▌ReadOnly 配置规则说明 ```// 默认false，即只能在主节点上执行读写操作，如果置为true则允许在从节点上执行只含读操作的命令 ReadOnly: false, // 默认false。置为true则ReadOnly自动置为true,表示在处理只读命令时，可以在一个slot对应的主节点和所有从节点中选取Ping()的响应时长最短的一个节点来读数据 RouteByLatency: false, // 默认false。置为true则ReadOnly自动置为true,表示在处理只读命令时，可以在一个slot对应的主节点和所有从节点中随机挑选一个节点来读数据 RouteRandomly: false, ``` #### ▌关闭 ReadOnly 配置测试修改测试代码，关闭 ReadOnly 配置（三个 ReadOnly 参数配置都置为 false），观察监控仍然是维持10个 conn，但是按照配置说明，服务不会从读节点读取数据。 ```[ec2-user ~]\$ netstat -a | grep 6379 | grep ESTABLISHED | awk '{print \$5}' | sort | uniq -c | sort -rn 10 ip-172-31-18-215.a:6379 10 ip-172-31-46-118.a:6379 10 ip-172-31-34-217.a:6379 10 ip-172-31-31-193.a:6379 10 ip-172-31-15-157.a:6379 10 ip-172-31-10-163.a:6379 ``` 观察对应的连接数，连接数仍然保持在10个。 ![2.png](https://dev-media.amazoncloud.cn/302435bd6c9e4df68d10d05ab4cff132_2.png "2.png") 调整测试代码，增大查询压力，观察 GetTypeCmds 监控指标，可以看到只有 master 节点上是所有的读请求，判断所有的读压力都是分布在所有的 master 节点上。 ![3.png](https://dev-media.amazoncloud.cn/05ae1e29161d4f33882bca6b64c11c4d_3.png "3.png") #### ▌打开 ReadOnly 配置测试修改测试代码，打开 ReadOnly 配置（或者 RouteByLatency 和 RouteRandomly 任意一个），观察监控仍然是维持10个 conn，但是按照配置说明，服务是会从读节点读取数据，可以判断 Go-Redis 默认和所有的 Master/Slave 节点都有长连接。 ```[ec2-user ~]\$ netstat -a | grep 6379 | grep ESTABLISHED | awk '{print \$5}' | sort | uniq -c | sort -rn 10 ip-172-31-18-215.a:6379 10 ip-172-31-46-118.a:6379 10 ip-172-31-34-217.a:6379 10 ip-172-31-31-193.a:6379 10 ip-172-31-15-157.a:6379 10 ip-172-31-10-163.a:6379 ``` 参考 CloudWatch Metrics 观察对应的连接数，连接数仍然保持，没有变化，和客户端连接数统计一致。 ![4.png](https://dev-media.amazoncloud.cn/cac4fc7aaa504e3e86d5ea91a4b9177e_4.png "4.png") 如果 ReadOnly 打开，在适当压力情况下，观察 GetTypeCmds 监控，可以看到 Master 和 Slave 节点都均匀分布读请求，可以判断读的压力是均匀分配到 Master+Slave 节点上。 ![5.png](https://dev-media.amazoncloud.cn/182fdc0d65c04f5e98bd73e2925053ea_5.png "5.png") # 四、多值查询测试 #### ▌Go-Redis 可以支持在 Redis 非集群和集群模式下 Pipeline 命令正确执行，以下给出 Pipeline 的代码示例： ```func TestRedisClusterPipline(t *testing.T) { var ctx = context.Background() rdb := goredis.NewClusterClient(&goredis.ClusterOptions{ Addrs: []string{"cluster-configuration-endpoint:6379"}, Password: "password", //密码 //连接池容量及闲置连接数量 PoolSize: 10, // 连接池最大socket连接数，默认为4倍CPU数， 4 * runtime.NumCPU MinIdleConns: 10, //在启动阶段创建指定数量的Idle连接，并长期维持idle状态的连接数不少于指定数量；。 //超时 DialTimeout: 5 * time.Second, //连接建立超时时间，默认5秒。 ReadTimeout: 3 * time.Second, //读超时，默认3秒， -1表示取消读超时 WriteTimeout: 3 * time.Second, //写超时，默认等于读超时 PoolTimeout: 4 * time.Second, //当所有连接都处在繁忙状态时，客户端等待可用连接的最大等待时长，默认为读超时+1秒。 //闲置连接检查包括IdleTimeout，MaxConnAge IdleCheckFrequency: 60 * time.Second, //闲置连接检查的周期，默认为1分钟，-1表示不做周期性检查，只在客户端获取连接时对闲置连接进行处理。 IdleTimeout: 5 * time.Minute, //闲置超时，默认5分钟，-1表示取消闲置超时检查 MaxConnAge: 0 * time.Second, //连接存活时长，从创建开始计时，超过指定时长则关闭连接，默认为0，即不关闭存活时长较长的连接 //命令执行失败时的重试策略 MaxRetries: 10, // 命令执行失败时，最多重试多少次，默认为0即不重试 MinRetryBackoff: 8 * time.Millisecond, //每次计算重试间隔时间的下限，默认8毫秒，-1表示取消间隔 MaxRetryBackoff: 512 * time.Millisecond, //每次计算重试间隔时间的上限，默认512毫秒，-1表示取消间隔 TLSConfig: &tls.Config{ InsecureSkipVerify: true, }, ReadOnly: true, }) rdb.Set(ctx, "test-0", "value-0", 0) rdb.Set(ctx, "test-1", "value-1", 0) rdb.Set(ctx, "test-2", "value-2", 0) pipe := rdb.Pipeline() pipe.Get(ctx, "test-0").Result() pipe.Get(ctx, "test-1").Result() pipe.Get(ctx, "test-2").Result() cmders, err := pipe.Exec(ctx) if err != nil { fmt.Println("err", err) } for idx, cmder := range cmders { cmd := cmder.(*goredis.StringCmd) strVal, err := cmd.Result() if err != nil { fmt.Println("err", err) } fmt.Println("strVal_" + strconv.Itoa(idx) + ":", strVal) } } ``` #### ▌Go-Redis 不支持 Redis 集群模式下，对不在一个 Shard 的多个 Key 执行 MGet / MSet 操作，如果有类似的使用场景，建议使用 Redis-Go-Cluster 开源项目，源码链接：Redis-Go-Cluster，以下为相应的代码示例。 ```func TestRedisClusterMGetMSet(t *testing.T) { cluster, err := rediscluster.NewCluster( &rediscluster.Options{ StartNodes: []string{"cluster-configuration-endpoint:6379"}, ConnTimeout: 100 * time.Millisecond, ReadTimeout: 100 * time.Millisecond, WriteTimeout: 100 * time.Millisecond, KeepAlive: 16, AliveTime: 60 * time.Second, }) if err != nil { fmt.Println(err.Error()) return } _, err = cluster.Do("MSET", "test-0", "value-0", "test-1", "value-1", "test-2", "value-2") if err != nil { fmt.Println("MSET" + err.Error()) return } replys, err := rediscluster.Values(cluster.Do("MGET", "test-0", "test-1", "test-2")) if err != nil { fmt.Println("MGET" + err.Error()) return } for i := 0; i < 3; i++ { fmt.Println(rediscluster.String(replys[i], nil)) } } ``` # 五、Failover 测试 #### ▌执行 go test 做测试，持续的做读请求 ``` [ec2-user test-redis]\$ go test -v redis_test.go -run TestGoRedisCluster -timeout 100m === RUN TestGoRedisCluster 2022-04-18 12:27:37 Job-4 test-0 = value-0-0 2022-04-18 12:27:37 Job-1 test-0 = value-0-0 2022-04-18 12:27:37 Job-0 test-0 = value-0-0 2022-04-18 12:27:37 Job-5 test-0 = value-0-0 2022-04-18 12:27:37 Job-2 test-0 = value-0-0 2022-04-18 12:27:37 Job-3 test-0 = value-0-0 ``` 在 Idle 和 PoolSize 相等的配置下，可以观察到 Redis 客户端服务和 Master 和 Slave 都是建立10个连接。 ```[ec2-user ~]\$ netstat -a | grep 6379 | grep ESTABLISHED | awk '{print \$5}' | sort | uniq -c | sort -rn 10 ip-172-31-18-215.a:6379 10 ip-172-31-46-118.a:6379 10 ip-172-31-34-217.a:6379 10 ip-172-31-31-193.a:6379 10 ip-172-31-15-157.a:6379 10 ip-172-31-10-163.a:6379 ``` 在go test 开始之前，cluster 的 avg 连接数。 ![6.png](https://dev-media.amazoncloud.cn/77e742c5085d43eebbb1c7b80e0838fe_6.png "6.png") 在 go test 执行开始，3个 master 和3个 slave 都新增了10个 conn。 ![7.png](https://dev-media.amazoncloud.cn/61882051efa04bb6b463baba4d6e9c45_7.png "7.png") #### ▌测试对 redis cluster 的第一个 shard 做主动的 failover ![8.png](https://dev-media.amazoncloud.cn/976b55f6ba434b5f82d2a7a58e516046_8.png "8.png") #### ▌在命令行输出观察到压测代码发生中断 ![9.png](https://dev-media.amazoncloud.cn/9926209d27dd4672aa38efa6505329e2_9.png "9.png") #### ▌在 ElastiCache Dashboard Events 观察 Failover 过程 ![10.png](https://dev-media.amazoncloud.cn/ebb9946de1544629a7c90ea11525722d_10.png "10.png") 可以观察到 8:54:13 PM\~8:54:36 PM UTC+8 经过 23s 完成 Failover，测试代码的时间戳是12:54:16 \~ 12:54:26 UTC，实际服务中断只有 10s 时间。在 12:53 UTC 时刻，连接正常。 ![11.png](https://dev-media.amazoncloud.cn/f068256a053b4872a9024a4194040bea_11.png "11.png") 在 12:54 UTC 时刻，故障节点断开连接。 ![12.png](https://dev-media.amazoncloud.cn/dc5855f51fe043e5964a5ff080ff7465_12.png "12.png") 在 13:00 UTC 时刻，故障节点开始恢复连接，但是所有服务请求未受到影响。 ![13.png](https://dev-media.amazoncloud.cn/3d1425e1183844a9a21a99923c8060a6_13.png "13.png") 在 13:02 UTC 时刻，所有连接完全恢复。 ![14.png](https://dev-media.amazoncloud.cn/f11289db8f9840d1a0713b60c2fce2c9_14.png "14.png") #### ▌在 ReadOnly = False 时，做 Failover 时 ```2022-04-18 15:04:27 Job-5 test-1 = value-1-601 2022-04-18 15:04:27 Job-0 test-1 = value-1-601 2022-04-18 15:04:27 Job-1 test-1 = value-1-601 err : dial tcp 172.31.31.193:6379: i/o timeouterr : dial tcp 172.31.31.193:6379: i/o timeouterr : dial tcp 172.31.31.193:6379: i/o timeouterr : dial tcp 172.31.31.193:6379: i/o timeouterr : dial tcp 172.31.31.193:6379: i/o timeout2022-04-18 15:04:38 Job-3 test-0 = value-0-603 2022-04-18 15:04:38 Job-5 test-0 = value-0-603 2022-04-18 15:04:39 Job-0 test-0 = value-0-603 err : dial tcp 172.31.31.193:6379: i/o timeout2022-04-18 15:04:39 Job-2 test-0 = value-0-603 2022-04-18 15:04:39 Job-4 test-0 = value-0-603 2022-04-18 15:04:39 Job-3 test-1 = value-1-604 2022-04-18 15:04:39 Job-5 test-1 = value-1-604 2022-04-18 15:04:40 Job-0 test-1 = value-1-604 2022-04-18 15:04:40 Job-1 test-0 = value-0-603 2022-04-18 15:04:40 Job-2 test-1 = value-1-604 2022-04-18 15:04:40 Job-4 test-1 = value-1-604 2022-04-18 15:04:41 Job-1 test-1 = value-1-604 err : dial tcp 172.31.31.193:6379: i/o timeouterr : dial tcp 172.31.31.193:6379: i/o timeout2022-04-18 15:04:50 Job-3 test-0 = value-0-606 err : dial tcp 172.31.31.193:6379: i/o timeout2022-04-18 15:04:50 Job-2 test-0 = value-0-606 err : dial tcp 172.31.31.193:6379: i/o timeouterr : dial tcp 172.31.31.193:6379: i/o timeouterr : dial tcp 172.31.31.193:6379: i/o timeout2022-04-18 15:04:51 Job-3 test-1 = value-1-607 2022-04-18 15:04:51 Job-5 test-0 = value-0-606 2022-04-18 15:04:51 Job-2 test-1 = value-1-607 2022-04-18 15:04:52 Job-1 test-0 = value-0-606 2022-04-18 15:04:52 Job-4 test-0 = value-0-606 2022-04-18 15:04:52 Job-0 test-0 = value-0-606 ``` Failover 时，中断时间。 ![15.png](https://dev-media.amazoncloud.cn/31d624ca5f42471a961403fd1e8cab54_15.png "15.png") 可以观察到 11:04:28 PM\~11:05:03 PM UTC+8 经过 35s 完成 Failover，测试代码的时间戳是 15:04:27 \~ 15:04:51 UTC，实际服务中断为 24s 时间。 ![16.png](https://dev-media.amazoncloud.cn/649a4315db1544f4ab1f4e3f72bdfccc_16.png "16.png") 在 15:03 UTC 连接正常。 ![17.png](https://dev-media.amazoncloud.cn/67bb0816de3c40379f9c1609116cbd9c_17.png "17.png") 在 15:04 UTC Failover 开始断开一个节点。 ![18.png](https://dev-media.amazoncloud.cn/1aed147dd1c04f8a8072ecbd4dfd1b87_18.png "18.png") 在 15:11 UTC 开始恢复一个节点。 ![19.png](https://dev-media.amazoncloud.cn/21796e953b8548c1b860bcb00fa36728_19.png "19.png") 在 15:13 UTC 完全恢复。 ![20.png](https://dev-media.amazoncloud.cn/8b4e78be713941589494b1980edd0c56_20.png "20.png")  # 六、小结本博客为大家展示了如何在 Golang 程序中通过 Go-Redis 连接和操作 ElastiCache 集群，从这个简单的 Demo 中我们可以看到 Go-Redis 能很好地支持 ElastiCache 集群开启 TLS 及 Auth 的功能，并自动完成读写分离，负载均衡，Failover 等工作。在第5小节的 Failover 的测试中观察到打开 ReadOnly 可以加速故障恢复，建议实际使用基于 ReadOnly 更好的提升服务读写 Redis Cluster 的性能。通过 Go-Redis，我们可以便捷，高效地使用 ElastiCache 集群。除了本博客以外，我们还推出了一系列博客，展示了如何在不同语言中使用不同的客户端对 ElastiCache 集群进行连接和操作，欢迎大家阅读。 # 相关博客 [条条大路通罗马 —— 使用 redisson 连接 Amazon ElastiCache for Redis 集群](https\\://aws.amazon.com/cn/blogs/china/connecting-amazon-elasticache-for-redis-cluster-using-redisson/?trk=cndc-detail) [条条大路通罗马 —— 使用 redis-py 访问 Amazon ElastiCache for Redis 集群](https\\://aws.amazon.com/cn/blogs/china/use-redis-py-to-access-amazon-elasticache-for-redis-cluster/?trk=cndc-detail) [条条大路通罗马系列- 使用 Hiredis-cluster 连接 Amazon ElastiCache for Redis 集群](https\\://aws.amazon.com/cn/blogs/china/all-roads-to-rome-series-connect-amazon-elasticache-for-redis-cluster-with-hiredis-cluster/?trk=cndc-detail)