解Bug之路-串包Bug-白红宇

解Bug之路-串包Bug

阅读量：209 次

发布时间：2019-02-28

本文共 1393 字，大约阅读时间需要 4 分钟。

笔者最近在处理一个关于Redis网络IO相关Bug的案例，现将分析过程分享给大家，希望能为大家的工作避免踩到类似的雷区。

问题背景

某个业务系统大量使用Redis的hget和hset操作，导致Redis负载过高，监控显示CPU和IO均出现尖刺现象。随后，业务系统频繁报错readTimeOut，其他系统也开始出现响应异常。第一次处理时，直接将高负载的业务系统kill后，RedisCPU恢复平稳。

问题复现

在业务系统重启后，问题依然存在，且错误频率随时间递减。经过测试，发现当页面缓存时间达到10分钟后，错误才会再次出现。最终，采取了业务系统重启的方法，问题得以解决。

问题分析

初步怀疑

Redis本身性能问题；

Redis集群中某个节点故障。

进一步排查

通过错误日志发现，业务系统返回的数据格式异常，部分请求返回OK，而非预期的用户数据。

发现错误发生时，系统只返回特定系统的JSON数据，其他系统的数据未被影响。

深入定位

确认业务系统使用Jedis客户端进行Redis操作；

发现Jedis连接池的管理存在问题，可能导致连接复用。

关键问题所在

连接池管理问题

业务系统使用Jedis连接池，连接被多次复用。

Redis本次操作失败后，连接未被从池中移除，导致下次使用时可能带有残留数据。

Jedis客户端处理异常

当JedisClient出现网络IO异常时，连接未被从池中移除，可能导致数据混乱。

数据残留导致串包

Redis命令响应数据未被正确处理，导致下次操作读取到残留数据，造成串包现象。

Bug复现过程

读取异常

Redis超时导致readTimeOut，业务系统无法及时获取数据；

Redis返回的数据格式异常，部分请求返回OK。

串包现象

下一个请求读取到上一个命令的响应数据，导致数据串包；

例如，get User123456Name返回OK，而下一个get User456789返回用户123456的数据。

错误递减

由于连接池的错误计数机制，超多次失败后连接被移除，减少了串包的发生频率。

Bug原因深入分析

数据残留

Redis命令的响应数据未被及时处理，导致socket buffer中存留数据；

下次操作读取到残留数据，造成串包。

连接复用问题

Jedis连接池允许复用失败的连接，可能带有残留数据；

当连接被多次复用时，数据混乱现象容易发生。

协议处理问题

Jedis使用Bio框架处理IO，可能导致数据读取不及时或数据错位。

解决方案

连接管理优化

修改连接池管理策略，抛弃所有发生网络IO异常的连接；

避免将错误连接放回池中，防止数据残留问题。

协议层优化

为每个命令添加随机packetId；

检查返回数据的packetId是否与发送命令的packetId一致，发现异常时报错。

经验总结

连接池管理：网络IO异常的连接应直接抛弃，而非复用。

数据处理：确保每次读取操作都能正确处理上次命令的响应，避免数据残留。

协议优化：通过packetId等机制，确保数据的完整性和一致性。