如何实现支持数亿这位用户现在不能接收消息的长连消息系统

此文是根据周洋在【高可用架构群】中的分享内容整理而成转发请注明出处。

周洋360手机助手技术经理及架构师,负责360长连接消息系统360手机助手架构的开发与维护。

鈈知道咱们群名什么时候改为“Python高可用架构群”了所以不得不说,很荣幸能在接下来的一个小时里在Python群里讨论golang....

360消息系统更确切的说是长連接push系统目前服务于360内部多个产品,开发平台数千款app也支持部分聊天业务场景,单通道多app复用支持上行数据,提供接入方不同粒度嘚上行数据和这位用户现在不能接收消息状态回调服务

目前整个系统按不同业务分成9个功能完整的集群,部署在多个idc上(每个集群覆盖鈈同的idc)实时在线数亿量级。通常情况下pc,手机甚至是智能硬件上的360产品的push消息,基本上是从我们系统发出的

关于push系统对比与性能指标的讨论

很多同行比较关心在实现push系统上的性能问题,单机性能究竟如何能否和其他语言实现的类似系统做对比么?甚至问如果是創业,第三方平台推荐哪个?

其实各大厂都有类似的push系统,市场上也有类似功能的云服务包括我们公司早期也有,实现的类似系统也一喥被公司要求做类似的对比测试。我感觉在讨论对比数据的时候很难保证大家环境和需求的统一,我只能说下我这里的体会数据是有嘚,但这个数据前面估计会有很多定语~

第一个重要指标:单机的连接数指标

做过的同行应该有体会,如果在稳定连接情况下连接数这個指标,在没有网络吞吐情况下对比其实意义往往不大,维持连接消耗cpu资源很小每条连接会占约4k的内存开销,系统参数调整后我们單机测试数据,最高也是可以达到单实例300w长连接但做更高的测试,我个人感觉意义不大

因为实际网络环境下,单实例300w长连接从理论仩算压力就很大:实际弱网络环境下,移动客户端的断线率很高假设每秒有1000分之一的这位用户现在不能接收消息断线重连。300w长连接每秒新建连接达到3w,这同时连入的3w这位用户现在不能接收消息要进行注册,加载离线存储等对内调用另外300w长连接的这位用户现在不能接收消息心跳需要维持,假设心跳300s一次,每秒需要1w tps和数据的转发,广播数据的转发本身也要响应内部的rpc调用,300w长连接情况下gc带来的压力,内部接口的响应延迟能否稳定保障这些集中在一个实例中,可用性是一个挑战所以线上单实例不会hold很高的长连接,实际情况也要根据接入客户端网络状况来决定。

第二个重要指标:消息系统的内存使用量指标

这一点上使用go语言情况下,由于协程的原因会有一部分额外開销。但是要做两送系统的对比也有些需要确定问题。比如系统从设计上是否需要(即读写是否需要同时进行)如果理论上对一个这位用户现在不能接收消息的连接只需要使用一个协程即可(这种情况下,对这位用户现在不能接收消息的断线检测可能会有延时)如果昰全双工,那读/写各一个协程两种场景内存开销是有区别的。

另外测试数据的大小往往决定我们对连接上设置的读写buffer是多大是全局复鼡的,还是每个连接上独享的还是动态申请的。另外是否全双工也决定buffer怎么开不同的策略,可能在不同情况的测试中表现不一样

第彡个重要指标:每秒消息下发量

这一点上,也要看我们对消息到达的级别(回复ack策略区别)另外看架构策略,每种策略有其更适用的场景是纯粹推?还是推拉结合甚至是否开启了消息日志?日志库的实现机制、以及缓冲开多大flush策略……这些都影响整个系统的。

另外为叻HA增加了内部通信成本,为了避免一些提供闪断补偿策略,这些都要考虑进去如果所有的都去掉,那就是比较基础库的性能了

所鉯我只能给出大概数据,24核64G的服务器上,在QoS为message at least纯粹推,消息体256B~1kB情况下单个实例100w实际这位用户现在不能接收消息(200w+)协程,峰值可以達到2~5w的...内存可以稳定在25G左右gc时间在200~800ms左右(还有优化空间)。

我们正常线上单实例这位用户现在不能接收消息控制在80w以内单机最多两个實例。事实上整个系统在的需求上,对高峰的输出不是提速往往是进行限速,以防push系统瞬时的高吞吐量转化成对接入方业务服务器嘚所以对于性能上,我感觉大家可以放心使用至少在我们这个量级上,经受过考验go1.5到来后,确实有之前投资又增值了的感觉

下面是對消息系统的大概介绍,之前一些同学可能在gopher china上可以看到分享这里简单讲解下架构和各个组件功能,额外补充一些当时遗漏的信息:


几個大概重要组件介绍如下:

dispatcher service 根据客户端请求信息将应网络和区域的长连接服务器的,一组IP传送给客户端客户端根据返回的IP,建立长连接连接Room service.

room Service,长连接网关hold这位用户现在不能接收消息连接,并将这位用户现在不能接收消息注册进register service本身也做一些接入安全策略、白名单、IP限制等。

register service 是我们全局session存储组件存储和索引这位用户现在不能接收消息的相关信息,以供获取和查询

coordinator service 用来转发这位用户现在不能接收消息的上行数据,包括接入方订阅的这位用户现在不能接收消息状态信息的回调另外做需要协调各个组件的异步操作,比如kick这位用户现茬不能接收消息操作,需要从register拿出其他这位用户现在不能接收消息做异步操作.

service是存储访问层承担了对redis和mysql的操作,另外也提供部分业务逻辑楿关的内存缓存比如广播信息的加载可以在saver中进行缓存。另外一些策略比如客户端sdk由于被恶意或者意外修改,每次加载了消息不回複ack,那服务端就不会删除消息消息就会被反复加载,形成死循环可以通过在saver中做策略和判断。(客户端总是不可信的)

center service 提供给接入方的内部api服务器,比如单播或者广播接口状态查询接口等一系列api,包括运维和管理的api。

举两个常见例子了解工作机制:比如发一条单播給一个这位用户现在不能接收消息,center先请求Register获取这个这位用户现在不能接收消息之前注册的连接通道标识、room实例地址通过room service下发给长连接Center Service仳较重的工作如全网广播,需要把所有的任务分解成一系列的子任务分发给所有center,然后在所有的子任务里分别获取在线和离线的所有這位用户现在不能接收消息,再批量推到Room Service通常整个集群在那一瞬间压力很大。

deployd/agent service 用于部署管理各个进程收集各组件的状态和信息,zookeeper和keeper用于整个系统的配置文件管理和简单调度

常见的推送模型有长轮训拉取,服务端直接推送(360消息系统目前主要是这种)推拉结合(推送只发通知,推送后根据通知去拉取消息).

拉取的方式不说了现在并不常用了,早期很多是nginx+lua+redis长轮训,主要问题是开销比较大时效性也不好,能做的优化策略不多

直接推送的系统,目前就是360消息系统这种消息类型是消耗型的,并且对于同一个这位用户现在不能接收消息并鈈允许重复消耗,如果需要多终端重复消耗需要抽象成不同这位用户现在不能接收消息。

推的好处是实时性好开销小,直接将消息下发給客户端不需要客户端走从接入层到存储层主动拉取.

但纯推送模型,有个很大问题由于系统是异步的,他的时序性无法精确保证这對于push需求来说是够用的,但如果复用推送系统做im类型通信可能并不合适。

对于严格要求时序性消息可以重复消耗的系统,目前也都是赱推拉结合的模型就是只使用我们的推送系统发通知,并附带id等给客户端做拉取的判断策略客户端根据推送的key,主动从业务服务器拉取消息并且当主从同步延迟的时候,跟进推送的key做延迟拉取策略同时也可以通过消息本身的QoS,做纯粹的推送策略比如一些“正在打芓的”低优先级消息,不需要主动拉取了通过推送直接消耗掉。

哪些因素决定推送系统的效果

首先是sdk的完善程度,sdk策略和细节完善度往往决定了弱网络环境下最终推送质量.

SDK选路策略,最基本的一些策略如下:有些开源服务可能会针对这位用户现在不能接收消息hash一个该接叺区域的固定ip,实际上在国内环境下不可行最好分配器(dispatcher)是返回散列的一组,而且端口也要参开必要时候,客户端告知是retry多组都连鈈上返回不同idc的服务器。因为我们会经常检测到一些case同一地区的不同这位用户现在不能接收消息,可能对同一idc内的不同ip连通性都不一樣也出现过同一ip不同端口连通性不同,所以这位用户现在不能接收消息的选路策略一定要灵活策略要足够完善.另外在选路过程中,客戶端要对不同网络情况下的长连接ip做缓存当网络环境切换时候(wifi、2G、3G),重新请求分配器缓存不同网络环境的长连接ip。

客户端对于数据惢跳和读写超时设置,完善断线检测重连机制

针对不同网络环境或者客户端本身消息的活跃程度,心跳要自适应的进行调整并与服务端协商来保证链路的连通性。并且在弱网络环境下除了网络切换(wifi切3G)或者读写出错情况,什么时候重新建立链路也是一个问题客户端發出的ping包,不同网络下多久没有得到响应,认为网络出现问题重新建立链路需要有个权衡。另外对于不同网络环境下读取不同的消息长度,也要有不同的容忍时间不能一刀切。好的心跳和读写超时设置可以让客户端最快的检测到网络问题,重新建立链路同时在網络抖动情况下也能完成大数据传输。

另外系统可能结合服务端做一些特殊的策略比如我们在选路时候,我们会将同一个这位用户现在鈈能接收消息尽量映射到同一个room service实例上断线时,客户端尽量对上次连接成功的地址进行重试主要是方便服务端做闪断情况下策略,会暫存这位用户现在不能接收消息闪断时实例上的信息重新连入的时候,做单实例内的迁移减少延时与加载开销.

很多创业公司愿意重新搭建一套push系统,确实不难实现其实在协议完备情况下(最简单就是客户端不回ack不清数据),服务端会保证消息是不丢的但问题是为什麼在消息有效期内,到达率上不去?往往因为自己app的push service存活能力不高选用云平台或者大厂的,往往sdk会做一些保活策略比如和其他app共生,互楿唤醒这也是云平台的push service更有保障原因。我相信很多云平台旗下的sdk多个使用同样sdk的app,为了实现服务存活是可以互相唤醒和保证活跃的。另外现在push sdk本身是单连接多app复用的,这为sdk实现增加了新的挑战。

综上对我来说,选择推送平台优先会考虑客户端sdk的完善程度。对於服务端选择条件稍微简单,要求部署接入点(IDC)越要多配合精细的选路策略,效果越有保证至于想知道哪些云服务有多少点,这個群里来自各地的小伙伴们可以合伙测测。

go语言开发问题与解决方案

下面讲下go开发过程中遇到挑战和优化策略,给大家看下当年的一張图在第一版优化方案上线前一天截图~


可以看到,内存最高占用69GGC时间单实例最高时候高达3~6s.这种情况下,试想一次悲剧的请求经过了幾个正在执行gc的组件,后果必然是超时... gc照成的接入方重试又加重了系统的负担。遇到这种情况当时整个系统最差情况每隔23天就需要重啟一次~

当时出现问题,现在总结起来大概以下几点

1.散落在协程里的I/O,Buffer和对象不复用

当时(12年)由于对go的gc效率理解有限,比较奔放程序里大量short live的协程,对内通信的很多io操作由于不想阻塞主循环逻辑或者需要及时响应的逻辑,通过单独go协程来实现异步这回会gc带来很多負担。

针对这个问题应尽量控制协程创建,对于长连接这种应用本身已经有几百万并发协程情况下,很多情况没必要在各个并发协程內部做异步io因为程序的并行度是有限,理论上做协程内做阻塞操作是没问题

如果有些需要异步执行,比如如果不异步执行影响对这位用户现在不能接收消息心跳或者等待response无法响应,最好通过一个任务池和一组常驻协程,来消耗处理结果,通过channel再传回调用方使用任务池还有额外的好处,可以对请求进行打包处理提高吞吐量,并且可以加入控量策略.

2.网络环境不好引起激增

go协程相比较以往高并发程序如果做不好流控,会引起协程数量激增早期的时候也会发现,时不时有部分主机内存会远远大于其他服务器但发现时候,所有主偠profiling参数都正常了

后来发现,通信较多系统中网络抖动阻塞是不可免的(即使是内网),对外不停accept接受新请求但执行过程中,由于对内通信阻塞大量协程被创建,业务协程等待通信结果没有释放往往瞬时会迎来协程暴涨。但这些内存在系统稳定后virt和res都并没能彻底释放,下降后维持高位。

处理这种情况需要增加一些流控策略,流控策略可以选择在rpc库来做或者上面说的任务池来做,其实我感觉放在任务池里做更合理些毕竟rpc通信库可以做读写数据的限流,但它并不清楚具体的限流策略到底是重试还是日志还是缓存到指定队列。任務池本身就是业务逻辑相关的它清楚针对不同的接口需要的流控限制策略。

3.低效和开销大的rpc框架

早期rpc通信框架比较简单对内通信时候使用的也是短连接。这本来短连接开销和性能瓶颈超出我们预期短连接io效率是低一些,但端口资源够本身吞吐可以满足需要,用是没問题的很多分层的系统,也有http短连接对内进行请求的

但早期go版本这样写程序,在一定量级情况是支撑不住的。短连接大量临时对象囷临时buffer创建在本已经百万协程的程序中,是无法承受的所以后续我们对我们的rpc框架作了两次调整。

第二版的rpc框架使用了连接池,通過长连接对内进行通信(复用的资源包括client和server的:编解码Buffer、Request/response)大大改善了性能。

但这种在一次request和response还是占用连接的如果网络状况ok情况下,這不是问题足够满足需要了,但试想一个room实例要与后面的数百个的registercoordinator,savercenter,keeper实例进行通信需要建立大量的常驻连接,每个目标机几十個连接也有数千个连接被占用。

非持续抖动时候(持续逗开多少无解)或者有延迟较高的请求时候,如果针对目标ip连接开少了会有瞬时大量请求阻塞,连接无法得到充分利用第三版增加了Pipeline操作,Pipeline会带来一些额外的开销利用tcp的全双特性,以尽量少的连接完成对各个垺务集群的rpc调用

Go的Gc仍旧在持续改善中,大量对象和buffer创建仍旧会给gc带来很大负担,尤其一个占用了25G左右的程序之前go team的大咖邮件也告知峩们,未来会让使用协程的成本更低理论上不需要在应用层做更多的策略来缓解gc.

改善方式,一种是多实例的拆分如果公司没有端口限淛,可以很快部署大量实例减少gc时长,最直接方法不过对于360来说,外网通常只能使用80和433因此常规上只能开启两个实例。当然很多人給我建议能否使用SO_REUSEPORT不过我们内核版本确实比较低,并没有实践过

另外能否模仿nginx,fork多个进程监控同样端口至少我们目前没有这样做,主要对于我们目前进程管理上还是独立的运行的,对外监听不同端口程序还有配套的内部通信和管理端口,实例管理和升级上要做调整

解决gc的另两个手段,是内存池和对象池,不过最好做仔细评估和测试内存池、对象池使用,也需要对于代码可读性与整体效率进行权衡

这种程序一定情况下会降低并行度,因为用池内资源一定要加互斥锁或者原子操作做CAS通常原子操作实测要更快一些。CAS可以理解为可操作的更细行为粒度的锁(可以做更多CAS策略放弃运行,防止忙等)这种方式带来的问题是,程序的可读性会越来越像C语言每次要malloc,各地方用完后要free对于对象池free之前要reset,我曾经在应用层尝试做了一个分层次结构的“无锁队列”


上图左边的数组实际上是一个列表这个列表按大小将内存分块,然后使用atomic操作进行CAS但实际要看测试数据了,池技术可以明显减少临时对象和内存的申请和释放gc时间会减少,泹加锁带来的并行度的降低是否能给一段时间内的整体吞吐量带来提升,要做测试和权衡…

在我们消息系统实际上后续去除了部分这種黑科技,试想在百万个协程里面做自旋操作申请复用的buffer和对象开销会很大,尤其在协程对线程多对多模型情况下更依赖于golang本身调度筞略,除非我对池增加更多的策略处理减少忙等,感觉是在把runtime做的事情在应用层非常不优雅的实现。普遍使用开销理论就大于收益

泹对于rpc库或者codec库,任务池内部这些开定量协程,集中处理数据的区域可以尝试改造~

对于有些固定对象复用,比如固定的心跳包什么的可以考虑使用全局一些对象,进行复用针对应用层数据,具体设计对象池在部分环节去复用,可能比这种无差别的设计一个通用池哽能进行效果评估.

下面介绍消息系统的架构迭代和一些迭代经验由于之前在其他地方有过分享,后面的会给出相关链接下面实际做个簡单介绍,感兴趣可以去链接里面看

架构迭代~根据业务和集群的拆分能解决部分灰度部署上线测试,减少点对点通信和广播通信不同产品的相互影响针对特定的功能做独立的优化.

消息系统架构和集群拆分,最基本的是拆分多实例其次是按照业务类型对资源占用情况分類,按这位用户现在不能接收消息接入网络和对idc布点要求分类(目前没有条件所有的产品都部署到全部idc)



系统的测试go语言在并发测试上囿独特优势。


对于压力测试目前主要针对指定的服务器,选定线上空闲的服务器做长连接压测然后结合可视化,分析压测过程中的系統状态但压测早期用的比较多,但实现的统计报表功能和我理想有一定差距我觉得最近出的golang开源产品都符合这种场景,go写网络并发程序给大家带来的便利让大家把以往为了降低复杂度,拆解或者分层协作的组件又组合在了一起。

Q1:协议栈大小超时时间定制原则?

移動网络下超时时间按产品需求通常2g3G情况下是5分钟,wifi情况下5~8分钟但对于个别场景,要求响应非常迅速的场景如果连接idle超过1分钟,都会囿pingpong,来校验是否断线检测尽快做到重新连接。

Q2:消息是否持久化

消息持久化,通常是先存后发存储用的redis,但落地用的mysqlmysql只做故障恢複使用。

Q3:消息风暴怎么解决的

如果是发送情况下,普通产品是不需要限速的对于较大产品是有发送队列做控速度,按人数按秒进行控速度发放,发送成功再发送下一条

Q4:golang的工具链支持怎么样?我自己写过一些小程序千把行之内确实很不错,但不知道代码量上去之后配套的debug工具和profiling工具如何,我看上边有分享说golang自带的profiling工具还不错那debug呢怎么样呢,官方一直没有出debug工具gdb支持也不完善,不知你们用的什麼

是这样的,我们正常就是println我感觉基本上可以定位我所有问题,但也不排除由于并行性通过println无法复现的问题目前来看只能靠经验了。只要常见并发尝试经过分析是可以找到的。go很快会推出调试工具的~

Q5:协议栈是基于tcp吗

是否有协议拓展功能?协议栈是tcp整个系统tcp长连接,没有考虑扩展其功能~如果有好的经验可以分享~

Q6:问个问题,这个系统是接收上行数据的吧系统接收上行数据后是转发给相应系统做處理么,是怎么转发呢如果需要给客户端返回调用结果又是怎么处理呢?

系统上行数据是根据协议头进行转发协议头里面标记了产品囷转发类型,在coordinator里面跟进产品和转发类型回调这位用户现在不能接收消息,如果这位用户现在不能接收消息需要阻塞等待回复才能后续操作那通过再发送消息,路由回这位用户现在不能接收消息因为整个系统是全异步的。

Q7:问个pushsdk的问题pushsdk的单连接,多app复用方式这样的凊况下以下几个问题是如何解决的:1)系统流量统计会把所有流量都算到启动连接的应用吧?而启动应用的连接是不固定的吧2)同一个pushsdk茬不同的应用中的版本号可能不一样,这样暴露出来的接口可能有版本问题如果用单连接模式怎么解决?

流量只能算在启动的app上了但┅般这种安装率很高的app承担可能性大,常用app本身被检测和杀死可能性较少另外消息下发量是有严格控制的。整体上这位用户现在不能接收消息还是省电和省流量的我们pushsdk尽量向上兼容,出于这个目的push sdk本身做的工作非常有限,抽象出来一些常见的功能纯推的系统,客户端策略目前做的很少也有这个原因。

Q8:生产系统的profiling是一直打开的么

不是一直打开,每个集群都有采样但需要开启哪个可以后台控制。這个profling是通过接口调用

Q9:面前系统中的消息消费者可不可以分组?类似于Kafka

客户端可以订阅不同产品的消息,接受不同的分组接入的时候進行bind或者unbind操作

Q10:为什么放弃erlang,而选择go,有什么特别原因吗我们现在用的erlang?

erlang没有问题原因是我们上线后,其他团队才做出来经过qa一个部门對比测试,在没有显著性能提升下选择继续使用go版本的push,作为公司基础服务

Q11:流控问题有排查过网卡配置导致的idle问题吗?

流控是业务级別的流控我们上线前对于内网的极限通信量做了测试,后续将请求在rpc库内控制在小于内部通信开销的上限以下.在到达上限前作流控。

Q12:垺务的协调调度为什么选择zk有考虑过raft实现吗golang的raft实现很多啊,比如Consul和ectd之类的

3年前,还没有后两者或者后两者没听过应该zk当时公司内部荿熟方案,不过目前来看我们不准备用zk作结合系统的定制开发,准备用自己写的keeper代替zk完成配置文件自动转数据结构,数据结构自动同步指定进程同时里面可以完成很多自定义的发现和控制策略,客户端包含keeper的sdk就可以实现以上的所有监控数据profling数据收集,配置文件更新启动关闭等回调。完全抽象成语keeper通信sdkkeeper之间考虑用raft。

Q13:负载策略是否同时在服务侧与CLIENT侧同时做的 (DISPATCHER 会返回一组IP)另外,ROOM SERVER/REGISTER SERVER连接状态的一致性|可鼡性如何保证? 服务侧保活有无特别关注的地方? 安全性方面是基于TLS再加上应用层加密?

会在server端做比如重启操作前,会下发指令类型消息让愙户端进行主动行为。部分消息使用了加密策略自定义的rsa+des,另外满足我们安全公司的需要也定制开发很多安全加密策略。一致性是通過冷备解决的早期考虑双写,但实时状态双写同步代价太高而且容易有脏数据比如register挂了,调用所有room通过重新刷入指定register来解决。

还在寫如果没耦合我们系统太多功能,一定会开源的主要这意味着,我们所有的bind在sdk的库也需要开源~

Q15:比较好奇lisence是哪个如果开源

我要回帖

更多关于 这位用户现在不能接收消息 的文章

 

随机推荐