我们基于实时化到TRC平台,我们基于Storm的平台做一些改造和提炼,社交、游戏、营销这几块用到实时在线服务的平台。TRC其实我们有三个模块,第一个模块是基于流式计算的,这块我们基本上基于Storm做一个流式计算的引擎,在整个Storm流转过程当中你要落地,对整个进行存储做了一个数据库,我们参考淘宝来做的,我们把两个融入一下做了一个适合自己平台的平台。在这个体系中我们去支撑一个秒级延时基于流式计算的引擎,这个引擎我们除了本身Storm改造你更多需要做配置和任务管理的模块。我们分位几个模块一个是TDP、一个TPE。集群统一的管理和资源的隔离和权限的控制这是Storm本身不具有的,同时我们丰富很多开发的接口,这个过程当中我们做到良好平滑扩容和容灾切换能力。这个过程当中我们把几个平台分为几个模式。第一个平台层基于任务的调度和资源的管理。我们原有是java开发做接口,在这里和阿里走的路线是一样的,就是为了降低开发人员整个开发成本和调试成本。
这个上面是我们自己特有的产品,我们包装应用服务层,我们实时的服务可以在这里面定制化出来。同时我们上面做了一些监控的模式,这是我们在Storm上面做了一个演进的过程,希望给在座大家有一个启发和帮助。
这是我们用Yarn做整个资源调度和管理,我们主要解决资源管理和资源隔绝的问题,我们把Storm容灾机制交给Yarn管理,我们对地层CPU和内存资源扩容打下比较好的基础。因为成本不一样,应用场景不一样,我们存储引擎是一套,但是存储的介质和结构不一样,其他大家都见过比如说路由管理迁移怎么做备份,很多互联网公司有类似的这些东西,不多讲了,这是我们对整个NDB、RDB、TDE的支持。
这个主要是我们支持精准推荐业务和秒级监控包括微信的监控,每天我们请求量比较厉害的,大概我们TBE请求量是5200亿,TDE在2万6千亿左右,目前单集群数量不够大,明年我们主要在扩容量方面。这是我们三大平台的介绍。
最后我们介绍一下我们推荐,我们推荐其实分为几种。上面这几种推荐都是基于这套平台来做的。我们最老的模式我们有一个海纳,现在替换到放到我们分布式里面做实时查询,这是早期的互联网公司都是这样做的,基于离线模型算好,算好以后做实时查询,我们新架构不是这样做的,是2012年到2013年的架构,通过实时采集,到实时计算,到实时引擎,这是秒级的架构图。我们从一小时的实时计算提升到15分钟,我们CPI提升了42%,再到15分钟提升到秒级我们又提升了12%,这是我们提升架构速度改变一切,包括速度改变我们整个收入的过程。我们管理通如果提升10%就是三个亿的收入,这块非常值得提升。包括谷歌和百度在这一块他们也是一样看到了效果,我只是今天把效果给大家列出来。刚才说是我们第二代架构,我们第三代架构跟谷歌差不多我们把算法和模型用Spark计算完之后,我们数据和模型在同一起提供对外的服务。我们CPI提升10%的过程。把算法和模型结合一起,Spark每分钟或者更短时间运算一次。三亿流量请求,我们每秒钟投出的广告在几千万个,大概每个请求业务给我们时间只有50毫秒。这样过程当中我们推荐引擎经历了20亿次每秒的访问速度,这是运行的情况。