中国最具影响、规模最大的大数据领域盛会-- 2013中国大数据技术大会(Big Data Technology Conference,BDTC)于2013年12月5-6日在北京举行。数十家领军企业,近七十场主题演讲,不仅覆盖Hadoop生态系统与流式计算,实时计算与NoSQL、NewSQL等技术方向,还对互联网、金融、电信、交通、医疗等创新案例,大数据资源的法律法规、大数据商业利用的政策管制等有深入讨论。
BDTC 2013中国大数据技术大会首日全体大会上,腾讯数据平台部助理总经理蒋杰发表了题为《大数据处理的规模化与实时化演进 》的演讲。他分享了大数据技术在腾讯的实践,其中包括基于Hadoop的平台TDW、实时数据收集系统TDBank以及基于Storm的流处理系统TRC。同时,蒋杰还透露,腾讯将在12月开源内部的Hadoop平台TDW。
以下为演讲实录:
蒋杰:谢谢张老师和CCF。我今天给大家做的报告是大数据平台规模化和实时化。这是腾讯一年内所做的总结给大家汇报一下。其实分为三部分内容:
腾讯里面大数据应用分为哪几类做了哪些事情。
技术相关平台化、规模化、实时化。我们主要建了三个平台,第一个平台基于Hadoop的数据仓库,第二平台腾讯数据银行,这是实时采集的平台。第三个也是今天上午第一位嘉宾所讲我们基于自己做改造实时的计算平台。
基于推荐系统一个架构的演进。
腾讯数据线就是这样的,这个图很容易概括腾讯所有的业务,和腾讯目前数据仓库承载的数据。腾讯是以QQ起家的,有八亿用户,四亿移动用户,加上腾讯网17亿的PB和手机端13亿的PB等。在数据仓库存储的数据量单机群数量达到4400台,总存储数据量经过我们压缩各种数据处理以后在100PB左右,这是80家当时的数据,每年日新增在200TB到300TB之间,每月增加10%的数据量。在这样一个数据体系下我们怎么应对我们的数据体系?这是我们面临很关键的问题。腾讯的数据分为很多种,国内互联网体系里面腾讯数据最全,比如说阿里和百度在搜索和电商拥有了所有的数据,阿里90%以上的电商都在他们那里有他们数据,百度有70%所有的市场份额拥有了搜索数据。电商和搜索腾讯都有,腾讯更多在社交领域,社交领域积累数据有文本、音频、还有视频和关系类的数据,这是我们主要的数据来源。这个数据当中我们有代表性就是社交图谱。我们有了QQ关系链、朋友网、微博、朋友圈加上QQ本身的关系链我们对用户梳理了一个比较深的用户社交图谱,目前我们对八亿QQ用户和4亿移动用户做了一个系统,可以做相关广告和服务业务。我们经典应用主要精准推荐。目前腾讯有广点通,还有腾果,腾讯两大效果广告平台都在我们这一套实时的推荐体系上承载的。目前承载200多亿的请求访问。腾讯视频以视频为代表的推荐服务,腾讯视频整个推荐服务也是在这套平台上,包括目前腾讯的电商还有腾讯的易讯网都在这个平台上,还有关系链、微博、腾讯秀各种APP,一些阅读和音乐在这套平台做精准的推荐服务。为什么做精准推荐?其实精准推荐能够给我们带来直接的效益。以前从雅虎开始是一个基于网页分类的广告的模式,到搜索引擎做了搜索广告,基本上现在都是基于社交个性化广告的引擎,基于Facebook为代表这样的。腾讯做的广告推荐我们用的热度协同过滤等包括我们后来改的基于LR的算法等,这些算法我们是混合算法模式不是单一的,这个过程当中我们为什么达到这么高的精度?我们把更多数据变成实时行为的模式,去做一些策略。同时我们基于历史数据和社交关系链数据等进行提取,提取出来一个比较全的画像,基于混合式的算法我们才会对各种推荐类服务给予各种支持。
我们做了用户的信誉体系,基于用户属性,电商行为,财付通支付的行为,还有虚拟Q币体系,在Q币体系有一些对虚拟购买行为做了积累,这个积累之上做一些信用体系,我们可以做一些信用支付和信用支持这是一个应用。数据更多做可视化,我们用强大的数据平台刚刚中国移动同时也在讲实时的监控,我们用实时的体系做实时的监控。同样我们对微信全球整个的实时的这种CGI的接口做了监控可视化的平台,190多个国家,哪个国家网络出现问题,调运接口出现问题都可以在这个平台实时做很好的体现。这是整个我们目前做数据应用典型的几个案例给大家简单介绍一下。
接下来我们对三T平台的介绍。我相信这一个体系其实每家在做可能有BIT的三大公司,大家都有可能做的方式有一些不同,我来介绍一下整个腾讯数据的服务体系。
这是我们整体的架构图,通过实时采集和分发,我们同时给Hadoop离线计算平台和在线计算平台,在这套平台我们承载精准推荐引擎和服务,提供整个社交广告和电商视频其他业务整个精准服务。当然也有传统的自主提取调度原数据管理的体系,承载这样的数据服务必须承载这样一个体系存在。我一个一个给大家介绍。