1月8日,第八届中国IDC产业大典在国家会议中心盛大召开。本次大会以“新资本 新技术 新格局”为主题,力邀工信部、通信发展司、电信研究院领导,IDC企业、电信运营商、互联网企业、设备厂商等各行业精英齐聚一堂,共同把脉中国IDC行业未来发展之路。在1月9号分论坛“大数据与互联网技术峰会”上,新浪信息系统部高级数据挖掘经理李云辉应邀出席了大会并发表精彩演讲“新浪大数据处理”。
李云辉
新浪信息系统部高级数据挖掘经理李云辉
以下为李云辉演讲实录:
李云辉:各位嘉宾大家下午好,我今天主要跟大家分享的是新浪的大数据的处理。在讲这个之前,简单的介绍一下新浪大数据,新浪大数据分两块,我今天讲的是离线,还有一块是在线。我们在做的社交兴趣,那个是在线的。我今天主要讲离线的。
主要分几个方面,一个是我们的背景,第二个是技术架构,第三是数据架构,第四是建立的服务体系,第五是应用的案例。
新浪现在的数据规模,我这里面主要讲的是新浪微博。目前有六亿多的注册用户,一亿多的OA,30TB的日志量每天。90%都是非结构化的数据,都是一些日志,和内容的数据。数据的关联上面有庞大的粉丝,社交网络的关系。我们在微博上的垂直产品很多,更新迭代非常快。
新浪大数据的背景,我们从2010年开始做这块的工作,在互联网里面,我们还算是一个探索者。从2010年开始,我们到现在走过了三年,三年的时间我们也一步步的沉淀了很多。建立了分布式数据平台和共享式的数据平台。初衷是因为我们的业务发展非常快,我们的用户量从2010年开始,到2011年,2012年增长非常快,产品迭代非常快。我们的需求量非常大。业务的需求变化非常快,计算比较复杂,因为都会涉及到一些传播的路径。
数据获取的周期比较长,分析的需求也特别多,使用的业务部门非常多,实时性不能得到很好的保证,数据质量不用讲了。基于这样的背景,我们在2010年开始规划建设这样的一个分布式的数据平台。在这里面主要是通过三个层面,我们做了三个层面,这样的数据平台我们分了三个层面。一个是底层的技术架构的层面,就是我们的hadoop的生态圈,在这上面做了很多的工具。
第二是数据架构层面,有这么多的数据,我怎么让它共享到全公司的各个业务部门,而不是各个业务部门自己搞自己的数据平台,搞自己的主题。第三是在数据平台之上,我们去建的服务全公司的整个服务体系。我们有一个ISA的标准。
技术架构这块,大家都比较熟悉,我们也不例外,也是基于hadoop的生态圈,从最下面的日志的接受传输,不管是通过什么方式,进入到hadoop.我们在这之上,会做一些ETL数据的整合,进入到中央的数据仓库,再往上就是在上面会做一些数据的挖掘,实时的统计,实时的计算,以及一些数据的展现,所有的数据的项目的支持,包括前端的一些数据的产品。
数据架构,在hadoop上去搭建分布式的数据仓库,怎么让这个分布式的仓库能够让诸多的业务部门,是一种合作、协作的方式。而不是业务部门提需求去做,而是大家怎么共享协作,整个的数据在公司内部有一个共享。
主要是简单的介绍一下我们的体系架构,是我们的原始数据,数据来源,90%是我们的日志文件,包括流量,包括行为,包括商业化的数据,包括广告。
我们经过简单的一些数据汇总,或者是数据的分析,会建文件的各种各样的主题,有两大:一个是通用的主题,第二个是与各个部门的数据提示。支撑我们最主要的,就是我们的分析挖掘,专门提高数据挖掘使用。
我们会做一些应用层,有很多的统一的视图。再往上就是我们提供的几个服务,面向产品到产品运营这个层面。分析师是一个层面,技术、算法团队是一个层面,基本上都是在这个平台上使用。
不同的角色,不同的业务部门,我们提供的服务部一样。产品运营,更提供的更多是制度化的报表,以及数据门户,多维分析的工具,自己去写一些客户端,写一些SQL.分析师还是提供一些HA的自动查询,让他能够更方便的做一些数据分析和沉淀。
开发通过gateway客户端的方式登录,登录我们自己的数据开发是一样的,能够在上面进行一些统一的分析。数据的接口就是我们做出来的东西。在这里面所有的团队,遵循的都是同一套的数据规范,达到数据的共享。
再往上支持我们的产品和运营,现在我们支持的服务,有日常的老板的每天的日报,各个部门主管所关心的指标,产品运营看到的数据,以及线上的数据产品。大家在微博上看到一些数据产品等。