阿里巴巴李传福:大规模用户行为数据分析(1)

2014-01-11 19:09:37    中华网科技  参与评论()条

    1月8日,第八届中国IDC产业大典在国家会议中心盛大召开。本次大会以“新资本 新技术 新格局”为主题,力邀工信部、通信发展司、电信研究院领导,IDC企业、电信运营商、互联网企业、设备厂商等各行业精英齐聚一堂,共同把脉中国IDC行业未来发展之路。在1月9号分论坛“大数据与互联网技术峰会”上,阿里共享业务事业部高级数据挖掘专家李传福应邀出席了大会并发表精彩演讲“大规模用户行为数据分析”。

    李传福

    阿里共享业务事业部高级数据挖掘专家李传福

    以下为李传福演讲实录:

    李传福:大家好,我是来自阿里巴巴的李传福。我主要今天介绍的可能不用花很多的时间去350亿怎么花?花很简单,是由我们200多万商家贡献的,这350亿也是由我们200多万的商家朋友他们去考虑怎么花的,我们是不用愁的。但是大家知道在双11之前,李克强总理接见过马云,在双11前几天,马云就夸下海口说今年会超过300亿,他的信心哪里来,这就是大数据的作用。数据给了马云信心。

    我在借下来的介绍里面,可能会有类似的信息,我今天的分享,借着王总这边介绍,她很好的把大数据应用的前景和概念体系给我们做了很好的梳理。我这边更多的是基于应用的。我们在阿里体系的业务范畴里面,对数据的应用,是非常广泛。我这里其实介绍的仅仅是冰山的一角,更重要的我这边正在做,或者已经做的一些事情,跟大家拿过来一起分享一下。希望我做的这些事情,对大家有一定的启发。或者是在过程当中,大家能对自己的应用,做一些结合。

    另一方面因为我们在座的各位,来做不同的行业,不同的技术背景,从事不同的工作。我今天尽可能的用非技术的语言跟大家交流。通过业务的方式,让大家更好的了解,我们数据挖掘,或者是大数据今天他能做什么,他对企业带来一些什么样的价值。

    在开始之前做一个简单的调查,这里有没有不用淘宝购物的请举手?都用。很多的场景都是基于淘宝的,所以我不用铺垫淘宝到底是做什么的?我今天主要分四个部分,一个是简单的介绍我们做这一块它的品牌架构长什么样。数据的服务,主要解决业务哪些问题。这个刚好可以比对一下我们自己的企业,或者是自己工作中有哪些东西你可以用数据的一些手段来完成。数据模型的视图,主要是做了哪些模型,我的重点是在第四部分,介绍几个不同的案例,希望在这个案例过程中,给大家一些不同的信息。

    也是一个简单的框架,我们最底层的东西,就像刚才王总说的,我们是通过一个分布式的数据系统,目前我们每天产生的数据,大概有500T左右,放在这样一个分布式的平台,我们的分布式的平台,其实有两套系统,其中一套系统,是刚才看到的,基于hadoop之后升级改造的一套分布式的系统。目前我们正在用的是阿里巴巴自己开发的一套分布式的系统。大概这套系统有多大?不太好说,给大家一个数字。我们在云梯系统一,八九千服务器。云梯二,一万台。因为我们的数据,我们的交易,我们的访问信息非常大,在这样的一个系统里面,在底层架构方面,我们做了很多的信息的改造和突破。

    另外,我们其实在在线系统方面,也做了很多的研究。这些研究其实是说,更多的是应用我们的业务中需要的,比如说云计算,在线计算,实时计算这些技术。这些技术本身可能他并不是特别高深的,但是拿到我们现在的业务场景里面,他要解决的问题非常复杂。首先他面临业务量大,并发高。双11我们要保障350亿,很多人并没有怀疑过我们350亿的消费者能力。很多人提到阿里巴巴创造300亿成交,行业人都懂,他的难度在两点。一个是我们的系统,350亿的成交,需要多少的并发,可以算出来,行业的人都是看这个点怎么完成。我们在双11的时候,并发量大概是每秒六万。如果说我们的火车票,在我们这套系统上,全世界的火车票都没有任何的压力。

    在数据源之上,我们有自己的一系列的调度系统,这些调度系统,每天运营我们各种各样的算法,完全各种各样业务数据的聚合。调度系统其实是在每天的凌晨,到三点钟左右的时间,把我们需要用的各种各样的数据计算好。等着我们的业务来调用。再往上一层,其实就是离线的一些模型。什么叫离线的模型。就是我们基于一些离线的数据,做一些复杂的数据挖掘的机械学习的东西,得到了这些结论。他在离线环境下生成好,供上面的业务系统调用。

    为什么不放在在线系统里做,大家理解淘宝的业务很明白,我们每一个业务对时间的要求非常高,它高到什么情况?我的一个计算,要完成的时间,一个复杂的计算完成的时间,要超过120毫秒。我们任何一个业务系统,在上线之前的性能,都要保证这样。一个再复杂的计算,都要保证120毫米之内计算完。我们会用大量的技术突破性能的问题。把一些高难度,复杂性计算的算法放在离线里面,提前做好,在那等着。我们的技术算法需要被调用的时候,再做一些简单的在线的计算和分装,完成效率和性能的保证。

 
网友发言 已有人参与 条评论
所有评论仅代表网友意见。提交评论

社会文史娱乐汽车科技旅游城市文化

新闻 军事 论坛 娱乐

新闻频道
国内国际社会评论文史专题经济新闻图库老照片
军事频道
军事要闻中国军情国际军情军事历史网友原创军事专题军事图库武器装备军事文化
汽车频道
车闻Update漫话车型漫记车映像实拍解析行业动态新车资讯独家评测汽车生活人文之旅
教育频道
留学移民高考中小学拒讲堂师说商道商论
游戏频道
游点意思网络游戏网页游戏单机游戏手机游戏军事游戏游戏产业发号中心游戏美女图说游戏囧游囧事
科技频道
业界互联网行业通信数码手机平板IT硬件相机笔记本家电产品库
旅游频道
X旅行视界目的地 美图发现社区
文化频道
专题非遗沙龙历史艺文博览读书图库书画禅文化
书画频道
资讯收藏展览在线展厅艺术家视觉专题
体育频道
国际足球中国足球NBACBA 综合体育图片汇总专题策划
视频频道
新闻军事中华出品原创娱乐纪录片微电影决胜海陆空
娱乐频道
明星电影电视音乐专题图库论坛
公益频道
老兵出镜老兵动态老兵资料库关爱老兵在行动公益组织公益人物
城市频道
城市聚焦城市设计城市生活城市策划城 市图赏城市加盟城市论坛
社区频道
中华论坛网上谈兵中华拍客社会时政国际风云生活消费休闲旅游美丽女人娱乐八卦经济风云情感世界文学天地
好医生频道
保健养生疾病防治行业资讯名医谈健康 医生专栏食疗跑步
经济频道
国内宏观海外经济产经商贸时尚消费电商眼球儿企业故事专栏评说识局经济