1月8日,第八届中国IDC产业大典在国家会议中心盛大召开。本次大会以“新资本 新技术 新格局”为主题,力邀工信部、通信发展司、电信研究院领导,IDC企业、电信运营商、互联网企业、设备厂商等各行业精英齐聚一堂,共同把脉中国IDC行业未来发展之路。在1月9号分论坛“大数据与互联网技术峰会”上,阿里共享业务事业部高级数据挖掘专家李传福应邀出席了大会并发表精彩演讲“大规模用户行为数据分析”。
李传福
阿里共享业务事业部高级数据挖掘专家李传福
以下为李传福演讲实录:
李传福:大家好,我是来自阿里巴巴的李传福。我主要今天介绍的可能不用花很多的时间去350亿怎么花?花很简单,是由我们200多万商家贡献的,这350亿也是由我们200多万的商家朋友他们去考虑怎么花的,我们是不用愁的。但是大家知道在双11之前,李克强总理接见过马云,在双11前几天,马云就夸下海口说今年会超过300亿,他的信心哪里来,这就是大数据的作用。数据给了马云信心。
我在借下来的介绍里面,可能会有类似的信息,我今天的分享,借着王总这边介绍,她很好的把大数据应用的前景和概念体系给我们做了很好的梳理。我这边更多的是基于应用的。我们在阿里体系的业务范畴里面,对数据的应用,是非常广泛。我这里其实介绍的仅仅是冰山的一角,更重要的我这边正在做,或者已经做的一些事情,跟大家拿过来一起分享一下。希望我做的这些事情,对大家有一定的启发。或者是在过程当中,大家能对自己的应用,做一些结合。
另一方面因为我们在座的各位,来做不同的行业,不同的技术背景,从事不同的工作。我今天尽可能的用非技术的语言跟大家交流。通过业务的方式,让大家更好的了解,我们数据挖掘,或者是大数据今天他能做什么,他对企业带来一些什么样的价值。
在开始之前做一个简单的调查,这里有没有不用淘宝购物的请举手?都用。很多的场景都是基于淘宝的,所以我不用铺垫淘宝到底是做什么的?我今天主要分四个部分,一个是简单的介绍我们做这一块它的品牌架构长什么样。数据的服务,主要解决业务哪些问题。这个刚好可以比对一下我们自己的企业,或者是自己工作中有哪些东西你可以用数据的一些手段来完成。数据模型的视图,主要是做了哪些模型,我的重点是在第四部分,介绍几个不同的案例,希望在这个案例过程中,给大家一些不同的信息。
也是一个简单的框架,我们最底层的东西,就像刚才王总说的,我们是通过一个分布式的数据系统,目前我们每天产生的数据,大概有500T左右,放在这样一个分布式的平台,我们的分布式的平台,其实有两套系统,其中一套系统,是刚才看到的,基于hadoop之后升级改造的一套分布式的系统。目前我们正在用的是阿里巴巴自己开发的一套分布式的系统。大概这套系统有多大?不太好说,给大家一个数字。我们在云梯系统一,八九千服务器。云梯二,一万台。因为我们的数据,我们的交易,我们的访问信息非常大,在这样的一个系统里面,在底层架构方面,我们做了很多的信息的改造和突破。
另外,我们其实在在线系统方面,也做了很多的研究。这些研究其实是说,更多的是应用我们的业务中需要的,比如说云计算,在线计算,实时计算这些技术。这些技术本身可能他并不是特别高深的,但是拿到我们现在的业务场景里面,他要解决的问题非常复杂。首先他面临业务量大,并发高。双11我们要保障350亿,很多人并没有怀疑过我们350亿的消费者能力。很多人提到阿里巴巴创造300亿成交,行业人都懂,他的难度在两点。一个是我们的系统,350亿的成交,需要多少的并发,可以算出来,行业的人都是看这个点怎么完成。我们在双11的时候,并发量大概是每秒六万。如果说我们的火车票,在我们这套系统上,全世界的火车票都没有任何的压力。
在数据源之上,我们有自己的一系列的调度系统,这些调度系统,每天运营我们各种各样的算法,完全各种各样业务数据的聚合。调度系统其实是在每天的凌晨,到三点钟左右的时间,把我们需要用的各种各样的数据计算好。等着我们的业务来调用。再往上一层,其实就是离线的一些模型。什么叫离线的模型。就是我们基于一些离线的数据,做一些复杂的数据挖掘的机械学习的东西,得到了这些结论。他在离线环境下生成好,供上面的业务系统调用。
为什么不放在在线系统里做,大家理解淘宝的业务很明白,我们每一个业务对时间的要求非常高,它高到什么情况?我的一个计算,要完成的时间,一个复杂的计算完成的时间,要超过120毫秒。我们任何一个业务系统,在上线之前的性能,都要保证这样。一个再复杂的计算,都要保证120毫米之内计算完。我们会用大量的技术突破性能的问题。把一些高难度,复杂性计算的算法放在离线里面,提前做好,在那等着。我们的技术算法需要被调用的时候,再做一些简单的在线的计算和分装,完成效率和性能的保证。