第二个比较大的方面就是市场营销的支撑。我们运营商有几类数据,首先是用户帐号,现在基本上手机都是实名制,用户在运营商登记的帐号信息有年龄性别等等,是比较真实的最基础的数据。第二是协议类型,例如你使用什么套餐,什么业务,你是使用流量高的还是话音高的,你每月消费量多少,其实这里面可以体现出很多东西,比如说你的消费能力,一个月消费10块钱和一个月消费1000块钱的用户,消费能力肯定不一样,这种消费能力延伸开了可以帮助你做其他方面业务营销的支撑。第三是业务类型,比如说这个用户选择中国移动的游戏类或者阅读类、音乐类,都代表他个人的一些兴趣爱好、特点和取向。
第四,访问的URL,用户经常看什么网站?比如说经常看体育类的网站,这里我们就会发现这个用户可能对体育类的产品和相关服务会有兴趣。还有终端信息,因为我们实际上在网络上可以通过各种渠道获取用户在使用什么样的终端。这个终端信息一方面来说对我们自己做业务来说非常重要,因为每个终端的能力不一样,每个终端的特征不一样,就是每个终端适合使用的业务不一样。第二我们中国移动也有自己的终端公司,什么样终端好卖?用户喜欢终端什么样的功能?什么样的特征?对我们自己使用开发终端也有价值。还有上行下行的流量,通过这些数据首先我们可以分析流量,就是说我所有的业务在所有网络当中流量流向变化情况,这里面也许蕴藏着某种信息。比如说什么地方发生了一个比较大的事件。举个例子,前一段时间四川的地震,我们四川那边电话局立马负荷飞速的往上涨,流量流向可以通过这个发现。用户行为的分析,移动通信有位置信息、地理信息,手机号码可以知道你的注册地,我既知道你常驻在什么地方,又知道你经常漫游在什么地方,所以这方面数据非常有意思。第三就是流量,一些帐单的查询,用户对流量消费非常关注,他希望有详细的上网记录可以查询之类的,为了提供用户透明消费支持,我们做这方面的工作。
第三个比较大的方面是优化网络质量,作为运营商我们一直强调我们的服务是电信级,全年我们的可靠性在五个九。对中国移动来说李总说过一句话质量就是生命线,实时发现网络故障并解决是我们很重要的工作。中国移动很大一部分员工在做线网的监控,线网监控一方面比较耗人,第二目前网络结构越来越复杂,层次越来越多,一旦发生故障到底出在什么地方很难查找。大规模的数据挖掘其实我们可以帮助我们做网络的故障定位和故障排查。IP网和无线网送来大量的日志数据,这个日志数据通过我们模型建立做分析确实对网络运营成本有比较大的降低。
在运营商的实践过程当中,我们对数据挖掘,数据处理,数据分析的实时性需求越来越迫切。在这我们对实时处理有个广义的定义。
第一个实时这种流式数据的处理,数据有动态产生的特征,这是大数据的特点。这种数据动态产生,我不能等到批量产生、批量处理,很多数据稍纵即逝,跟位置和时间的关联性非常强,我必须及时处理,来了数据处理,处理完马上送上去,也许我马上使用,流式处理在解决这样的问题。
第二对于海量数据的快速处理。要实现这种交互式。我们现在有些省公司实际上做整个公司的生产分析的时候,不再依赖花好几天时间整一个报告把数据报上来,而是说它有一套系统,这个系统里面你可以看到当月所有生产的数据,KPI数据,他的收入,用户增量,流失量,可以挖掘到每个小区带来多少收入,每个地市、县区、每个基站带来多少收入,流量是多少。这个需要一个快速海量处理。对于大量的IO操作限制了对于交互式的快速反应。现在图计算更多是通过消息而不是通过IO的文件方式做数据处理。像内存式的计算结合很多新的系统,像SLD、CSIO这些东西,可以在这方面做很大提升。
我们内部把云计算和大数据放在一块说的,在中国移动我们传统体系架构里面,我们很大程度上依赖于昂贵商用的硬件和软件,我们现在交易数据库还有分析型的数据库大量使用甲骨文、DB2等商业数据库。使用小型机服务器,像EMC昂贵盘阵的系统。这种架构实际上存在几个问题:第一个在非结构化处理方面能力不足,第二系统成本非常高,中国移动小机的数量可能比PC数量还高。第三硬件平台的兼容性很差,惠普的硬件跟IBM的系统,没有办法做无缝的跨平台。第四个扩展性,传统的系统都是属于TB级系统,支持PB级分析交易能力是有限的。所谓云计算,中国移动认为你要把这种商用的硬件尽量用消费级的产品,就是说我们像X86、还有RM等等这样一些PC服务器用它代替,把整个系统的架构改成横向扩展的方式。
在Hadoop正式发布之后,半年时间我们启动了相关研发工作,在国内介入Hadoop比较早,后面我们也在不断的进行跟踪,也参与每年在美国的Hadoop会议,同时我们在Hadoop社区这种开源社区积极提交。为了支持云计算和大数据的研究和开发,目前我们实验室里把这个系统扩到了一千多个节点。