2014年12月12-14日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中科院计算所与CSDN共同协办,以推进大数据科研、应用与产业发展为主旨的 2014中国大数据技术大会 (Big Data Technology Conference 2014,BDTC 2014)暨第二届CCF大数据学术会议在北京新云南皇冠假日酒店盛大开幕。
2014中国大数据技术大会首日的全体会议上,华为EU研究中心首席研发架构师Sabri SKHIRI带来的主是题“Lambda Architecture 2.0 Convergence between Real-Time Analytics, Context-awareness and Online Learning ”,期间他指出了当下大数据框架的两大缺点。首先,类MapReduce的模型做机器学习并不简单,这主要因为下面几个原因:基于键的运算符限制了灵活性;迭代是复杂的,同时计算上的开销非常大;批处理会扫描所有数据;不可以支撑在线学习算法。其次,没有逐渐增加数据片的渐进式学习。
华为EU研究中心首席研发架构师 Sabri SKHIRI
以下为演讲实录
Sbari SKHIRI:
我叫Sbari SKHIRI,来自于比利时。在今天我想跟大家介绍的主题是针对实时分析的CEP以及PME。这是我这个演讲的报告,首先做一个简要的报告,然后简要介绍一下Lambda结构和Lambda2.0的架构,然后举一些实例最后做一个总结。
我经常参加一些会议,在会议中做关于机器学习的演讲。我也是开源项目的一个协调者,能够参加开源项目是非常好的,能够跟开发者有第一线的接触,有非常亲密的联系,大家可以看看。
下面我们来看一下,在大数据时代来临之前到底有怎样的变化,我们其实也可以看到有一些智能性的发展,包括机器学习。机器学习在大数据时代之前已经被提出。我们在图像当中列出了不同的使用,包括Hadoop等等,但是在通讯领域,很多企业的规模都很大,他们可以为用户提供更加可靠的数据,在我们挖掘要求方面,还有我们现有的能力当中就出现了一个问题,所以我们华为也希望可以满足通讯运营商他们在这方面的需求来缩短差距。
我们来具体看一下实时分析。我们看一下在通讯领域,我们进入到大数据时代主要原因就是运营商希望可以进一步提升用户体验,增加质量,可以更好去优化运营效率,他们也希望可以更好地去挖掘数据价值,把数据变现,创造一个稳定的生态系统,包括数据的产生者、数据使用者和运行者,所以他们希望全方位更好利用新数据。
我们有一些新的商业使用案例,比如说实时的广告,我们可以给用户进行精准定位的广告推送,还有可以更好进行一些动态的网络管理,还有可以更好地去主动性管理用户体验等等,所有的这些都有几大需求。首先,需要我们可以去开发一些情景,一些背景,还有实现实时;也就是说我们需要能够了解到此时此刻的现状。而我们从建构的角度到底意味着什么呢?这就意味着我们的方向有所转变。我们看左边这个图,纵轴上面是数据价值,横轴上面主要显示了时间,我们数据就包括事件相关的,我们还要进行数据存储、信息发送和最后采取行动,我们也会在这个过程当中获得数据,还需要有一定的时间做出决策。随着时间延长我们数据价值就会越来越少,要求我们进行数据收集和探测还要做相应分析和决定。我们也需要采取一些方式,在数据基础之上去产生知识和生成内容。