2014年12月12-14日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中科院计算所与CSDN共同协办,以推进大数据科研、应用与产业发展为主旨的 2014中国大数据技术大会 (Big Data Technology Conference 2014,BDTC 2014)暨第二届CCF大数据学术会议在北京新云南皇冠假日酒店盛大开幕。
2014中国大数据技术大会首日全体会议中,卡耐基梅隆大学教授、ICML 2014程序主席邢波带来了名为“A New Platform for Cloud-based Distributed Machine Learning on Big Data”的主题演讲。期间,邢波表示,着眼当下大数据处理平台,大量资源都都浪费在集群的通讯上。即使比较优秀的平台,计算时间也只有20%,通讯时间占到80%,就比如Hadoop的通讯时间占到90%。
卡耐基梅隆大学教授、ICML 2014程序主席 邢波
以下为演讲实录:
邢波:
我首先感谢大学组委会邀请我来给这儿做一个报告。我这个报告风格可能跟以前几个不一样,干货比较多,有一些正规的实验结果,甚至有一些数学公式,我很乐意分享一下刚刚从学生那得出的结果。
用于大数据的分布式机器学习运算的平台。当我们 面对大数据,大家首先问到的问题,我们从大数据里面能挖到什么东西,大数据到底有什么用?这个问题大家已经看到了很多展示,这块就不再重复或者追加。
我这儿希望能够讲一个更加无趣但是基本的问题,如何来进行大规模的大数据运算,如何把它做对。这个原因是?现在数据量如何之大,以后关键的问题会是对数据的正确理解,而这里边的工具到底是什么呢?至少在我们计算机学家目前的经历来看,很多人同意机器学习和它代表的统计学习的算法可能是一个对数据进行有效挖掘的途径。
我这里就要探讨一下如何把这个工具过渡到大数据的平台上,而这个大字对以前的研究产生什么影响。有必要强调一下这个问题的重要性。 现在有很多对大数据的忽悠,很多文章都会说数据就是金钱,有很多数据的话你就变得很有财富,甚至你变得非常聪明。没有一个很好有效体系对这个数据作为分析,其实数据不等于知识,森林里面倒下一棵树,你没看到的话,它倒没倒下,你就不知道。今天讲这些技术型的问题。
为什么大数据的机器挖掘比较困难,首先数据量变大,挑战了存储、通讯甚至处理的极限,你要把它分布到一个大的数据中心去。但是其实挑战不仅仅是这一些,当数据变得很大的时候,你的问题变得很复杂,需要聪明大脑和聪明的模型理解。
大家在大型公司里面有几百个E,从单机里面溢出需要并行处理,想把这步做对并不是简单的问题,这就涉及到第三个问题,当这些软件包工具到底在哪儿?你可能看到刚才讲解者展示IBM的系统,余凯先生会展示百度的系统,大数据的问题都是大型企业他们专属权利,而比较屌丝级别的公司就没有办法处理,是不是这样的东西?我想大数据记忆库普及变得非常好用情况就会改观。