当前位置:科技 > 业界 > 业界动态 > 业界动态国内新闻 > 正文

卡耐基梅隆大学教授邢波:Petuum,大数据分布式机器学习平台(1)

2014-12-13 20:54:41  CSDN    参与评论()人

    2014年12月12-14日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中科院计算所与CSDN共同协办,以推进大数据科研、应用与产业发展为主旨的 2014中国大数据技术大会 (Big Data Technology Conference 2014,BDTC 2014)暨第二届CCF大数据学术会议在北京新云南皇冠假日酒店盛大开幕。

    2014中国大数据技术大会首日全体会议中,卡耐基梅隆大学教授、ICML 2014程序主席邢波带来了名为“A New Platform for Cloud-based Distributed Machine Learning on Big Data”的主题演讲。期间,邢波表示,着眼当下大数据处理平台,大量资源都都浪费在集群的通讯上。即使比较优秀的平台,计算时间也只有20%,通讯时间占到80%,就比如Hadoop的通讯时间占到90%。


卡耐基梅隆大学教授、ICML 2014程序主席   邢波 

    以下为演讲实录: 

    邢波:

    我首先感谢大学组委会邀请我来给这儿做一个报告。我这个报告风格可能跟以前几个不一样,干货比较多,有一些正规的实验结果,甚至有一些数学公式,我很乐意分享一下刚刚从学生那得出的结果。

    用于大数据的分布式机器学习运算的平台。当我们 面对大数据,大家首先问到的问题,我们从大数据里面能挖到什么东西,大数据到底有什么用?这个问题大家已经看到了很多展示,这块就不再重复或者追加。

    我这儿希望能够讲一个更加无趣但是基本的问题,如何来进行大规模的大数据运算,如何把它做对。这个原因是?现在数据量如何之大,以后关键的问题会是对数据的正确理解,而这里边的工具到底是什么呢?至少在我们计算机学家目前的经历来看,很多人同意机器学习和它代表的统计学习的算法可能是一个对数据进行有效挖掘的途径。

    我这里就要探讨一下如何把这个工具过渡到大数据的平台上,而这个大字对以前的研究产生什么影响。有必要强调一下这个问题的重要性。  现在有很多对大数据的忽悠,很多文章都会说数据就是金钱,有很多数据的话你就变得很有财富,甚至你变得非常聪明。没有一个很好有效体系对这个数据作为分析,其实数据不等于知识,森林里面倒下一棵树,你没看到的话,它倒没倒下,你就不知道。今天讲这些技术型的问题。

    为什么大数据的机器挖掘比较困难,首先数据量变大,挑战了存储、通讯甚至处理的极限,你要把它分布到一个大的数据中心去。但是其实挑战不仅仅是这一些,当数据变得很大的时候,你的问题变得很复杂,需要聪明大脑和聪明的模型理解。

    大家在大型公司里面有几百个E,从单机里面溢出需要并行处理,想把这步做对并不是简单的问题,这就涉及到第三个问题,当这些软件包工具到底在哪儿?你可能看到刚才讲解者展示IBM的系统,余凯先生会展示百度的系统,大数据的问题都是大型企业他们专属权利,而比较屌丝级别的公司就没有办法处理,是不是这样的东西?我想大数据记忆库普及变得非常好用情况就会改观。

 

社会文史娱乐汽车科技旅游城市文化

新闻 军事 论坛 娱乐

新闻频道
国内国际社会评论文史专题经济新闻图库老照片
军事频道
军事要闻中国军情国际军情军事历史网友原创军事专题军事图库武器装备军事文化
汽车频道
车闻Update漫话车型漫记车映像实拍解析行业动态新车资讯独家评测汽车生活人文之旅
教育频道
留学移民高考中小学拒讲堂师说商道商论
游戏频道
游点意思网络游戏网页游戏单机游戏手机游戏军事游戏游戏产业发号中心游戏美女图说游戏囧游囧事
科技频道
业界互联网行业通信数码手机平板IT硬件相机笔记本家电产品库
旅游频道
X旅行视界目的地 美图发现社区
文化频道
专题非遗沙龙历史艺文博览读书图库书画禅文化
书画频道
资讯收藏展览在线展厅艺术家视觉专题
体育频道
国际足球中国足球NBACBA 综合体育图片汇总专题策划
视频频道
新闻军事中华出品原创娱乐纪录片微电影决胜海陆空
娱乐频道
明星电影电视音乐专题图库论坛
公益频道
老兵出镜老兵动态老兵资料库关爱老兵在行动公益组织公益人物
城市频道
城市聚焦城市设计城市生活城市策划城 市图赏城市加盟城市论坛
社区频道
中华论坛网上谈兵中华拍客社会时政国际风云生活消费休闲旅游美丽女人娱乐八卦经济风云情感世界文学天地
好医生频道
保健养生疾病防治行业资讯名医谈健康 医生专栏食疗跑步
经济频道
国内宏观海外经济产经商贸时尚消费电商眼球儿企业故事专栏评说识局经济