当前位置:科技 > 业界 > 业界动态 > 业界动态国内新闻 > 正文

卡耐基梅隆大学教授邢波:Petuum,大数据分布式机器学习平台(4)

2014-12-13 20:54:41  CSDN    参与评论()人

    当模型被并行的时候,它中间实际是相关的,所以你不在过程中进行协调,最后结果就会出错,所以这种情况下你会发现,你对数据并行对模型并行做不同的通讯和系统设计,还有其它一些东西我就不多讨论。

    我做一个总结,机器学习算法有它的独特性,基于优化的算法,而且用(递归)来实现,有一些容错的能力有一些动态结构,然后它还有一些非同质的,有一些参数会回归很快,有些收敛很快,你对收敛快做完停下来把资源另外使用,这都是要求编程员或者程序对机器学习算法有一定的了解,这样有一定的机会来进行加速。而这种东西在传统程序里面不存在,通常对于指令级的一个正确,造成这样很多技术上更多难的学习,但在机器学习不见得很有必要。

    看看已知的系统怎样解决这个挑战,大家都知道Spark是Hadoop新的版本,后面迭代非常好。RDD保持一个过程数,所以在运算中如果出现问题很快找出问题所在,这都是RDD和Spark非常优异的特点,特别在数据库的处理或者非迭代的数据处理里面是非常有效的。

    做模型并行要求全局性的一个协调,这样就会产生一些很大的代价。Graphlab,用图上的边表示学习的重要性,你写成一个节点程序自动做一个非同步的通讯,  仍然保持这个程序最后能够正确收敛。这也是一个很好的思路,在很多情况下都产生了比较好的结果,甚至比Spark还要好,它也有一些问题,数据量变得非常大,数据量变得非常沉重,效率不是很高。

    我们组正在开发这么一个平台,叫Petuum包含数据和程序并行两套功能,也对机器学习的特点做了比较好的一个研究,对他们做了一些针对性的使用,所以我们系统对机器学习内部特点有比较针对性,他们有一些非常有意思的特性和功能,这块我可以总结一下。

    大致结构是这样,包含一个参数服务器,大家都知道参数服务器,给你提供很好编程的一个虚拟并行内存,大家在编程的时候不用对每个机器进行单独通讯,我们还有一个叫做调度器,它是能够对模型进行有效的分割,甚至是动态分割,然后做一个分布化。运行原理就跟机器学习的工程师写机器学习的算法基本一个思路,用迭代加上对公式的,跟传统的是不一样的。

    这个参数服务器有这样一个编程界面,你在写内存读取不需要对每一个机器做一个特殊的指令,使用了比较巧妙的所谓半同步的协调机制,这样可以显著降低使用在通讯上的时间,而加强在计算上的时间,所以你可以看到随着我们半同步参数的调整,我们这个通讯时间会显著下降,降到了以至于比计算时间还要少,这样使计算机的资源得到最大量的利用。

    在调度器方面我们也爱基于机器学习考量的设计,调度机自动发现机器学习模型里面的一些特点,找出哪些参数是相关,哪些参数是不相关,然后对它们做相应分布,他们在分布运行的时候并不违反正确性、约束性,这样也会造成更快的收敛。

    为什么这样做产生这样好的结果?这里边有一些比较深层的技术和科学原理,时间允许,我可以再讲几分钟。并行系统是没有理想的,我们当有好几台机器,显然不能希望它同步运算同步通讯,即使不同的机器放在机房里面温度不一样,行为都是不一样的,最后结果就是我们看到这样的情形。我们怎么来协调这样的一个缺陷呢?通常对编程高手,当然这不是问题,他可以对每一台机器做深层操作,可以避开所有的陷阱,对于普通程序员和低端用户对非常昂贵儿童耗时开发过程并不见得能负担得起,我们需要还是非常简单的界面,让界面本身做了通讯上的决定,这个决定在数据并行过程中可以被总结成一个所谓的叫做协调或者是同步协议。这个同步协议我们大家都知道,这一端Spark或者Hadoop协议完全协议,然后往下走,这个东西在数学上证明是有对的,但是造成有效性的损失。

 

社会文史娱乐汽车科技旅游城市文化

新闻 军事 论坛 娱乐

新闻频道
国内国际社会评论文史专题经济新闻图库老照片
军事频道
军事要闻中国军情国际军情军事历史网友原创军事专题军事图库武器装备军事文化
汽车频道
车闻Update漫话车型漫记车映像实拍解析行业动态新车资讯独家评测汽车生活人文之旅
教育频道
留学移民高考中小学拒讲堂师说商道商论
游戏频道
游点意思网络游戏网页游戏单机游戏手机游戏军事游戏游戏产业发号中心游戏美女图说游戏囧游囧事
科技频道
业界互联网行业通信数码手机平板IT硬件相机笔记本家电产品库
旅游频道
X旅行视界目的地 美图发现社区
文化频道
专题非遗沙龙历史艺文博览读书图库书画禅文化
书画频道
资讯收藏展览在线展厅艺术家视觉专题
体育频道
国际足球中国足球NBACBA 综合体育图片汇总专题策划
视频频道
新闻军事中华出品原创娱乐纪录片微电影决胜海陆空
娱乐频道
明星电影电视音乐专题图库论坛
公益频道
老兵出镜老兵动态老兵资料库关爱老兵在行动公益组织公益人物
城市频道
城市聚焦城市设计城市生活城市策划城 市图赏城市加盟城市论坛
社区频道
中华论坛网上谈兵中华拍客社会时政国际风云生活消费休闲旅游美丽女人娱乐八卦经济风云情感世界文学天地
好医生频道
保健养生疾病防治行业资讯名医谈健康 医生专栏食疗跑步
经济频道
国内宏观海外经济产经商贸时尚消费电商眼球儿企业故事专栏评说识局经济