UC Berkeley计算机教授Ion Stoica:使用伯克利数据分析堆栈分析大数据(1)

2013-12-06 15:49:48    中华网科技  参与评论()条

    中国最具影响、规模最大的大数据领域盛会-- 2013中国大数据技术大会(Big Data Technology Conference,BDTC)于2013年12月5-6日在北京举行。数十家领军企业,近七十场主题演讲,不仅覆盖Hadoop生态系统与流式计算,实时计算与NoSQL、NewSQL等技术方向,还对互联网、金融、电信、交通、医疗等创新案例,大数据资源的法律法规、大数据商业利用的政策管制等有深入讨论。

    BDTC 2013中国大数据技术大会首日全体大会上,UC Berkeley计算机教授,AMPLab共同创始人,Spark、Mesos核心设计者Ion Stoica发表了题为《使用伯克利数据分析堆栈分析大数据》的演讲。Ion谈到了BDAS的软件框架与Hadoop软件堆栈的关系:它们是互补的,Mesos+Tachyon相当于YARN+HDFS,Spark相当于MapReduce,双方可以灵活的组合。同时,对比原有组合,BDAS的性能要快得多。Ion Stoica认为堆栈必须解决大数据带来的挑战,同时需要统一化批量化处理,在同一个系统中进行使用,使整个过程更便捷。

    以下为演讲实录:

    Ion Stoica: 非常感谢主持人的介绍,再一次想感谢组委会的邀请,我非常高兴来到这里,我觉得这个会议举办的非常出色,祝贺我们的组委会。接下来的时间我简单给大家介绍一下伯克利数据分析堆栈(BDAS),这个是我们过去几年开发出来的。Hadoop能够让我们进行数据收集的时候,变得更加简单、成本更加低。如今我们收集到很多数据,但是我们所收集到的数据在快速增长。实际上IDC最近出台了一个相关的报告,他们说我们需要收集的数据增长的速度要比我们摩尔定律所描述的还高,也就是数据增速非常快,这个增长速度比摩尔速度增长还要快。还有很多相关的公司它们要收集相关的数据进行数据的挖掘,因为数据能够给它们带来很多的价值。但是这种数据分析的想法,与实践还存在很大的距离,一些大公司,例如Google、Facebook,它们有大量的数据,这个数据量非常高的,同时有很多相关企业进行数据收集,但是它们对于数据收集后价值挖掘并不是那么多。收集到之后对于价值的挖掘是非常困难的。首先我们有海量的数据,但数据非常乱,而且我们想问的问题是非常复杂的。过去几年我们有相关的工具,但是工具尚处于初期的阶段。我们现在解决问题就需要研发出新的工具,这个工具会更快更复杂,但使用起来非常简单。

    这里我简单介绍一下数据挖掘的意义。如果我们将数据变成价值,那么我们就能从数据中获得更多内容,知道为什么用户参与度降低了,为什么系统运行变慢了,也知道为什么会遭到那么多攻击,还能利用这些数据进行相关的政策制定。比如开发新产品,或者针对患者病情进行有效的治疗。你在所有这些方面要做出新的决定,做出新的决定我们必须获得相关数据,并且从这个数据进行挖掘获取价值。

    为挖掘数据价值,我们到底需要做什么?

    首先,我们必须有能力提供交互式的查询。我们都希望做出快速的决策,所以我们需要对数据流进行相关查询。同时新的数据总会强于历史数据,如果整个系统或者整个网站特别慢且存在不能修复的问题的话,那就会有问题了。

    其次,这种交互式查询可能涉及到很多错误的决策,这种情况下我们也需要进行相关的分析。

    另外数据的流程或者数据的处理过程非常复杂,因此我们想实现1个堆栈,以满足不同处理方式的需求--批量及交互式处理。尽管复杂,未来我们也可以实现这点,为什么?举个例子:比如说今天我们要建立起一个全新的堆栈,我们到底该怎么做?可能我们有一个Hadoop的集群,对数据进行存储后,使用交互式查询对历史的数据进行处理。有时候我们的问题查询起来比较简单,有时候我们对于数据流需要进行实时的分析的,这时候,可以利用相关的历史性的数据或者数据流回答我们查询的一些相关的问题。如果想这种查询更加快速,我们可以用Ad-Hoc,我们用户有这样的需求,他们想要进行快速查询,如果他们想建立实时业务堆栈,该怎么做?我们可以使用AMP Lab进行实时的分析。

    另外一个问题很多系统用的是公用的地址,一致性就很难得到实现。比如说我有一个很大的在线服务,想知道昨天晚上九点有多少用户使用,我需要很快得到这个答案,并且这个答案就必须保持昨天的数据和今天的数据是一样的。当然这里你要知道它有两个不同编程模型、计算模型,但是要得到同样的结果这并不容易,维护层面也并不容易,也就是一个系统需要更新的话,另外一个系统也需要更新。同样数据共享也很困难和缓慢,比如说这里要想在流数据当中查询的话就非常困难。

    接下来举另外一个例子:你要做出及时的决策你需要什么?你需要检测它的模式,检测得得越快越好,接着你就检测流量是否有增加。然后我们需要问一些问题了:昨天同一个时间我们有一个流量值,比如说早晨八点或者是九点查看邮件的情况。如果想要很快做出决策,就要实现查看其流量是否出现任何异常吗,也就是如果想做查询更快的话,就必须有一个特殊选取的过程。怎么做?数据进入之后用批次处理的方式进行计算,然后用复杂的算法进行检测。

 
网友发言 已有人参与 条评论
所有评论仅代表网友意见。提交评论

社会文史娱乐汽车科技旅游城市文化

新闻 军事 论坛 娱乐

新闻频道
国内国际社会评论文史专题经济新闻图库老照片
军事频道
军事要闻中国军情国际军情军事历史网友原创军事专题军事图库武器装备军事文化
汽车频道
车闻Update漫话车型漫记车映像实拍解析行业动态新车资讯独家评测汽车生活人文之旅
教育频道
留学移民高考中小学拒讲堂师说商道商论
游戏频道
游点意思网络游戏网页游戏单机游戏手机游戏军事游戏游戏产业发号中心游戏美女图说游戏囧游囧事
科技频道
业界互联网行业通信数码手机平板IT硬件相机笔记本家电产品库
旅游频道
X旅行视界目的地 美图发现社区
文化频道
专题非遗沙龙历史艺文博览读书图库书画禅文化
书画频道
资讯收藏展览在线展厅艺术家视觉专题
体育频道
国际足球中国足球NBACBA 综合体育图片汇总专题策划
视频频道
新闻军事中华出品原创娱乐纪录片微电影决胜海陆空
娱乐频道
明星电影电视音乐专题图库论坛
公益频道
老兵出镜老兵动态老兵资料库关爱老兵在行动公益组织公益人物
城市频道
城市聚焦城市设计城市生活城市策划城 市图赏城市加盟城市论坛
社区频道
中华论坛网上谈兵中华拍客社会时政国际风云生活消费休闲旅游美丽女人娱乐八卦经济风云情感世界文学天地
好医生频道
保健养生疾病防治行业资讯名医谈健康 医生专栏食疗跑步
经济频道
国内宏观海外经济产经商贸时尚消费电商眼球儿企业故事专栏评说识局经济