百度大数据首席架构师林仕鼎:新计算时代(3)

2013-12-06 15:53:12    中华网科技  参与评论()条

    第三个问题,我们今天所说的大数据不仅是规模大,更重要是其他的特点。第一个我们需要有大规模的数据管理和处理能力。第二个特性是多样的,数据从多个来源来的,它的形态不一样的,我们需要有多模态的管理能力,我们需要管理视频,管理视频的特征,还有图片语音的特征,而且能够对它特征进行更好的分析查询的服务。我们需要具有关联分析能力,数据从多个来源来的时候,一定把多个来源的数据放再一块分析才可以发掘你要的东西出来。另外一个数据是不断的变化的,我们除了具有大规模数据处理能力之外还需要有智能的数据挖掘算法。

    多媒体的分析、NOP、广告这些,中间是数据处理和管理包括大规模数据仓库和平台,后面是技术架构,软件架构包,实时的数据计算以及硬件的基础设施。这个基础之上我们可以把一个完整的大数据系统构建出来,比如说对于大规模的数据通过分布式的存储和计算引入进来。我们初步处理以后可以灌到机器学习算法里面去,通过引擎把消费者连接起来。让人标注可以帮助到我们的学习,现在所谓众包就是这个概念,有这样的系统之后我们可以支持评估、推荐、智能交通这样一些APP。对于实时的存储和计算我们除了做那些功能,我们还需要把完整的体系构建出来。我们需要有分布式的结构,你要做实时的分析数据一定要放在内存里面,你把数据放在内存应该在上面直接构建分布式数据处理。

    我们发现说我们做了这么久软件上的架构还是不够的,很多问题还是解决不了,比如说我们做一个迭代,大家知道它是PSP的模型,所有的节点都需要你装满数据,这个基本上系统的瓶颈都在最后的交互数据上。这些东西除了我们软件做很多模型,更重要我们需要有新的硬件体系机构支持它。包括Power-efficent,还有以数据的移动和处理为中心,新的存储、通信、计算架构,异构化,同时还引入ARM、GPU、FPGA等技术。

    我们现在做新的CRAY,这个CRAY机器里面有很多线。今天有了更多的数据以后我们还是要回到以数据交互为中心,而且这个需要跟其它服务共享基础设施,才可能成为真正的大规模系统,提高内聚性、配件池、标准化交付,满足应用层的差异性需求。以软件接口的方式隐藏异构性。现在我们做的事情就是新的软硬件一体的集成方案,包括应用驱动、软件定义、实现全系统的集成。这里想给硬件公司提几个建议:一个是硬件应该尽量简化。赢家呢可控制性、剥离控制逻辑应放在更重要的位置,硬件应尽可能多地收集数据,包括历史统计、当前状态,并通过数据分析去做更多的优化和智能。谢谢大家!

(责任编辑:CT009)
 
网友发言 已有人参与 条评论
所有评论仅代表网友意见。提交评论

社会文史娱乐汽车科技旅游城市文化

新闻 军事 论坛 娱乐

新闻频道
国内国际社会评论文史专题经济新闻图库老照片
军事频道
军事要闻中国军情国际军情军事历史网友原创军事专题军事图库武器装备军事文化
汽车频道
车闻Update漫话车型漫记车映像实拍解析行业动态新车资讯独家评测汽车生活人文之旅
教育频道
留学移民高考中小学拒讲堂师说商道商论
游戏频道
游点意思网络游戏网页游戏单机游戏手机游戏军事游戏游戏产业发号中心游戏美女图说游戏囧游囧事
科技频道
业界互联网行业通信数码手机平板IT硬件相机笔记本家电产品库
旅游频道
X旅行视界目的地 美图发现社区
文化频道
专题非遗沙龙历史艺文博览读书图库书画禅文化
书画频道
资讯收藏展览在线展厅艺术家视觉专题
体育频道
国际足球中国足球NBACBA 综合体育图片汇总专题策划
视频频道
新闻军事中华出品原创娱乐纪录片微电影决胜海陆空
娱乐频道
明星电影电视音乐专题图库论坛
公益频道
老兵出镜老兵动态老兵资料库关爱老兵在行动公益组织公益人物
城市频道
城市聚焦城市设计城市生活城市策划城 市图赏城市加盟城市论坛
社区频道
中华论坛网上谈兵中华拍客社会时政国际风云生活消费休闲旅游美丽女人娱乐八卦经济风云情感世界文学天地
好医生频道
保健养生疾病防治行业资讯名医谈健康 医生专栏食疗跑步
经济频道
国内宏观海外经济产经商贸时尚消费电商眼球儿企业故事专栏评说识局经济