随着各行业对数据价值认知的不断提高,大数据成为继云计算之后最火热的词汇。为应对各行业海量数据处理需求,大数据一体机应运而生。作为业界领先的云计算解决方案及服务提供商,浪潮在近日发布了自主研发的云海大数据一体机系统软件,创新优化算法的大数据处理平台--浪潮云谷CloudCanyon V1.0。小编在同浪潮大数据一体机产品经理的交流中,对这款产品有了更深入的了解。下面,就为大家带来最新鲜的浪潮云谷Cloud Canyon V1.0版本的解析资料。
浪潮云谷CloudCanyon V1.0是面向行业海量数据整合、分析、挖掘的大数据平台,是浪潮大数据一体机的灵魂,是浪潮行业大数据业务的核心发动机。最新发布的浪潮云谷CloudCanyon V1.0版本采用创新算法,涵盖数据存储、数据处理等全环节。Canyon本义大峡谷,CloudCanyon是云中大峡谷的意思,浪潮云谷CloudCanyon寓意浪潮提供的这款系统软件是处理云计算和大数据的大峡谷,任海量数据排山倒海,汹涌而至,尽收云谷,如清风拂云泰然处之。
浪潮云谷CloudCanyon V1.0是能够提供企业级的、兼具高可靠性和稳定性的Hadoop平台,其组件包括HDFS分布式文件存储系统、MapReduce编程框架、ZooKeeper分布式协同工作系统以及Hive数据仓库,Pig数据流分析平台和HBase分布式数据库、Sqoop数据转移工具和分布式监控工具。
创新算法实现性能提升10倍以上
浪潮云谷CloudCanyon V1.0的核心框架在原有Hadoop架构上开发,使用了浪潮自主研发的算法,包括自适应调度算法、低消耗锁算法、热点数据感知的负载均衡算法。经过实际测试,这些算法从整体上大大提升了大规模集群的性能,在执行诸如1TB数据排序、100亿条记录查询、大小表联合查询、1TB单词统计等任务时,比原有方案的性能提升至少十倍。
创新算法同时也解决了原有架构的扩展瓶颈,兼顾了数据驱动型的纵向和横向扩展:既支持单节点计算能力的扩展(即更高性能的CPU、更大容量的内存),也能将整个集群扩展至数千节点。此外,还支持动态改变数据结构,在不影响业务的情况下进行表结构变化。
与现有系统的无缝集成
随着大数据技术的不断发展,新的应用组件不断出现,封闭的平台已经不能满足日益增长的用户需求。用户需要根据特定的需求编写满足应用的大数据平台程序,但不同的用户对编程使用的语言是不同的,有的编程人员对Java比较热衷,有的编程人员对脚本语言等有强烈的需求。为了更好的在平台开发特定需求的应用程序,浪潮云谷CloudCanyon V1.0提供了开发总线,集成了Java、Python、Shell、C/C++等通用的编程接口,能够提供强大的、多功能开发接口,满足不同用户的编程需求,为应用程序的开发带来了极大的便捷性。
浪潮云谷CloudCanyon V1.0中的HDFS 支持Posix接口,可以像本地文件系统一样挂载使用,用户的应用程序不需要进行任何修改就可以无缝的迁移到CloudCanyon V1.0上,大大降低了使用的难度和门槛。