数据世界瞬息万变,给现有IT基础设施带来了巨大的挑战,实时产生的海量非结构和半结构化数据让原有的数据库架构捉襟见肘。这些数据类型各异,既包括人们在社交网络上的各种情绪表达,也有地理位置信息,传感器产生的机器数据,以及自动生成的大量日志记录等。
如果能善用这些数据,企业用户就可以得到以往难以企及的关键业务洞察。例如,台湾著名茶点连锁餐厅“黑丸”将来自零售网点的销售数据,与人们在社交网络上对其表达的情绪反馈,以及所在地的天气信息等数据相结合,发现了能刺激客户消费的原因。通过将传统数据源与全新的“大数据”相融合,他们发现,其实气温高低并不会影响人们去选择冷饮或者热饮,现在他们可以真正从消费者的需求出发对销售策略做出调整。
类似的应用场景引发了对Hadoop等大数据产品的需求热潮。作为开源平台的Hadoop能够在相对廉价的消费级硬件上,实现海量数据的存储和处理。Hadoop具有如此强大功能的部分原因在于,其生态系统通过通用的计算模式实现了相同的数据存储。这种存储是一种分布式文件系统,其规模能够从几个节点扩展至数千个节点,并且全都针对非结构化数据。通过Hadoop与传统数据结构相结合,用户能从数据中得到以往难以想象的深入洞察。
但是,在多节点上创建Hadoop集群并非易事,需要有合适的硬件、周密的容量规划,以及对Hadoop进行设置和部署的专业知识。此外,Hadoop生态系统的快节奏创新也要求IT管理员不断升级Hadoop软件或为操作系统打补丁,因此后续的不间断维护也将成为一大挑战。而公有云上的Hadoop服务能帮助用户克服这些挑战。
由世纪互联运营的Windows Azure宣布正式提供HDInsight服务的公众预览,从而成为中国第一个面向公众的Hadoop云服务。作为在Windows Azure上运行的Hadoop服务,HDInsight为启动和运行Hadoop提供了最快捷的方式。用户无需任何专用硬件或专业知识,只要点击几下鼠标,就可以在几分钟内建立一个Hadoop集群。用户还可以根据需要对集群进行扩展,几分钟就能将集群从10个节点扩展到1000个节点。此外,用户还可以在HDInsight上充分利用Apache生态系统中的众多开源项目,包括HBase NoSQL数据库、类SQL查询处理、机器学习等。其中Hive类SQL查询处理集合了微软SQL Server技术的Stinger项目,使Hive的查询性能提高100倍。通过Excel中的Power Query插件,用户还可以从HDInsight中得到更加直观的数据洞察。