第三讲大容量内存,前面孙元浩他们也有人提到关于内存计算方面,包括用SSD替代硬盘,我们讲的大容量内存这是我们正在下一代机器里面做到,用非易失存储替代部分易失存储,内存你要做得特别大,对整个作用提升还是非常明显,整个内存计算也好,都是依赖高速存储和比较大的内存。你要把内存做得大,你从硬件成本来讲可能承受不了,现在一个两路机器做到上T,可以做10个T,20个T但是非常贵,这就用一部分非易失的存储,用Flash等,容量比原来大很多,大10倍20倍都可以,这依赖相关技术的发展,我们近期把传统Flash绑在一起,但是对于硬件来讲是内存不是硬盘,在大数据里面可能应用存储还是硬盘,但是前端你计算部分可以实现完全没有硬盘,你是用易失存储和非易失存储搭建的机群处理你整个的业务。
最后关注高速互联方面,整个计算里面考虑到性能无外乎CPU的速度,内存的大小,CPU和内存之间的通道加上你IO。你CPU跟存储器的带宽,节点和节点之间的带宽,最终都会影响到你整个系统的性能,在高速互联也有很大发展,首先是PCIe互联,这个已经比较成熟,这是我们下一代用到节点之间用到PCIe的互联,一定范围之内提升整个互联的效率。
下一代基于硅光点,实现两个机柜、三个机柜不同范围之内的接连,我怎么把IO从我板子上面全部剥离出来,在一个柜子里面IO都在一起了,你传统在板子上互联,你达不到一定带宽做不到这一点,而硅光点解决我怎么实现池化,池子和池子之间非常好的高速互联技术,可能在两三年之内就会在新硬件下面使用,它可以实现在板子和板子之间400GB高速度的互联,比现在至少提升20倍以上。
前面讲到我们在硬件方面正在做的一些工作,在软件方面刚才提到了对于我的SQL来讲我希望底下处理平台是多样的,我不同数据需要不同东西处理,但是我不想搞得那么复杂,首先第一个对于混合处理,面向多样性的场景里面,我们在大数据管理平台内置不同的模块,有的来自开源软件,有的来自我们第三方软件,有Hadoop、有Spark、有SQL数据库等等都会搁在同一个系统里面。你东西多了对于写编程的人很头疼,我们会在上面给大家提供一个接口。
这个在优化和增强方面前面其实很多学者都已经讲过了,在自身应用算法,在热点数据均衡感知等等方面做了一些工作,对现有平台的优化会比原来性能提升很多。同时我们也会在这个平台里面集成易用增强的工具方便大家数据导入进来,方便大家对平台管理。
第三个在安全方面,安全是妨碍现在大家愿意把数据共享非常重要的一个原因,很多人觉得我把数据共享出去可能控制不了,所以他不愿意把数据共享出去,这个里面我们建立面向大数据的安全体系,硬件层面不讲了,主要是在大数据的现有几个平台里面,最终能够建立一个基于Hadoop、Spark这样一个多租户平台,让大家真的能够在这个平台实现多个租户使用,而不是说这个平台放在这里面以后谁想看都可以看,把传统操作系统里面用到防务控制策略用到我们大数据平台里。
大家举两个例子,这两个例子从底层平台到上面的应用都是浪潮集团做的。首先第一个是公安的例子,这个刚才说了在公安系统里面数据确实很多,大家每个人很多数据在它那都能找到,再加上摄象头越来越多,数据量对它来讲是很大的问题。一个地级市现在一年给它建几个PB的存储,完全满足不了需要,它原有系统都是孤立的,系统放在那查违章找人一张一张去看,现在查违章可以自动通过照片识别出来,这离我们真正的平安城市智慧城市差距很大的。这里面结合我们浪潮整个云计算的平台,给它建立这样一个平台,首先把它所有业务云化,比如说一个城市级市级公安有几百台服务器,变成一个云计算的系统比它原来规模小很多,然后把它现有所有的数据全部从原有业务系统里面归置到同一个系统里面,我们一期还是以Hadoop为主,后期很多新的业务都在大数据平台上,它的业务还在跑在老的平台,通过业务整合形成很大数据的资源池,除了自己内部数据以外也从外部引入一些数据这个上面做一些创新应用,以前业务主要都是管理为主,管理户籍,出入境,还有旅馆信息就是备案,这里面做了多点联控的系统。
另外在税务里面大数据平台,因为税务原来以前大家报税的信息在税务局不是那么完整,慢慢随着所有信息归拢到税务信息里面,实际上可以从税务信息分析出很多数据来,每一笔交易最后都可以在税务系统查得到的,而且他们现在把各省的数据集中到全国,通过税务信息其实可以分析出很多新的结果。
这个就是整个综合治税数据平台,从整合到形成数据仓库,最后查到你经营情况跟你报税情况一直不一致,我们相关业务部门其实他们会去除了用税务数据以外,在网上找到一些相关的数据,比如说淘宝上的记录,可能在上面的交易数据和报给这边数据就会是不一样的,这里面就会找到一些相关的线索。同时这些数据也是通过这个平台给一些第三方机构来使用,比如说银行可以用你纳税的记录为它的征信系统进行服务。谢谢大家!