数据平台是支撑数字经济发展的核心底座和关键引擎。近年来,随着数字经济成为当前和未来世界经济发展的重要动力,政府部门和企业纷纷加快数据基础设施的建设,大数据正在向更多的行业和应用场景持续拓展。大数据在金融、通信、政务、医疗等行业得到广泛实践,并在数据治理、数据模型分析、数据资产管理、数据追溯等场景得到深度应用,这要求数据平台在数据处理与计算、数据挖掘与学习方面具备更强的实时性、易用性、敏捷性和智能化能力,同时也对数据的安全合规性提出了更高的要求。
数据平台如何应对这些复杂多变的情况?柏睿数据联合创始人、全球副总裁、首席技术官马珺表示,柏睿数据专家团队拥有国际领先的智能数据算力技术,完成了从解析层、优化层、执行层到存储层等全面自主可控的数据库产品体系,基于完全自主研发的数据智能分析处理平台RapidsDB,以数据联邦革新数据接口,创新性应用智能技术,让数据平台更高效、更智慧、更安全地“思考”。
数据联邦——智慧集成构筑数据“群”岛
大数据时代,当进行数据查询时,不同的数据源,不同的数据技术、大数据技术供应商和数据处理模式,以及数据被存储在不同的位置等数据多样性会导致复杂性。因此,柏睿数据设想应该有一种虚拟数据源,来处理数据并迎接多源异构数据所带来的挑战,柏睿数据针对这一虚拟数据源给出的答案是数据联邦,即对数据接口进行革新,实现多源异构数据的集成融合。
Rapids Federation在数据库平台设置了一个叫做联邦连接器的接口层,使之能与各种不同类型的数据库和数据源相连接,包括ORACLE、Postgres、GREENPLUM连接器、流数据连接器、JDBC连接器、HDFS Hive连接器等,通过联邦连接器运行查询,从而有效解决多源异构数据在不交换数据情况下的协作问题,突破数据共享瓶颈,实现多方数据安全高效流通。
同时,Rapids Federation可实现自适应查询下推,数据处理更加智能化、高效化。联邦连接器能够将部分数据的查询向下推送到数据源,以让能力更适配的数据源直接处理这些数据;并能够通过识别多种不同的数据结构来读取不同类型的数据。这也是Rapids Federation的优势特性之一。
智能技术——智能化释放数据服务价值
为进一步提升数据库系统的性能,我们还能如何优化查询计划来更智能地处理数据?解答这一问题,首先需要了解传统数据库究竟有什么局限。
尽管每个数据库系统,都有一套自己的优化方式,但是对于传统数据库而言,往往面临一些挑战。传统的数据库通常基于关系代数、系统配置、参数等信息来估测查询的最佳执行计划,但是系统列出的查询计划往往会非常繁杂,且查询计划相似;系统通常采用基于规则和启发式算法的方法评估查询计划成本,以选出性价比最优的查询计划,但这实际上是一个NP难题;此外如果出现临时性宕机等网络问题,传统数据库则不能继续执行操作,这些情况将会导致数据处理效率低、效果不佳。
虽然对于分布式数据库来说,这些问题依然需要面对,但是RapidsDB能够充分胜任,根据查询运行时收集的统计信息智能优化和调整查询计划,极大地提升了查询执行的高效性、易用性、灵活性和稳定性。
一、查询更高效:通过JIT编译技术优化查询计划
借助JVM(JAVA虚拟机)强大的编译功能,RapidsDB将数据结构图转化成动态程序,将SQL查询转换成JAVA字节码程序,再重新加载程序;当JVM发现某个程序被频繁运行时(或一个多次执行的循环体),就会对该程序本身进行编译,将JAVA字节码转换成机器码。这就是JIT编译技术的强大之处,不仅能够避免重复编译查询,而且运行更高效。
二、结果更精准:基于人工智能和机器学习算法的动态查询优化技术
传统数据库已然面临NP难题,对于要考量CPU、I/O、网络等诸多要素的内存分布式数据库来说,如何更好地实现优化查询计划,情况则更为复杂。RapidsDB给出了一个智能解决方案,即基于人工智能和机器学习算法自主研发出的动态查询优化技术。
查询优化的核心问题之一在于连接排序,尤其是面对多连接查询和大型连接查询场景时。假设一个查询条件要从人员表中选择身份证号和地址数据,看上去信用评分和教育程度两个条件的先后顺序是等价的,但在查询的实际运行过程中会发现,这两个条件执行的先后顺序对不同年龄段的人群来说有很大差别,原始查询的工作条件却检测不到这一点。但RapidsDB数据库引擎能够通过动态查询优化技术,根据数据分布特征,预先有效捕获到不同列/表之间的相关性,并自动插入条件语句来完成优化查询计划,从而得到更精确的查询结果;同时也能对查询计划成本进行预先评估,在查询计划的结果准确性一致的情况下,选择最佳的查询计划。
目前,柏睿数据的动态查询优化技术已经获得了美国专利,这也表明动态查询优化技术是一项具有创新意义的先进水平的技术。
三、运行更稳定:动态查询优化技术持续自主调整查询计划
在遇到突发的网络宕机情况时,分布式数据库上的查询依然能够继续运行,因此RapidsDB动态查询优化技术可以完美的应对这一复杂情况。在运行过程中,RapidsDB能够自动检测到报表的故障问题,并自主动态调整查询计划,以确保系统正常运行。
历经在智能数据算力技术领域数十年的“卡脖子”核心技术实践和丰富经验积累,目前,柏睿数据自主研发的数据智能分析处理平台RapidsDB已在金融、通信、政务、医疗、能源、工业互联网等行业实现了广泛而深入的业务场景落地。未来将携手政府部门和千行百业的企业持续开展数智化转型,助力其最大程度发挥业务数据价值,赋能其业务场景精细化运营,实现降本增效、创新应用和绿色低碳发展。
责任编辑:kj005
文章投诉热线:156 0057 2229 投诉邮箱:29132 36@qq.com