在ChatGPT的带动下,大模型概念越来越火热,仅国内就有包括百度、阿里、腾讯、京东、科大讯飞在内的多家互联网、AI公司陆续宣布对大模型展开探索。不过,也有另外一种声音表示,虽然大模型在推进产业智能化升级中已表现出巨大潜力,但目前距离大规模产业应用依然存在诸多未知。
回归大模型本身,其主要依赖算法、算力和数据的综合支撑,这三大要素缺一不可,特别是数据质量的高低,往往决定AI算法模型的性能上限。大模型训练一般需要经过预训练、强化学习、应用三个阶段,期间需要对数据进行获取、清洗、训练、调优、对齐等数据管理。因此,大规模原始数据的获取,高质量的数据清洗,对模型训练至关重要。
湖仓一体作为一种新型的数据架构,为解决数据高质量问题提供了可能性。那么,大模型为什么需要湖仓一体架构的的数据平台来支撑呢?
从参数规模上看,AI大模型先后经历了预训练模型、大规模预训练模型、超大规模预训练模型三个阶段,参数量实现了从亿级到万亿级的突破,数据量极大,比如GPT-1是上亿规模的参数量,数据集就使用了1万本书的BookCorpus,25亿单词量,GPT-2参数量达到了15亿规模,GPT-3模型数据量更是超过百亿。如此巨大规模的数据量,必然面临数据质量参差不齐、有效数据难以抓取的问题。
从数据类型上来看,除了语言之外,图像、视频、音频、语义文本等多模态数据的出现,对数据采集、数据处理的技术也提出了更高的要求。
然而,大多数企业采用的数据仓库无法实现存算分离,数据湖的计算能力又明显不足,而湖仓一体结合了数据湖和数据仓库优势,存储和计算分别使用单独的群集,这样系统能够扩展到更多并发用户和更大数据量,且支持底层多种数据模型并存,支持异构数据的实时查询和分析,流数据分析、机器学习等,可以有效提升数据管理水平。
目前,国内外各大厂商都在研发“湖仓一体”架构,如亚马逊云科技的Redshift Spectrum、微软的Azure Data Lake、Databricks、华为云的FusionInsight、滴普科技的FastData等,赋能到各行业数据平台建设,实现海量、高维多源多模态的实时数据处理。。
滴普科技实时湖仓平台FastData,采用存算分离架构,提供多种数据类型的统一存储能力,具备数据入湖、实时计算、即席分析、湖仓管理、统一元数据管理等核心功能,支持PB级多模数据存储与处理,并基于DLink Mesh架构扩展支持分布式多级数据湖,具备统一的多租户权限和安全管控机制,支持流批一体数据处理、数据分析、数据科学等多工作负载。
特别是对于大模型存在的多个数据源集成带来的数据错误、重复内容,实时湖仓平台FastData可以覆盖数据资产化全流程进行质量监管和检验,通过数据治理体系建设,帮助企业沉淀标准的专业服务和数据资产分析场景库,保证数据口径的一致性,提升数据资产的完整性、准确性、一致性。
作为 “Data+AI”数据智能领域的领先实践者,滴普科技十分重视数据智能技术的创新价值,积极在AI大模型领域进行产品创新,逐渐构建了数据基础设施+数据治理的产品服务模式,为大模型产业提供数据底层基础设施建设。
在此基础上,滴普科技在基础产业与垂直领域进行数据智能模型创新,探索产业大模型体系。滴普科技成立了专门的FastAGI产品线,通过将开源模型本地化,以及基于行业知识形成行业领域模型,赋能到客户的业务领域中。
当前,大模型主要分为通用模型、垂直模型,如垂直的AI大模型就是针对某个特定领域或者场景,利用行业的数据和知识,提供更精准和高效的解决方案。未来,滴普科技也将继续发挥湖仓一体数据智能技术优势支持大模型发展,并提供业务垂直领域的数据智能模型创新服务,以模型+算力驱动企业数据智能决策。
责任编辑:kj005
文章投诉热线:156 0057 2229 投诉邮箱:29132 36@qq.com