从今年3月开始,国内的AI大模型如雨后春笋般涌现。在前不久落幕的2023世界人工智能大会上,我国大模型已完成首次“选拔组队”。由国家标准委指导的人工智能标准化总体组宣布,我国首个大模型标准化专题组组长由上海人工智能实验室与百度、华为、阿里等企业联合担任。
随着AI技术进入大模型时代,AI产业对于数据、算力的需求急剧膨胀。以ChatGPT为例,根据媒体报道及投资、咨询机构的分析,GPT-3时期的ChatGPT数据量达到了45TB,对于纯文本数据而言,这一数字堪称惊人。与此同时,ChatGPT的算力消耗巨大,参与训练的算力在万张英伟达A100级别,单次训练成本就高达140万美元。此外,ChatGPT在运营过程中,用户的每次互动都会产生一定的算力成本。
在近日举办的“青年思享会”青年先锋论坛活动中,来自中国科学院的专家学者以业界代表,共同探讨在人工智能的背景下,大语言模型的技术路径、商业化落地、产业化发展和生态系统建设,力求“全景式”解锁大模型的真实面貌,“立体式”呈现大模型未来图景。在高端对话环节,云测数据总经理贾宇航强调,作为人工智能的“燃料”,AI数据的质量影响着大模型的最终的结果的好坏。数据的数量越多、质量越高,模型的训练和性能优化就越充分、性能就越好,高质量的AI数据将助力人工智能应用具备更强大的服务能力。
作为人工智能的“燃料”,大量训练数据的训练支撑是AI算法的基础。训练数据越多、越完整、质量越高,模型推断的结论越可靠,因此一个AI模型从诞生到完善,直至应用于产品,再到商业化地落地,都需要大量数据的喂养。
尤其在大模型领域,大模型不是静态的,是不断学习的。因此,数据和算法就形成了“飞轮效应”,好数据越来越多、算法也会越来越先进;算法越有效果,使用者增加,数据反馈也会更多。随着人工智能的应用场景越来越多元化,需要处理多种模态的数据,例如文本、图像、语音等。未来,大模型将更加注重多模态的融合,以处理更加复杂的应用场景。
责任编辑:kj005
文章投诉热线:156 0057 2229 投诉邮箱:29132 36@qq.com