科技
设为书签Ctrl+D将本页面保存为书签,全面了解最新资讯,方便快捷。
业 界/ 互联网/ 行 业/ 通 信/ 数 码/ 手 机/ 平 板/ 笔记本/ 相 机
当前位置:科技 > 快讯 >

IDC、智源最新大模型评测 百度文心大模型双榜夺魁

IDC、智源最新大模型评测 百度文心大模型双榜夺魁
2024-06-18 18:52:57 来源:实况网

6月17日消息,近日,由北京智源研究院打造的FlagEval天秤大模型评测平台实现了全面升级,并公布202406期FlagEval模型评测排行榜单。最新一期榜单显示,百度文心大模型4.0以89.72的综合评分在闭源对话模型中排名第一,超过字节云雀、豆包和阿里通义千问等一众国产大模型,以及OpenAI的最新模型GPT-4o。在中文语境下,以文心大模型为代表的国内头部语言模型的综合表现已超过国际一流水平的表现。

FlagEval大语言模型评测能力榜单官网截图

FlagEval天秤大模型评测平台是智源研究院推出的科学、权威、公正、开放的大模型评测体系,自2023年发布以来,已从主要面向语言模型扩展到视频、语音、多模态模型,实现多领域全覆盖,目前已评测国内外 300 余个开源和商业闭源的语言及多模态大模型。资料显示,FlagEval大语言模型评测体系当前包含6大评测任务,近30个评测数据集,超10万道评测题目。

FlagEval大语言模型评测能力榜单官网截图

从榜单中可以看到,百度文心大模型4.0以89.72的综合评分在闭源对话模型中排名第一,云雀2-Pro、豆包、GPT-4o分别位居二三四位,百川、零一万物、kimi等追随其后。

早在上周国际数据公司IDC发布的《中国大模型市场主流产品评估,2024》中,百度同样位于第一梯队,是唯一一家在7大维度上均为优势厂商的企业。评测显示,百度旗下生成式AI产品文心一言和文心一格在问答理解类、推理类、创作表达类、数学类、代码类的基础能力,toC通用场景类、toB特定行业类的应用能力等7大维度均具备领先优势。其他评测厂商中,阿里获6项优势维度,OpenAI GPT-4和商汤分获5项。

IDC《中国大模型市场主流产品评估,2024》

公开资料显示,2023年10月,百度文心大模型4.0正式发布,实现了基础模型的全面升级,在理解、生成、逻辑和记忆能力上明显提升。截至目前,文心一言累计用户规模已达2亿,日均调用量也达到了2亿。

免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。

关键词:

责任编辑:kj005

文章投诉热线:182 3641 3660  投诉邮箱:7983347 16@qq.com
关键词:

万和引领电热水器行业健康水质新标准,荣获一级健康水质认证

2024-06-14 17:13:19万和引领电热水器行业健康水质新标准,荣获一级健康水质认证

LET探馆│ 打造数智物流的无限可能,中力数智展位全景呈现!

2024-05-31 15:28:13LET探馆│ 打造数智物流的无限可能,中力数智展位全景呈现!

科考研学,北京经开区青少年沉浸式探秘生物多样性奥秘

2024-05-22 18:08:05科考研学,北京经开区青少年沉浸式探秘生物多样性奥秘

黑鲨新品引爆2024 ChinaJoy!游戏玩家专属神器,让你征服对手!

2024-05-22 10:32:46黑鲨新品引爆2024 ChinaJoy!游戏玩家专属神器,让你征服对手!

北京羽嘉科技“一体化反无人机系统”高原实验圆满成功

2024-05-20 15:27:10北京羽嘉科技“一体化反无人机系统”高原实验圆满成功

香港一带一路研究院特聘研究员向凌云:一带一路倡议拯救了世界

2024-05-17 19:35:39香港一带一路研究院特聘研究员向凌云:一带一路倡议拯救了世界

相关新闻

最新资讯