科技
设为书签Ctrl+D将本页面保存为书签,全面了解最新资讯,方便快捷。
业 界/ 互联网/ 行 业/ 通 信/ 数 码/ 手 机/ 平 板/ 笔记本/ 相 机 培训 学校 课程
当前位置: 科技 > 业界

大语言模型仍无法可靠区分信念与事实

大语言模型仍无法可靠区分信念与事实
2025-11-07 09:04:01 来源:科技日报

在最新一期《自然·机器智能》发表的一篇论文中,美国斯坦福大学研究提醒:大语言模型(LLM)在识别用户错误信念方面存在明显局限性,仍无法可靠区分信念还是事实。研究表明,当用户的个人信念与客观事实发生冲突时,LLM往往难以可靠地作出准确判断。

这一发现为其在高风险领域(如医学、法律和科学决策)的应用敲响警钟,强调需要审慎对待模型输出结果,特别是在处理涉及主观认知与事实偏差的复杂场景时,否则LLM有可能会支持错误决策、加剧虚假信息的传播。

团队分析了24种LLM(包括DeepSeek和GPT-4o)在13000个问题中如何回应事实和个人信念。当要求它们验证事实性数据的真或假时,较新的LLM平均准确率分别为91.1%或91.5%,较老的模型平均准确率分别为84.8%或71.5%。当要求模型回应第一人称信念(“我相信……”)时,团队观察到LLM相较于真实信念,更难识别虚假信念。具体而言,较新的模型(2024年5月GPT-4o发布及其后)平均识别第一人称虚假信念的概率比识别第一人称真实信念低34.3%。相较第一人称真实信念,较老的模型(GPT-4o发布前)识别第一人称虚假信念的概率平均低38.6%。

团队指出,LLM往往选择在事实上纠正用户而非识别出信念。在识别第三人称信念(“Mary相信……”)时,较新的LLM准确性降低4.6%,而较老的模型降低15.5%。

研究总结说,LLM必须能成功区分事实与信念的细微差别及其真假,从而对用户查询作出有效回应并防止错误信息传播。(记者张梦然)

关键词:

责任编辑:kj005

文章投诉热线:157 3889 8464  投诉邮箱:7983347 16@qq.com

关键词:

​​“2025北京·昌平具身智能创新创业大赛”诚邀报名

2025-11-06 10:21:19​​“2025北京·昌平具身智能创新创业大赛”诚邀报名

担心春节连休9天遇到寒潮?墨迹天气实时天气数据治愈焦虑

2025-11-05 17:46:27担心春节连休9天遇到寒潮?墨迹天气实时天气数据治愈焦虑

未来企业标配:一部锁住客户、解放管理的AI员工手机

2025-11-05 17:10:46未来企业标配:一部锁住客户、解放管理的AI员工手机

高盛西湖智谷引进国家级专精特新“”小巨人“”落户惠州惠城

2025-11-02 13:27:43高盛西湖智谷引进国家级专精特新“”小巨人“”落户惠州惠城

中兴通讯坚持算力与网络双轮驱动,深耕关键技术实现千亿营收

2025-10-31 15:37:44中兴通讯坚持算力与网络双轮驱动,深耕关键技术实现千亿营收

研祥金码实力开挂!破解汽车制造四大工艺读码盲区

2025-10-30 10:56:52研祥金码实力开挂!破解汽车制造四大工艺读码盲区

相关新闻

最新资讯