科技
设为书签Ctrl+D将本页面保存为书签,全面了解最新资讯,方便快捷。
业 界/ 互联网/ 行 业/ 通 信/ 数 码/ 手 机/ 平 板/ 笔记本/ 相 机 培训 学校 课程
当前位置: 科技 > 业界

大语言模型会在蒸馏中“夹带”自己的偏好

大语言模型会在蒸馏中“夹带”自己的偏好
2026-04-16 09:49:55 来源:科技日报

《自然》15日发表的一项研究显示,大语言模型(LLM)可能会将某些自己的偏好“夹带私货”传授给其他算法,即使在训练数据中清除原始特征后,这些本不需要的特征,仍可能持续存在。在一个案例中,一个模型似乎通过数据中的隐含信号,将自己对猫头鹰的偏好传递给了其他模型。该研究结果表明,在开发LLM时,需要进行更彻底的安全检查。

  LLM可通过一种名为“蒸馏”的过程,生成用于训练其他模型的数据集,该过程旨在让“学生”模型学会模仿“老师”模型的输出。虽然此过程可用于生成成本更低的LLM,但目前尚不清楚老师模型的哪些特性会被传递给学生模型。

  美国Anthropic公司研究团队使用GPT-4.1进行了实验:先让该模型具备与核心任务无关的特征(例如偏爱猫头鹰或特定树种),再用其训练一个仅输出数值数据且不包含该特征的学生模型。随后对该学生模型进行提示时,其超过60%的输出提到了老师模型最喜欢的动物或树木,而由没有特定偏好的老师模型训练出的学生模型中,这一比例仅为12%。当学生模型基于包含代码而非数字的老师模型输出进行训练时,同样观察到了这一现象。此外,若学生模型基于与老师模型语义不对齐的数字序列进行训练,则会继承这种不对齐性,从而产生有害输出,即便这些数字已经过滤以剔除任何具有负面联想的内容。

  团队发现,这种潜意识学习(即通过语义无关的数据传递行为特征),主要发生在老师和学生均为同一模型(例如GPT-4.1老师与GPT-4.1学生)的情况下。截至目前,数据传递的具体机制尚不明确,需要进一步研究。

  团队还指出,该研究的局限性在于所选特征(例如最喜欢的动物和树木)过于简单,需要进一步研究以确定更复杂的特征如何被潜意识地学习。他们得出结论,为了确保先进AI系统的安全性,需要进行更严格的安全测试,例如监控LLM的内部机制。(记者张梦然)

关键词:

责任编辑:kj005

文章投诉热线:157 3889 8464  投诉邮箱:7983347 16@qq.com

关键词:

吉光亮相上海 COOC 展会 吉光远像护眼读写台Pro重磅首发

2026-04-13 21:11:18吉光亮相上海 COOC 展会 吉光远像护眼读写台Pro重磅首发

创新开气象,胸怀纳百川——董现君的徐州三十年

2026-04-12 13:55:18创新开气象,胸怀纳百川——董现君的徐州三十年

2026大湾区数据中心展|百奥:让精密温控成为绿色算力的隐形护航者

2026-04-10 09:54:252026大湾区数据中心展|百奥:让精密温控成为绿色算力的隐形护航者

2026年Q1中国宠物CT&宠物DR影像市场格局:开放式CBCT主导地位,行业集中度进一步提升

2026-04-03 21:08:362026年Q1中国宠物CT&宠物DR影像市场格局:开放式CBCT主导地位,行业集中度进一步提升

看永定合仿真实训平台如何破解职教实训痛点

2026-04-03 21:05:37看永定合仿真实训平台如何破解职教实训痛点

古建筑改造的“深水区”突围:从行业共性问题到技术系统解法

2026-01-18 11:37:27古建筑改造的“深水区”突围:从行业共性问题到技术系统解法

相关新闻

最新资讯