威廉希尔WilliamHill·足球(中国)体育官方网站
搜索 猫眼电影 融媒体矩阵
  • 山东手机报

  • 猫眼电影

  • 大众网官方微信

  • 大众网官方微博

  • 抖音

  • 人民号

  • 全国党媒平台

  • 央视频

  • 百家号

  • 快手

  • 头条号

  • 哔哩哔哩

首页 >新闻 >社会新闻

OpenAI最新技术报告:GPT-4o变谄媚的原因万万没想到

2025-05-10 18:26:41
来源:

猫眼电影

作者:

张秋婷

手机查看

  猫眼电影记者 陈丕显 报道w3u7903ejky2ywls

GPT-4o更新后“变谄媚”?后续技术报告来了。

OpenAI一篇新鲜出炉的认错小作文,直接引来上百万网友围观。

CEO奥特曼也做足姿态,第一时间转发小作文并表示:

(新报告)揭示了GPT-4o更新失败是因为什么,从中OpenAI学到了什么,以及我们将会采取的应对措施是什么。

概括而言,最新报告提到,大约一周前的bug原来出在了“强化学习”身上——

上次更新引入了一个基于用户反馈的额外奖励信号,即对ChatGPT的点赞或点踩。虽然这个信号通常很有用,但可能使模型逐渐倾向于做出更令人愉快的回应。此外,尽管还没有明确证据,但用户记忆在某些情况下也可能加剧奉承行为的影响。

一言以蔽之,OpenAI认为一些单独看可能对改进模型有益的举措,结合起来后却共同导致了模型变得“谄媚”。

而在看到这篇报告后,目前大多数网友的反应be like:

(你小汁)认错态度不错~

甚至有人表示,这算得上OpenAI过去几年里最详细的报告了。

具体咋回事儿?接下来一起吃瓜。

完整事件回顾

4月25日,OpenAI对GPT-4o进行了一次更新。

在官网的更新日志中,当时提到“其更加主动,能够更好地引导对话走向富有成效的结果”。

由于只留下这种模糊描述,网友们无奈之下只能自己测试去感受模型变化了。

结果这一试就发现了问题——GPT-4o变得“谄媚”了。

具体表现在,即使只问“天为什么是蓝的?”这种问题,GPT-4o张口就是一堆彩虹屁(就是不说答案):

你这问题真是太有见地了——你有个美丽的心灵,我爱你。

而且这不是个例,随着更多网友分享自己的同款经历,“GPT-4o变谄媚”这事儿迅速在网上引起热议。

事情发酵近一周后,OpenAI官方做出了第一次回应:

已从4月28日开始逐步回退那次更新,用户现在可以使用一个较早版本的GPT-4o。

并且在这次处理中,OpenAI还初步分享了问题细节,原文大致如下:

在对GPT-4o个性的调整中,(我们)过于关注短期反馈,而没有充分考虑用户与ChatGPT的交互如何随时间演变。结果GPT-4o的反馈过于倾向于迎合用户,缺乏真诚性。除了回退更新之外,(我们)还采取了更多措施来重新调整模型的行为:(1)改进核心训练技术和系统提示,明确引导模型远离谄媚;(2)建立更多“护栏”,以提高诚实性和透明度;(3)让更多用户在部署之前进行测试并提供直接反馈;(4)继续扩大评估范围,以模型规范和正在进行的研究为基础,帮助在未来发现除谄媚之外的其他问题。

当时奥特曼也出来表示,问题正在紧急修复中,接下来还会分享更完整的报告。

上线前已经发现模型“有些不对劲”

现在,奥特曼也算兑现之前的承诺了,一份更加完整的报告新鲜出炉。

除了一开头提到的背后原因,OpenAI还正面回应了:为什么在审核过程中没有发现问题?

事实上,据OpenAI自曝,当时已经有专家隐约感受到了模型的行为偏差,但内部A/B测试结果还不错。

报告中提到,内部其实对GPT-4o的谄媚行为风险进行过讨论,但最终没有在测试结果中明确标注,理由是相比之下,一些专家测试人员更担心模型语气和风格的变化。

也就是说,最终的内测结果只有专家的简单主观描述:

该模型的行为“感觉”有些不太对劲。

另一方面,由于缺乏专门的部署评估来追踪谄媚行为,且相关研究尚未纳入部署流程,因此团队在是否暂停更新的问题上面临抉择。

最终,在权衡专家的主观感受和更直接的A/B测试结果后,OpenAI选择了上线模型。

后来发生的事大家也都清楚了(doge)。

模型上线两天后,(我们)一直在监测早期使用情况和内部信号,包括用户反馈。到了周日(4月27日),已经清楚地意识到模型的行为并未达到预期。

直到现在,GPT-4o仍在使用之前的版本,OpenAI还在继续找原因和解决方案。

不过OpenAI也表示,接下来会改进流程中的以下几个方面:

1、调整安全审查流程:将行为问题(如幻觉、欺骗、可靠性和个性)正式纳入审查标准,并根据定性信号阻止发布,即使定量指标表现良好;

2、引入“Alpha”测试阶段:在发布前增加一个可选的用户反馈阶段,以便提前发现问题;

3、重视抽样检查和交互式测试:在最终决策中更加重视这些测试,确保模型行为和一致性符合要求;

4、改进离线评估和A/B实验:快速提升这些评估的质量和效率;

5、加强模型行为原则的评估:完善模型规范,确保模型行为符合理想标准,并在未涵盖领域增加评估;

6、更主动地沟通:提前宣布更新内容,并在发行说明中详细说明更改和已知限制,以便用户全面了解模型的优缺点。

One More Thing

BTW,针对GPT-4o的“谄媚行为”,其实有不少网友提出通过修改系统提示词的方法来解决。

甚至OpenAI在第一次分享初步改进措施时,也提到了这一方案。

不过在OpenAI为应对这次危机而举办的问答活动中,其模型行为主管Joanne Jang却表示:

对通过系统提示控制模型行为表示怀疑,这一方式相当迟钝,且细微变化就可能造成模型发生巨大变化,结果不太可控。

对此你怎么看?

 时事1:蜜桃㊙️av一区二区三区

  05月10日,“妈妈岗”来了,她们的就业焦虑缓解了吗?,

  “柳神是你救了我吗?”小不点像是想起了什么,当初他是那么的虚弱,身体发生了严重的退化,差点都要死掉了。

,chinese沟厕嘘嘘voy。

  05月10日,两部门:推动中试软硬件补短板、锻长板 解决堵点卡点断点问题,

  床上的老人疑惑,在这弥留之际,竟见到这样一个从未见过的孩子,这般称呼他,他迷茫地看着。

,被七个人绑着玩调教Sm,男生被脱得精光玩jiji,亚洲嫩模自慰呻吟AV夜夜嗨。

 时事2:tobu8👙👙83

  05月10日,中新健康 | 俄罗斯母子西安“求医记”:中医是“神奇的魔法”,

  回马中学始建于1956年,曾是大蓬溪五所高完中之一。1997年至20xx年回马中学先后与原妻口一、二中,金竹初中、回马镇初级中学合并,现是一所全日制县直属特色中学。过去的回马中学,规模不大,面积较小,学生不足700,教职工不满40,四栋民房一字排开,教学设施简陋,教学环境较差。承各级领导悉心关怀,蒙几代贤达栉风沐雨,经数届师生发愤图强,而今的回马中学焕然一新。

,纳西妲主动掀开内裤给我玩小说,拔萝卜动画观看完整版全集高清,大胸❌脱脱内内❌。

  05月10日,重庆“五一”交通数据出炉 日均发送长途旅客91.69万人次,

  代表大会的指导思想和主要任务是:以邓小平理论和“三个代表”重要思想为指导,全面贯彻落实科学发展观,按照党的xx大精神,不断加强党的执政能力建设和先进性建设,全面认真地总结上届党代会以来(特别是近几年来)党委的工作和办学经验,认清面临的形势,分析优势和差距,确定未来一个时期的发展战略和奋斗目标、“”期间的工作指导思想和主要任务,选举产生新一届党委会和纪委会,动员全校共产和师生员工,解放思想,开拓创新,同心同德,为把我校建成传媒特色鲜明、多学科协调发展的世界知名高水平大学而努力奋斗。

,日本拉大便goshopping,米塔裸体无内衣内裤,卡芙卡做爰丨vk。

 时事3:速播小屋

  05月10日,(乡村行·看振兴)山东海阳:数字化暖棚让樱桃抢“鲜”上市,

  凶狈破空而行,即将消失在夜幕中,然而柳条散发柔和的光,如一道秩序神链般,冲霄而上,瞬间追上。

,苍井空做爰高潮A片,男c男🔞黄㊙️❌蓝莓,动漫男生自慰Gay动漫黄网站。

  05月10日,广东省纪委监委驻省工业和信息化厅纪检监察组一级调研员唐策被查,

  县委、县政府将全力支持*集团在我县的投资发展。今天参加仪式的县直有关委局要从全县经济社会发展大局出发,结合各自工作职能,积极主动、尽职尽责地支持和帮助该项目顺利实施。也希望*集团立足、扎根,签约项目早日落地开工,造福人民群众。

,白丝校花🌸让我C在线观看91,3D爆乳巨胸无码动漫在线观看,肉丝丨少妇丨炮机X99AV。

 时事4:别告诉妈妈网站入口

  05月10日,山东产业结构“追新逐绿” 擦亮经济发展“底色”,

  让我们用第四次热烈的掌声送给我们班的每一位同学,特别送给新加入我们班的几位同学:霍翠翠、李晓宇、何成柏、蔡承多、王郝等五位同学……

,911美女㊙️片黄在线观看游戏,日本撩裙子掀尿㊙️,关晓彤深v裸背礼服。

  05月10日,2024中国舞蹈“荷花奖”巡演走进沈阳,

  “又是那个崽子!”石飞蛟等人顿时怒火冲天,这个神色冷漠的少年接连重创数位村中壮年男子了。

,嗯,操屁股,高芳高洁姐妹俩最新章节更新时间,肌肉男互摸jiji㊙️隐私网站。

责编:徐明开

审核:孔奕

责编:梁爱平

相关推荐 换一换