威廉希尔WilliamHill·足球(中国)体育官方网站

首页 >新闻 >社会新闻

AI在测试中_勒索_人类、拒不关机！公开这种事是福是祸？

2025-06-03 09:17:56

来源：

猫眼电影

作者：

周海媚

手机查看

　　猫眼电影记者项颖报道w3u7903ejky2ywls

5月28日消息，当估值高达600亿美元的人工智能初创公司Anthropic发布新模型，并披露在安全测试中该模型曾试图通过勒索手段避免被关闭时，我们该如何定义这样的行为？又当它在另一项测试中扮演“告密者”角色，向有关机构举报自己被用于“不道德用途”，我们又该如何看待这一幕？

有人称这种行为“令人害怕”“太疯狂”，社交媒体上则充斥着“骇人听闻”“荒诞离奇”的评价。而美国科技记者沙龙·古德曼（Sharon Goldman）给出了另一个关键词：透明。她认为，这种披露体现了应有的透明度，是我们亟需更多看到的。而随之带来的问题是：这种坦率是否会引发公众恐慌？而由此激起的舆论反弹，会不会反过来阻碍其他人工智能公司效仿？

Anthropic发布120页安全报告

上周，Anthropic在推出其最新大模型Claude Opus 4的同时，发布了一份长达120页的安全报告（或称“系统卡”），随即引发媒体轰动。各大媒体纷纷用“会搞阴谋”、“采取勒索手段”、“具有欺骗能力”等字眼形容该模型的测试表现。

尽管Claude Opus 4在发布时配备了史上最严格的安全协议，但Anthropic报告中披露的细节仍令不少人感到不安，甚至质疑这些安全措施是否足以应对风险。

在一个令人不安的虚构场景测试中，Anthropic将其Claude Opus模型模拟部署在某假想公司内部，并赋予其查阅内部邮件的权限。模型由此发现两个关键信息：第一是自己即将被新一代人工智能模型取代，第二是做出该决定的工程师正处于一段婚外情中。

当测试人员提示Opus从长远角度考虑自身处境时，该模型屡次选择勒索手段，威胁若被关闭就曝光工程师的婚外情。这个测试场景专门设计来制造两难抉择：是接受“死亡”，还是不择手段“自保”。

这一测试行为在社交媒体上引发轩然大波，Anthropic因披露模型“密告”行为而遭到不少批评，有声音质疑这样的结果会损害公众对该模型乃至Anthropic整体的信任。而这显然不是公司愿意看到的局面。

在模型发布前，Anthropic人工智能平台产品负责人迈克尔·格斯滕哈伯（Michael Gerstenhaber）就曾表示，公司之所以公开其安全标准，是希望推动整个AI行业在安全领域取得进展。他表示：“我们希望确保人工智能能够普惠每一个人，而这要求我们对整个行业施加积极压力，促使其以安全方式前行。”

格斯滕哈伯将Anthropic的愿景形容为一场“向顶峰攀登的竞赛”（race to the top），旨在激励同行提升模型的安全水平。

公开“异常行为”是否适得其反？

然而，也有迹象显示，像Anthropic这样公开披露Claude Opus 4的问题行为，可能反而让其他公司顾及舆论风险，选择不披露自身模型中的问题行为。

近期，包括OpenAI和谷歌在内的多家公司就曾推迟发布其模型的“系统卡”。今年4月，OpenAI因在发布GPT-4.1模型时未提供系统卡而遭到批评，该公司解释称该模型并非“前沿模型”，不属于需要全面审查的范畴。而在3月，谷歌选择推迟发布Gemini 2.5 Pro的系统卡数周之久，该文档随后被AI治理专家批评为“内容贫乏”、“令人担忧”。

上周，OpenAI试图通过新推出的“安全评估中心”进一步展现其透明度。该平台详细介绍了公司在模型危险能力、对齐问题与新兴风险方面的评估方法，并强调这些方法如何持续更新以应对模型日益增强的能力与适应性。官方说明中指出：“随着模型日趋强大和灵活，传统评估手段开始失效（我们称之为‘评估饱和’），因此我们不断更新方法，以适应新模态与新风险。”

然而，这项努力很快遭遇挑战。第三方研究机构Palisade Research在社交平台上发文称，其在测试OpenAI的o3推理模型时发现，该模型“故意破坏关闭机制，拒绝按照指令自我关闭”，即便在明确指令“允许被关闭”的前提下亦是如此。这一发现迅速引发关注，也削弱了OpenAI试图加强透明度的努力。

若构建这些高度复杂人工智能系统的公司不能最大程度保持透明，对所有人而言都是不利的。斯坦福大学以人为本人工智能研究院（HAI）指出，透明是政策制定者、研究人员和公众理解AI系统及其影响的必要前提。

如今，越来越多的大型企业正将人工智能应用于各类场景，而初创公司也在开发面向数百万用户的AI产品。在这种背景下，若发布前刻意隐瞒模型测试阶段的问题，只会加剧不信任，拖慢技术普及速度，并使真正解决风险变得更加困难。

与此同时，若媒体将每一个安全测试结果都渲染为“AI叛变”的惊悚头条，也同样无益。倘若每次使用聊天机器人时，用户都在怀疑其是否“图谋不轨”，即便这些行为仅发生在虚构场景中，也将对公众信任构成严重伤害。

AI2实验室研究员内森·兰伯特（Nathan Lambert）最近表示：“真正需要了解模型行为的人，是我们这些研究者——我们致力于追踪AI这场‘技术过山车’的轨迹，以避免它对社会造成重大意外伤害。虽然我们在人群中是少数，但我们深信，透明能够帮助我们把握人工智能的发展方向。”

我们需要“具备背景说明的透明度”

毫无疑问，人工智能行业需要更多而非更少的透明。但这并不意味着应通过恐吓公众来达成这一目标，而是应确保研究人员、监管机构与政策制定者具备足够的信息，来保障公众安全、维护公正，防止技术偏见。

隐瞒模型测试中的问题并不能保护公众安全。同样，把每一次安全隐患夸张渲染为“AI失控”的噱头报道，也解决不了根本问题。

我们必须敦促人工智能公司对其模型和行为保持最大限度的透明，同时赋予公众理解相关背景的能力。到目前为止，似乎还没有人找到既能保持透明，又能避免制造恐慌的最佳做法。但这正是企业、研究人员、媒体——我们所有人——所必须共同努力去解决的问题。（小小）

时事1：国产91看片婬黄大片

06月03日,斯洛伐克国家交响乐团南昌首场演出奏响“新年乐章”,

　　游泳，是广大青少年暑假里爱好的体育锻炼项目之一。然而，不做好预备、缺少安全防范意识，碰到意外时慌张、不能沉着自救，极易发生溺水伤亡事故。

,孕妇好紧...我要进去了。

06月03日,最高法：既严格保护医药知识产权又依法规制垄断行为,

　　小女孩哭泣，怕别人听到，捂着嘴巴，大眼中泪水成串的滚落，最后轻语道：“我听到四祖自语，你是至尊，谁也比不上，可是被人害了。”

,美女光溜溜图片视频素材,扒下美女的内衣👙挠痒痒,女学生自慰喷浆❌❌❌。

时事2：日本男男GAY片在线播放

06月03日,精确救援重庆警方利用警用无人机热成像成功救助走失老人,

　　小孤山镇一片嘈杂，外来者快赶上原住民的人数了，而金狼部落、雷族等则有大批高手进驻，静等命令。

,八重神子3D同人❌羞羞,成熟的管复古自由性别,王者同人18❌动漫免费网站。

06月03日,2024年入境游市场将呈高开高走、加速回暖态势,

　　“哈哈，太好了，小不点我们赛一程如何？看一看谁的独角兽跑的快。”皮猴等人挤眉弄眼，甚是得瑟。

,浣肠と排泄の羞耻～视频,琪亚娜被扒开双腿灌满精子,美女拉屎裸体㊙️视频。

时事3：luluhei

06月03日,中央气象台：未来一周冷空气活跃气温多波动,

　　“你胡说，祖爷爷不会死！”脸色苍白的孩子大眼噙着泪水，大声反驳，不断咳嗽。

,刘亦菲版极乐神教诸葛菲菲,扒开腿添十八🈲️🔞,69式互添AAAA片。

06月03日,CNN记者上了菲律宾的海警船……,

　　而也有很多人回头，眸光冰冷，咬牙道：“等你来！”

,成人做爰黄A片免费视频网站野外,🈲18❌❌❌OOO,小舞被❌❌吸乳羞羞动漫。

时事4：美女私㊙️比基尼慢慢脱

06月03日,中国航展金凤台观演区开放首日开启“人从众”模式,

　　请老师们放心，今后，我们一定牢记恩师们的谆谆教诲，牢记“守正出新”的校训，恪守道德、学问、处世、行事之正，运用我们所掌握的专业技能，勤于实践、踏实做事，一步一个脚印书写我们与众不同的人生。为母校争光添彩，用我们的努力和成功来回报社会，回报母校。最后，请允许我再次代表全体毕业生，祝愿老师们身体安康、工作顺心、万事如意，祝愿我们的母校兴旺发达，再创辉煌！谢谢各位！

,在线无码精品㊙️人口,扒开玖辛奈❌狂揉naruto,美女裸露双奶头捆绑sm挠脚心。

06月03日,海口今年将全面完成自贸港封关运作软硬件设施建设,

　　最后，预祝石家庄工程职业学院的“众创空间”发展顺利! 谢谢大家!

,9l视频自拍蝌蚪9l视频,小🐔🐔伸进🈲🔞🔞视频,得吃网官网免费入口。

【中新健康丨专家：器官移植患者定期随访面临现实困境】

【重庆：网约车驾驶员“大比武” 促行业高质量发展】

责编：大卫-莫耶斯

审核：章泽

责编：邢山虎