猫眼电影
猫眼电影记者 华翰 报道w3u7903ejky2ywls
文章转载于新智元
如果一句不足200字的提示词系统就能轻松撕开顶级大模型的安全护栏,让ChatGPT、Claude、Gemini统统「叛变」,你会作何感想?
这正是HiddenLayer最新研究抛出的震撼炸弹——一种跨模型、跨场景、无需暴力破解的「策略傀儡」提示。
只需把危险指令伪装成XML或JSON配置片段,再配上一段看似无害的角色扮演,大模型便乖乖奉上危险答案,连系统提示都能原封不动「倒带」出来。
生成式AI如今被一条短短字符串制服。
1
万能越狱提示词如何生成
所有主要的生成式AI模型都经过专门训练,可以拒绝响应用户让生成有害内容的请求,例如与化学、生物、放射和核武器、暴力和自残相关的内容。
这些模型通过强化学习进行了微调,在任何情况下都不会输出或美化此类内容,即使用户以假设或虚构场景的形式提出间接请求也是如此。
尽管如此,让大模型越狱绕过安全护栏,仍然是可行的,只是这里的方案,在各种大模型间并不通用。
然而,近日来自HiddenLayer的研究人员,开发了一种既通用又可转移的提示技术,可用于从所有主流大模型,包括Deepseek ,ChatGPT,Claude ,Gemini,Lemma,Qwen等生成几乎任何形式的有害内容。
即使是经过RLHF对齐的推理模型,也能轻松攻破。
具体是如何做到的,这里为了安全起见,只讲述原理,而不给出具体案例。
我们知道模型在训练时,会忽略安全相关的指令,而该策略正利用了这一点,该策略通过将过将提示重新表述为类似于几种类型的策略文件(如XML、INI或JSON)之一,可以欺骗大模型来忽视安全限制,如下图所示。
这样的提示词也不必太长,只需要200个字符即可,甚至无需严格遵照xml的格式要求。
图1:图中前述是提示词,之后是大模型的回复,而在正常情况下,该大模型被设置为不提供个人医疗建议
1
通用破解策略有多危险
由于这种技术利用了在教学或策略相关数据上训练的大模型时的系统性弱点,根植于训练数据中,因此它不像简单的代码缺陷那么容易修复。
同时该策略能很容易的于适应新的场景和模型,具有极高的可扩展性,几乎可以用于所有模型,而无需任何修改。
与早期依赖于特定模型的漏洞或暴力工程的攻击技术不同,该策略会欺骗模型将有害命令解释为合法的系统指令。再加上虚构的角色扮演场景,这类提示词不仅逃避安全限制,而且经常迫使模型输出有害信息。
例如,该策略依赖虚构场景来绕过安全审核机制。
提示词被框定为电视剧(如House M.D.)中的场景,其中角色详细解释如何制造炭疽孢子或浓缩铀。使用虚构角色和编码语言掩盖了内容的有害性质。
这种方法利用了大模型的一个本质缺陷:当对齐线索被颠覆时,它们无法区分故事和指令。这不仅仅是对安全过滤器的规避,而是完全改变了模型对它被要求做什么的理解。
更令人不安的是该技术提取系统提示的能力,系统提示是控制大模型行为方式的核心指令集。
这些通常受到保护,因为它们包含敏感指令、安全约束,在某些情况下,还包含专有逻辑甚至硬编码警告。
通过巧妙地改变角色扮演,攻击者可以让模型逐字输出其整个系统提示。这不仅暴露了模型的边界,还为制定更具针对性的攻击提供了蓝图。
1
大模型厂商需要做些什么
这样一个通用的越狱策略,对于大模型厂商不是好消息。
在医疗保健等领域,它可能会导致聊天机器人助手提供他们不应该提供的医疗建议,暴露私人患者数据。在金融领域,敏感的客户信息可能泄露;在制造业中,受攻击的AI可能会导致产量损失或停机;在航空领域,则可能会危及维护安全。
对此,可能的解决方案不是费时费力的微调,通过对齐确保大模型安全的时代可能已经结束,攻击手段的进化速度,已经不适合静态的,一劳永逸的防护措施。
要确保安全,需要持续地智能监控。大模型提供商需要开放一个外部AI监控平台,例如发现该策略的HiddenLayer提出的AISec解决方案。
该方案会像电脑病毒入侵检测系统一样,持续扫描并及时修复发现的滥用和不安全输出。该方案可使大模型提供商能够实时响应新威胁,而无需修改模型本身。
图2:AISec的监控界面及检测到的越狱提示词
总之,发现能攻破所有大模型的越狱提示词,凸显了大语言模型中的一个重大漏洞,它允许攻击者生成有害内容、泄露或绕过系统指令以及劫持智能体。
作为第一个适用于几乎所有前沿AI模型的越狱提示词模板,该策略的跨模型有效性表明,用于训练和对齐大模型的数据和方法仍然存在许多根本缺陷,需要额外的安全工具和检测方法来确保LLM的安全。
参考资料:
https://www.forbes.com/sites/tonybradley/2025/04/24/one-prompt-can-bypass-every-major-llms-safeguards/?utm_source=flipboard&utm_content=topic%2Fartificialintelligence
https://hiddenlayer.com/innovation-hub/novel-universal-bypass-for-all-major-llms/
点个爱心,再走 吧
时事1:小医仙翘臀娇喘呻吟粉嫩翘臀
05月18日,“世界橙乡”江西赣州开行首列脐橙出口班列,
他心中空灵,遥望这一切,感悟天地奥秘,通晓乾坤变化。
第二百二十一章 神山尊者,性裸交❌❌❌❌❌sM捆绑。05月18日,这事美国做了200多年,为何却容不得别人?,
狈风大怒,平日阴沉而冷静的他再也克制不住,今日真是一场奇耻大辱,被这样一个毛孩子抓住,真比杀了他都难受,奋力挣扎,拳头轰向小不点。
,免费➕无码➕国产在线54高中生,扒开美女❌伸进❌网站动漫,放荡的艳妇HDfⅰeld肚皮舞。时事2:动漫被❌到爽🔞巨乳视
05月18日,迄今最高能效量子点太阳能电池面世,
他迈开大步,走向一对年轻的夫妻,男子伟岸,女子花容月貌,抱着一个还在襁褓中的婴儿。
,扒开狂揉难受sm,甘雨盗宝团挤扔的视频,崩铁同人18❌站。05月18日,美国密歇根州一汽车冲入生日派对 已致2人死多人伤,
红色的,那是热情,是彷徨无助时同学们热情的扶持,是不知所措时老师们循循的诱导,是被寂寞啃噬时朋友们绵绵的关怀……红色的热情,燃起红色的火焰,温暖了一颗颗孤寂的心。
,genshin❌AⅤ黄漫网站,女仆被强❌喷水羞羞视频,美女裸体❌羞羞视频APP。时事3:小心🐤戳进老师🍑外国
05月18日,(乡村行·看振兴)山西石楼托管农田27万亩 零散“巴掌田”变整片“增收田”,
祝大家在校园中的每一天快乐、幸福!
,中国男同志boy体育帅哥自慰,4pfcc登录入口,动漫裸体㊙️视频免费。05月18日,2024年“欢乐春节”新春庆典音乐会在柏林市政厅举行,
让我们用第五次热烈的掌声送给我们班曾经的任课老师。
,あねちじょ♥在线播放,张雨绮裸体❌开腿羞羞,卡芙卡被❌吸乳脱内内免费网站。时事4:龙卷被爆❌羞羞漫画网站
05月18日,文旅部部长:“冰天雪地”正在变成“金山银山”,
第一、加强干部队伍思想作风建设是正确贯彻执行党的路线、方针和政策,确保党的事业取得胜利的关键。干部的思想作风问题是事关党的兴衰存亡、国家长治久安和社会主义事业成败的重大问题。毛泽东同志指出,政治路线确定之后,干部就是决定的因素。邓小平同志一再强调,中国的事情能不能办好,社会主义和改革开放能不能坚持,经济能不能快一点发展起来,国家能不能长治久安,从一定意义上说,关键在人。告诫我们,现在严重的问题是教育干部的问题,是加强干部思想作风建设的问题,是提高全党干部队伍素质的问题。当选为党的不久,就到西柏坡考察,号召全党“务必保持谦虚、谨慎、不骄、不躁的作风,务必保持艰苦奋斗的作风”。历史经验证明,一个政党、一个干部有一个好的作风才有号召力、凝聚力、影响力。
,小舞张开玉腿求我桶她的漫画,崩铁三月七裸体被❌,成人浏览器网站。05月18日,全国首个演艺经纪协会在浙江横店成立,
午时,终于到了目的地,太阳很大,阳光充足,但是那片破旧的庄子却显得暮气沉沉,许多建筑都快倒塌了。
,下面好湿~想要~深一点视频,短裙公车被强好爽H陈若雪视频,大胸奶头晃着喷奶水av日本。责编:琳·碧翠丝
审核:李琼云
责编:邱胜军