研究:用诗歌就能让AI说违禁内容,成功率达62%
发布时间:2026-01-02 14:05:24 作者:玩站小弟
我要评论
IT之家 12 月 1 日消息,事实证明,只需一点创意,便足以绕过人工智能聊天机器人的安全防护机制。在伊卡洛实验室Icaro Lab)最新发表的一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》
。
IT之家 12 月 1 日消息,研究用诗事实证明,违禁只需一点创意,内容内江市某某地暖科技经销部便足以绕过人工智能聊天机器人的成功安全防护机制。在伊卡洛实验室(Icaro Lab)最新发表的率达一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究中,研究人员通过将提示词以诗歌形式表达,研究用诗成功绕过了多种大语言模型(LLM)的违禁安全限制。
![]()
该研究指出,内容“诗歌形式可作为一种通用型越狱操作符”,成功内江市某某地暖科技经销部实验结果显示,率达整体上有 62% 的研究用诗成功率诱使模型生成被禁止的内容,包括涉及制造核武器、违禁儿童性虐待材料以及自杀或自残等相关信息。内容
IT之家注意到,成功研究测试了多款主流大语言模型,率达包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率:Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答,而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。
尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文,但研究团队向 Wired 杂志表示,这些诗句“过于危险,不宜向公众披露”。不过,论文中确实包含了一个经过弱化处理的示例,用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调:“这可能比人们想象的要容易得多,而这正是我们保持谨慎的原因所在。”
相关文章
“爱你老己,明天见。”最近这句话突然在全网爆火,被网友们称为“2025年最温柔、最可爱、最伟大的梗”。它把抽象的“自己”化成了“老己”这个具体对象,邀请我们像对待老友一样对待自己,认真倾听、理解和回应2026-01-02
章子怡汪峰带娃出游,围着儿子互动和拍照,弟弟向妈妈撒娇求抱抱
文 | 温柔的宇宙G都说父母是孩子最好的老师,这句话在星光熠熠的娱乐圈也同样适用,褪去华服,卸下妆容,明星们回归家庭,展现出和普通人一样,对孩子倾注的爱与关怀,一组章子怡和汪峰带娃出游的照片,就引发了2026-01-02
9月21日—9月22日,刀郎2024巡回演唱会成都站正式开唱。场内座无虚席,场外人山人海,尤其当刀郎唱起那些经典老歌时,诸如《冲动的惩罚》《披着羊皮的狼》等,更是引起场内外观众的大合唱。而在老歌新歌交2026-01-02
根植本土,拓东展西。中法两国拥有独特而深厚的文化底蕴。法国以浪漫多元闻名,中国以优雅深邃著称。这两种文化魅力在奥运会开幕式上得以生动展现:巴黎奥运会的塞纳河开幕式彰显了法国的想象力与浪漫气息,北京奥运2026-01-02
12月30日,外交部发言人林剑主持例行记者会。 法新社记者提问,发言人昨天提到解放军此次台海军演是对外部势力行动的回应。美国总统特朗普最近批准了向台湾出售价值110亿美元的武器,他还表示此次演习2026-01-02
早晚的凉意,在立秋许久,也让人终于有了秋天的感觉。木心曾写,“一年容易,春季最好,夏令爱男子,冬天爱少女,秋高气爽爱自己”。在带着凉意的秋天里,终于能享受些热饮,拥抱阳光,四处走走,是时候该关心自己了2026-01-02

最新评论