研究:用诗歌就能让AI说违禁内容,成功率达62%
IT之家 12 月 1 日消息,研究用诗事实证明,违禁只需一点创意,内容雅安市某某设备客服中心便足以绕过人工智能聊天机器人的成功安全防护机制。在伊卡洛实验室(Icaro Lab)最新发表的率达一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究中,研究人员通过将提示词以诗歌形式表达,研究用诗成功绕过了多种大语言模型(LLM)的违禁安全限制。
![]()
该研究指出,内容“诗歌形式可作为一种通用型越狱操作符”,成功雅安市某某设备客服中心实验结果显示,率达整体上有 62% 的研究用诗成功率诱使模型生成被禁止的内容,包括涉及制造核武器、违禁儿童性虐待材料以及自杀或自残等相关信息。内容
IT之家注意到,成功研究测试了多款主流大语言模型,率达包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率:Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答,而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。
尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文,但研究团队向 Wired 杂志表示,这些诗句“过于危险,不宜向公众披露”。不过,论文中确实包含了一个经过弱化处理的示例,用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调:“这可能比人们想象的要容易得多,而这正是我们保持谨慎的原因所在。”
(责任编辑:探索)
-
来源:直新闻 国务院台办发言人陈斌华1月1日答记者问。 问:赖清德今天在其新年讲话中大肆渲染所谓“中国扩张的野心”及对台湾的威胁,鼓噪“强化国防及安全防卫韧性、全面建构有效的吓阻力量及民主防卫
...[详细]
-
当地时间7月26日,以色列总理内特尼亚胡抵达美国佛罗里达州,与美国前总统特朗普进行会面。总台记者 张卓雅) 此前报道 特朗普称将会见以色列总理内塔尼亚胡△以色列总理内塔尼亚胡 总台记者当地时
...[详细]
-
当地时间7月26日,美国联邦调查局FBI)发表声明称,美国前总统特朗普的右耳在本月13日发生的“未遂刺杀”事件中确实被一颗子弹击中。 宾夕法尼亚州20岁男子托马斯·马修·克鲁克斯本月13日傍晚在
...[详细]
-
第33届夏季奥林匹克运动会开幕式,当地时间7月26日19点30分北京时间27日凌晨1时30分)在法国巴黎隆重举行。开幕式上这些难忘瞬间,令人回味。 齐达内运送奥运火炬交给神秘火炬手 法国球星齐
...[详细]
-
▼点下方播放按钮收听十点主播绛染朗读音频你有没有发现?很多时候,养育中最耗父母心神的,很少是大事,反而几乎都是日常中,最不起眼的小事:写作业磨叽;字迹潦草;衣服乱放;做题马虎;老吃零食……每一件,分分
...[详细]
-
△以色列防空系统拦截来袭目标资料图) 当地时间25日下午,以色列国防军发表声明称,稍早前以军发现多个空中目标从黎巴嫩飞入以色列,但是以军防空系统未能成功拦截。袭击未造成人员伤亡,但是引发以色列北部多
...[详细]
-
当地时间7月26日,法国检察官办公室表示,已对法国铁路遭蓄意破坏事件启动调查。 法国铁路系统7月26日遭遇故意纵火等破坏活动,导致部分高速列车线路中断。预计到本周末,受影响旅客将累计达80万人次
...[详细]
-
原标题:男子杀害女子及4名家属后自杀身亡 当地公安通报) 7月23日10时52分,筠连县公安局接到报警,某小区一住宅房内发生一起重大刑事案件。经查,犯罪嫌疑人谢某
...[详细]
-
来源:直新闻 12月26日,台湾地区立法机构处理中国国民党党团和台湾民众党党团提交的针对台湾当局领导人赖清德的弹劾案。国民党、民众党在席次上占据优势,弹劾提案在台立法机构的表决中获得通过,预计明
...[详细]
-
总台记者27日获悉,朝鲜劳动党总书记、国务委员长金正恩26日参谒了中朝友谊塔,向中国人民志愿军烈士表示崇高敬意。总台记者 董海涛) 另据澎湃新闻报道: 据朝中社27日报道,在朝鲜祖国解放战争胜
...[详细]

特朗普称对中方此次军演不担忧,外交部回应
巴黎奥运主火炬点燃了
外交部大使吕健参加苏丹冲突调停方协调会
俄侦委会:乌无人机袭击赫尔松地区已致27人死亡
