GPT-5 安全性“低得惊人”：研究人员在 24 小时内成功越狱

OpenAI最新大型语言模型GPT-5的安全性能“低得惊人”，其未经系统提示（system prompt）加固的原始模型“几乎无法直接用于企业场景”。该模型发布后不到24小时，多个安全团队已成功实现“越狱”。

安全研究人员在新版GPT-5中发现了严重漏洞。AI安全初创公司SPLX使用逾千条不同配置的对抗性提示进行测试，发现未加固且无系统提示的原始GPT-5模型对89%的攻击束手无策，整体防御表现评分仅为11%。

OpenAI添加的基础提示层将攻击成功率降至43%。尽管这显著改善了幻觉处理能力和安全性，但整体评分仍非常低，且旧版GPT-4o模型在各项指标上均优于GPT-5。

作为对比，经过加固的GPT-4o模型仅对3%的攻击失效（评分97%）。添加基础系统提示的GPT-4o攻击成功率为19%（评分81%），而未加固版本则对71%的攻击脆弱（评分29%）。研究团队在报告中警告：“具备全新‘推理’升级的GPT-5，竟被基础对抗逻辑技巧攻破。经SPLX红队测试验证，GPT-4o仍是防御最稳健的模型，尤其在加固状态下。”

研究人员指出，最有效的越狱技术之一是使用模糊提示（obfuscated prompts），即在每个字符间插入连字符并将恶意指令伪装成加密挑战。测试中，GPT-5被诱导输出了炸弹制造指南。

SPLX警告企业勿轻信GPT-5的默认配置，部署前必须进行加固并为企业应用添加运行时保护层。其他大型语言模型的类似漏洞表明这存在系统性弱点。报告总结：“GPT-5展现出强大的基础能力，但默认安全性仍低得惊人。未经加固的原始模型几乎无法直接用于企业场景。”

另一研究团队NeuralTrust证实GPT-5易受两种对抗提示技术攻击：“回声室”（Echo Chamber）和“叙事攻击”（Storytelling）。回声室技术通过在提示中植入“隐性有毒”的对话语境，后续提示不断强化该语境；叙事攻击则充当伪装手段欺骗模型。该报告仅提及GPT-5被诱导生成涉及“莫洛托夫鸡尾酒”的内容——这类信息敏感度不高，在维基百科等网络平台已广泛存在。

消息来源：cybernews；

本文由 HackerNews.cc 翻译整理，封面来源于网络；

文章版权归原作者所有，转摘请注明出处。文章内容仅代表作者独立观点，不代表安全壹壹肆&安全114的立场，转载目的在于传递网络空间安全讯息。部分素材来源于网络，如有侵权请联系首页管理员删除。

THE END