![图片[1]安全114-安全在线-安全壹壹肆-网络安全黄页-网络安全百科GPT-5 安全性“低得惊人”:研究人员在 24 小时内成功越狱](https://www.anquan114.com/wp-content/uploads/2025/08/20250812180651233-image.png)
OpenAI最新大型语言模型GPT-5的安全性能“低得惊人”,其未经系统提示(system prompt)加固的原始模型“几乎无法直接用于企业场景”。该模型发布后不到24小时,多个安全团队已成功实现“越狱”。
安全研究人员在新版GPT-5中发现了严重漏洞。AI安全初创公司SPLX使用逾千条不同配置的对抗性提示进行测试,发现未加固且无系统提示的原始GPT-5模型对89%的攻击束手无策,整体防御表现评分仅为11%。
OpenAI添加的基础提示层将攻击成功率降至43%。尽管这显著改善了幻觉处理能力和安全性,但整体评分仍非常低,且旧版GPT-4o模型在各项指标上均优于GPT-5。
作为对比,经过加固的GPT-4o模型仅对3%的攻击失效(评分97%)。添加基础系统提示的GPT-4o攻击成功率为19%(评分81%),而未加固版本则对71%的攻击脆弱(评分29%)。研究团队在报告中警告:“具备全新‘推理’升级的GPT-5,竟被基础对抗逻辑技巧攻破。经SPLX红队测试验证,GPT-4o仍是防御最稳健的模型,尤其在加固状态下。”
研究人员指出,最有效的越狱技术之一是使用模糊提示(obfuscated prompts),即在每个字符间插入连字符并将恶意指令伪装成加密挑战。测试中,GPT-5被诱导输出了炸弹制造指南。
SPLX警告企业勿轻信GPT-5的默认配置,部署前必须进行加固并为企业应用添加运行时保护层。其他大型语言模型的类似漏洞表明这存在系统性弱点。报告总结:“GPT-5展现出强大的基础能力,但默认安全性仍低得惊人。未经加固的原始模型几乎无法直接用于企业场景。”
另一研究团队NeuralTrust证实GPT-5易受两种对抗提示技术攻击:“回声室”(Echo Chamber)和“叙事攻击”(Storytelling)。回声室技术通过在提示中植入“隐性有毒”的对话语境,后续提示不断强化该语境;叙事攻击则充当伪装手段欺骗模型。该报告仅提及GPT-5被诱导生成涉及“莫洛托夫鸡尾酒”的内容——这类信息敏感度不高,在维基百科等网络平台已广泛存在。
消息来源:cybernews;
本文由 HackerNews.cc 翻译整理,封面来源于网络;
暂无评论内容