开源工具IronCurtain:自主人工智能助手的开源保护层

资深安全工程师Niels Provos正在研究一种新的技术方法,旨在阻止自主人工智能代理采取您未明确授权的行动。

他的开源软件解决方案名为IronCurtain,旨在消除LLM驱动的代理“流氓”的风险——无论是通过提示注入还是代理在长时间的会话中逐渐偏离用户的原始意图。

IronCurtain是如何运作的?

在过去的几个月里,有报道称,由于代理错位,自主人工智能代理偏离了轨道)。

IronCurtain不是允许他们无限制地访问用户的系统,而是确保代理不会直接与之交互,其预期操作将首先由一个单独的可信进程进行分析。

Provos说:“每个代理,无论是直接的LLM会话还是在Docker容器中运行的Claude代码,都会通过相同的管道。”

一旦用户给它发出指令,代理就会编写在V8隔离虚拟机中运行的TypeScript代码,并发出映射到MCP工具调用的类型函数调用(即AI通过模型上下文协议发送到外部工具的请求,以便它们可以做一些事情)。

这些工具调用请求被转发到受信任的进程(MCP代理),该进程充当策略引擎,并将“决定”每个调用是否应允许、拒绝(阻止)或升级到人类以供批准。

奥普斯
四层铁板(来源:Niels Provos)

该政策引擎的决定依赖于“宪法”:一套由用户用通俗易懂的英语编写的指导原则和具体指南,并由IronCurtain“翻译”为安全政策。

“编译器LLM使用经过验证的策略原语库将英语翻译成每接口的规则。测试场景生成器创建旨在发现差距和矛盾的案例。验证器检查编译的规则是否与原始意图一致。法官迭代完善政策,直到它尽可能符合宪法的精神,”Provos解释道

“评估分两个阶段进行。首先,结构不变性:受保护的路径(如宪法本身和审计日志)总是被拒绝,包含沙盒的路径是自动允许的,未知的工具被拒绝。第二,彙編政策規則:每個论点都根據您的章程生成的規則進行檢查。每个论证角色都是独立评估的,限制性最大的结果获胜。”

一旦工具调用请求被受信任的进程或人类允许,它们就会被提交到提供文件系统访问、git操作和其他功能的标准模型上下文协议服务器。他们指导工具执行所要求的操作。

结果通过受信任的进程返回代理,该代理永远不允许访问用户的文件系统、敏感凭据(例如,OAuth令牌、API密钥、服务帐户机密)或环境变量。它还被阻止访问和修改自己的策略文件、审计日志或配置。

IronCurtain仍在开发中,Provos将其描述为早期的研究努力。该代码已公开发布,因此开发人员和安全研究人员可以测试该方法并提出改进建议。

原文链接地址:https://www.helpnetsecurity.com/2026/02/27/ironcurtain-open-source-ai-agent-security/

© 版权声明
THE END
你的支持是我们在网空安全路上的驱动力!
点赞15 分享