【分类工具】智能敏感文档分类的开源人工智能工具

Meta发布了一个名为自动敏感文档分类的开源人工智能工具。它最初是为内部使用而构建的,旨在查找文档中的敏感信息并自动应用安全标签。

奥佩斯

该工具使用可定制的分类规则,并适用于包含可读文本的文件。一旦贴上标签,文档就可以受到保护,防止未经授权的访问,或者被排除在使用检索增强生成(RAG)的人工智能系统中。

该解决方案使用Apache Tika从谷歌文档、表格和幻灯片中提取文本。然后,它使用Llama来发现敏感内容,并与Google Drive API配合使用,对这些文件应用敏感性标签。

为什么研究人员创建了自动敏感文档分类

在Meta,防止敏感数据丢失是一个持续的挑战,公司管理的信息数量和种类变得更加困难。Meta安全工程师Robin Franklin告诉Help Net Security:“防止敏感数据丢失是安全和隐私方面的一个常见问题。”

Meta处理大量文件类型和敏感数据。这种规模使使用正则表达式等标准方法不足。Franklin说:“像RegEx这样的正常方法不足以让我们识别敏感数据。”

为了解决这个问题,Meta转向了基于LLM的解决方案。“为了实现我们的可扩展性和准确性目标,我们决定构建一个基于LLM的解决方案,这也确保了我们部署中的无缝可审计性。”这个新系统不仅对数据进行分类。它还有助于绘制整个组织中的居住地。

Franklin解释说:“它可以输出所列举文件和分类运行结果的CSV,甚至将所有内容存储到包含的SQLi数据库中。”这包括每个文件的分类结果、MD5哈希和解析状态。

凭借这种细节水平,Meta的安全和隐私团队可以更好地检测敏感数据被错误处理或被盗,而不必过多依赖手动标签。“最终,所有这些信息都允许安全或隐私团队开发高精度的检测,并召回敏感数据的泄露或篡改,同时减轻组织标记其内容的人工负担。”

是什么让这个工具与众不同

Meta正在以开源的形式发布其自定义数据分类系统,旨在帮助其他在防止数据丢失方面挣扎的组织。富兰克林说:“我们决定开源这项工作,以帮助其他面临类似数据丢失预防问题的团队。”

当该项目在近三年前开始时,除了主要文档平台已经提供的外部,没有很多可用于构建自定义分类系统的指南或工具。Franklin说:“在现有文档平台之外,没有构建自定义分类架构的参考点。”“我们现在分享的信息会更快地加快我们的进展,我们希望其他人也觉得它有用。”

为了使该工具更易用,Meta团队专注于为开发人员提供灵活性。Franklin说:“我们希望尽可能灵活地进行分类,以便开发人员使用自己的标准标记他们的数据。”该工具使用多级分类代理,可以配置以匹配公司自己的政策或标准。Franklin补充说:“我们的参考实施提供了一个起点。”

这种灵活性也适用于团队如何部署该工具。Franklin说:“我们包括将此部署为Docker容器的基础设施,这意味着任何组织都可以随心所欲地扩展此服务。”“我们包括一个选项,可以将分类引擎作为Python软件包在他们想要的任何地方进行交互。”

未来计划和下载

“我们的架构目前支持骆驼堆栈部署和谷歌云端硬盘集成。从长远来看,我们希望扩大部署平台的数量(如Ollama)和我们通过分类引擎支持的SaaS文档共享平台的数量。Office 365具有相同的文档敏感性标签概念,也可以从我们的方法自动分类中受益。随着我们从开源社区获得更多反馈,我们计划优先考虑其他方法和平台,”Franklin总结道。

自动敏感文档分类在GitHub上免费提供。

消息来源:helpnetsecurity, 编译:安全114; 

本文由 anquan114.com 翻译整理,封面来源于网络;  

转载请注明“转自 anquan114.com”并附上原文

© 版权声明
THE END
你的支持是我们在网空安全路上的驱动力!
点赞7 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情快捷回复

    暂无评论内容