【分类工具】智能敏感文档分类的开源人工智能工具

Meta发布了一个名为自动敏感文档分类的开源人工智能工具。它最初是为内部使用而构建的，旨在查找文档中的敏感信息并自动应用安全标签。

该工具使用可定制的分类规则，并适用于包含可读文本的文件。一旦贴上标签，文档就可以受到保护，防止未经授权的访问，或者被排除在使用检索增强生成（RAG）的人工智能系统中。

该解决方案使用Apache Tika从谷歌文档、表格和幻灯片中提取文本。然后，它使用Llama来发现敏感内容，并与Google Drive API配合使用，对这些文件应用敏感性标签。

为什么研究人员创建了自动敏感文档分类

在Meta，防止敏感数据丢失是一个持续的挑战，公司管理的信息数量和种类变得更加困难。Meta安全工程师Robin Franklin告诉Help Net Security：“防止敏感数据丢失是安全和隐私方面的一个常见问题。”

Meta处理大量文件类型和敏感数据。这种规模使使用正则表达式等标准方法不足。Franklin说：“像RegEx这样的正常方法不足以让我们识别敏感数据。”

为了解决这个问题，Meta转向了基于LLM的解决方案。“为了实现我们的可扩展性和准确性目标，我们决定构建一个基于LLM的解决方案，这也确保了我们部署中的无缝可审计性。”这个新系统不仅对数据进行分类。它还有助于绘制整个组织中的居住地。

Franklin解释说：“它可以输出所列举文件和分类运行结果的CSV，甚至将所有内容存储到包含的SQLi数据库中。”这包括每个文件的分类结果、MD5哈希和解析状态。

凭借这种细节水平，Meta的安全和隐私团队可以更好地检测敏感数据被错误处理或被盗，而不必过多依赖手动标签。“最终，所有这些信息都允许安全或隐私团队开发高精度的检测，并召回敏感数据的泄露或篡改，同时减轻组织标记其内容的人工负担。”

是什么让这个工具与众不同

Meta正在以开源的形式发布其自定义数据分类系统，旨在帮助其他在防止数据丢失方面挣扎的组织。富兰克林说：“我们决定开源这项工作，以帮助其他面临类似数据丢失预防问题的团队。”

当该项目在近三年前开始时，除了主要文档平台已经提供的外部，没有很多可用于构建自定义分类系统的指南或工具。Franklin说：“在现有文档平台之外，没有构建自定义分类架构的参考点。”“我们现在分享的信息会更快地加快我们的进展，我们希望其他人也觉得它有用。”

为了使该工具更易用，Meta团队专注于为开发人员提供灵活性。Franklin说：“我们希望尽可能灵活地进行分类，以便开发人员使用自己的标准标记他们的数据。”该工具使用多级分类代理，可以配置以匹配公司自己的政策或标准。Franklin补充说：“我们的参考实施提供了一个起点。”

这种灵活性也适用于团队如何部署该工具。Franklin说：“我们包括将此部署为Docker容器的基础设施，这意味着任何组织都可以随心所欲地扩展此服务。”“我们包括一个选项，可以将分类引擎作为Python软件包在他们想要的任何地方进行交互。”

未来计划和下载

“我们的架构目前支持骆驼堆栈部署和谷歌云端硬盘集成。从长远来看，我们希望扩大部署平台的数量（如Ollama）和我们通过分类引擎支持的SaaS文档共享平台的数量。Office 365具有相同的文档敏感性标签概念，也可以从我们的方法自动分类中受益。随着我们从开源社区获得更多反馈，我们计划优先考虑其他方法和平台，”Franklin总结道。

自动敏感文档分类在GitHub上免费提供。

消息来源：helpnetsecurity, 编译：安全114；

本文由 anquan114.com 翻译整理，封面来源于网络；

转载请注明“转自 anquan114.com”并附上原文

文章版权归原作者所有，转摘请注明出处。文章内容仅代表作者独立观点，不代表安全壹壹肆&安全114的立场，转载目的在于传递网络空间安全讯息。部分素材来源于网络，如有侵权请联系首页管理员删除。

THE END