LLM在智能合约审计中更好地协同工作

即使经过多年的工具和研究,智能合约错误仍然从区块链系统中耗尽真钱。一项新的学术研究表明,当大型语言模型在协调小组中而不是单独工作时,可以发现更多这些缺陷。

佐治亚理工学院的研究人员开发了一个名为LLMBugScanner的框架,该框架将微调的语言模型与合奏投票相结合,以检测以太坊智能合约中的漏洞。该研究评估了将特定领域的训练与模型共识配对是否可以在不增加成本或复杂性的情况下提高准确性。

法学硕士智能合约审计

该研究重点关注智能合约安全的一个持续存在的问题。一旦部署,合同就无法更改,即使是微小的逻辑错误也可能导致资金的永久损失。传统的静态和符号分析工具仍然与误报和盲点作斗争,特别是当合同偏离已知模式时。研究人员认为,语言模型可以以基于规则的工具无法的方式推理意图和逻辑,但前提是其弱点得到解决。

为什么单一模型会失败

研究人员在现实世界脆弱的合同上测试了几个流行的开源代码重点语言模型。就其本身而言,这些模型显示出不均匀的结果。一些在整数溢出等常见问题上表现良好,而缺少其他类,如访问控制或有缺陷的逻辑。

一个问题是不一致。同一模型可能会在运行中标记不同的漏洞,或将一种类型错误地归类为另一种类型。另一个问题是过度拟合。对一个数据集进行微调模型可以改善一些错误类型的结果,同时降低其他地方的性能。

这些问题限制了单模型方法对需要稳定和可重复结果的审计师的效用。研究人员得出结论,没有单一的语言模型在所有漏洞类别中表现良好。

具有智能合约上下文的培训模型

为了解决这个问题,该团队应用了领域知识适应。他们分两个阶段对每个模型进行微调。第一阶段使用了775个带有已知漏洞类型的Solidity智能合约数据集,以提高对代码的一般理解。第二阶段使用较小的CVE标记合同子集来教模型如何识别和描述特定缺陷。

这种顺序微调减少了不相关的错误类别之间的混淆。在本文中显示的一个示例中,基线模型经常将访问控制和逻辑错误错误标记为整数溢出。经过微调后,相同的模型显示了漏洞类型之间的更强的分离。

研究人员使用参数高效调谐方法来限制计算成本。只更新了一小部分模型参数,使该方法对重复训练运行具有实用性。

让模特投票

框架的第二部分侧重于合奏学习。LLMBugScanner没有依赖一个适应的模型,而是结合了五个独立微调模型的预测。每个模型都分析同一合同,系统使用投票方法汇总结果。

测试了两种合奏策略。人们使用加权投票,其中更强大的模型具有更大的影响力。另一个根据学习模型的优先级解决关系。这两种方法都旨在捕捉互补优势,同时减少单个错误的噪音。

评估使用了108个现实世界智能合约,其中CVE数据库中已知有漏洞。结果表明,与任何单一模型相比,合奏方法提高了检测率。加权合奏的检测精度达到前五名约60%,比单个基线高出约19%。

结果的收益和限制

最强的改进出现在前五名结果中,这在审计工作流程中很重要,分析师审查短名单而不是单个产出。合奏恢复了一些最佳个人模型遗漏的漏洞,特别是整数溢出和令牌贬值问题。

顶级预测的精度增益更复杂。基于排列的合奏产生了更强的单一最佳猜测,而加权投票有利于更广泛的覆盖范围。研究人员指出,这些差异反映了精度和回忆之间的权衡,这取决于结果的消耗方式。

这项研究还强调了局限性。访问控制和构造函数错误等少数漏洞类别仍然难以检测,即使使用合奏也是如此。在所有模型缺乏足够培训示例的情况下,投票无法纠正共同的弱点。

幻觉仍然是另一个担忧。跨模型,大约10%的输出包括虚构或不受支持的漏洞。研究人员建议在未来的工作中将语言模型与符号检查或置信度估计相结合。

模型一起审计时有什么变化

这项研究将语言模型构建为受益于结构化培训和协作的补充系统。对于监督区块链风险的安全领导者来说,研究结果表明,模型多样性和共识可能与模型大小一样重要。

LLMBugScanner还加强了一个更广泛的观点。将语言模型应用于安全任务需要适应、评估和编排。如果没有这种结构,结果在孤立的情况下可能看起来很有希望,但在真实条件下却失败了。

研究人员强调,该框架是可扩展的,具有成本意识,因此适合继续进行实验。未来的方向包括基于学习的合奏选择和对幻觉的更强控制。

目前,该研究提供了证据,表明当语言模型不是单独工作,而是一起推理时,智能合约审计会有所改善。

原文链接地址:https://www.helpnetsecurity.com/2025/12/19/llmbugscanner-llm-smart-contract-auditing/

© 版权声明
THE END
你的支持是我们在网空安全路上的驱动力!
点赞11 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情快捷回复

    暂无评论内容