第一篇基于机器学习的软件漏洞挖掘方法

机器学习漏洞挖掘概述

sliver呀

2070人浏览 · 2022-10-22 11:24:27

sliver呀 · 2022-10-22 11:24:27 发布

作者：李韵等来源：软件学报

一、介绍

早期，根据是否依赖出现运行可将漏洞挖掘技术分为：

静态分析方法：一般运行在软件的开发编码阶段，无需运行软件，通过扫描源代码分析词法、语法、控制流和数据流等信息来发现漏洞。常见的静态分析工具：Coverity、Klocwork、Cobot...
动态分析方法：一般应用软件的测试运行阶段，在软件程序运行过程中,通过分析动态调试器中程序的状态、执行路径等信息来发现漏洞。动态分析可分为符号执行和模糊测试。常用的符号执行工具：KLEE、S2E、Mayhem...；常用的模糊测试工具：libFuzzer、Radamsa、AFL...

！！！注意：上述漏洞挖掘方法一般适用于小型规模软件；但在应对大型复杂软件系统以及变化多样的新型漏洞时，通常无法满足需求。

当前，基于机器学习的漏洞挖掘研究应运而生，静态分析仍然是当前软件漏洞的主要手段，基于静态分析的漏洞挖掘方法和动静态分析相结合的漏洞挖掘方法是近年来研究的重点和热点。

基于静态分析的漏洞挖掘方法面向静态分析场景,通过机器学习方法对代码的词法、语法、控制流和数据流等静态特征进行分析和学习,从而发现代码漏洞。

面向动态分析场景的研究主要针对缓解模糊测试、符号执行等动态分析方法存在的程序路径覆盖率低、路径爆炸以及约束求解难等问题，因此机器学习在动态分析中起到的作用是：用于测试输入生成与筛选、路径约束求解以及模糊测试参数配置预测...

本文主要本文主要侧重于基于静态分析的漏洞挖掘方法和动静态分析相结合的漏洞挖掘方法两类。

基于静态分析的漏洞挖掘方法面向静态分析场景，通过机器学习方法对代码的词法、语法、控制流和数据流等静态特征进行分析和学习，从而发现代码漏洞。
动静态分析相结合的漏洞挖掘方法则通过动态分析对静态分析的检测结果进行校正，或综合分析代码分析得到的静态特征以及动态执行得到的动态特征，从而解决静态分析的高漏报率与动态分析的低代码覆盖率等问题。

（总而言之，漏洞挖掘主要靠静态分析，动静态分析打辅助。）

二、基于机器学习的软件漏洞挖掘流程

数据获取模块：收集大量用于训练的软件程序相关数据（如已知是否包含漏洞的二进制代码、源代码、Github 提交信息等）以及用于评估的目标程序相关数据。

（1）在训练阶段：

数据预处理：数据获取模块获取的数据集中通常漏洞较少且稀疏，会出现不平衡数据集问题，因此需要通过随机欠采样、随机过采样和合成少数类过采样等方法对训练数据集进行平衡预处理。
数据表征：只能将向量用于模型计算，而源代码、Github 提交信息等软件程序相关数据通常是文本表示形式。因此，需要将文本形式的相关数据转化为向量形式。具体做法：（1）从训练数据集中按照代码度量、Token 序列、抽象语法树和图等代码的表征形式（由于训练数据集多为代码数据，因此本文将这类数据表征形式统称为代码的表征形式）抽取相应的代码表征；（2）通过编码模型将抽取得到的代码表征映射为向量表示形式；（3）将从数据表征模块得到的向量送到预先设计的机器学习模型中进行训练。
模型训练：从从数据表征模块得到的向量作为输入，经过模型提取到的特征表达作为输出。

根据计算得到的特征表达与原始标签的差异构建损失函数，通过优化方法来最小化损失函数，从而不断调整模型的参数。经过若干次训练，得到一个用于进行漏洞分类或预测的分类器模型。

（2）检测阶段

首先将目标代码数据集按照同样的方法进行数据表征；接着，将表征得到的向量送入到由训练阶段得到的分类器模型，得到目标代码的分类或者预测结果；最后，结合测试标签集计算模型算法的精确率（precision）和召回率（recall）等,进行模型评估和调优。

从上述流程可以看出，基于机器学习的软件漏洞挖掘模型主要对数据表征模块中的代码表征形式与编码模型、模型训练模块中的机器学习模型进行改进，以优化漏洞挖掘的准确率和效率。

数据表征模块：实现代码的特征选择过程,即从源数据（数据获取模块收集到的软件程序相关数据）中根据代码表征形式提取最具代表性的信息，并转化成可供后续机器学习模型训练的数值数据。主要讲一下：将程序代码视为一种特殊的文本形式，并通过自然语言处理(natural language processing,简称 NLP)领域中常用的技术来处理.如基于Token 的表征形式提取的代码段、函数调用序列以及程序执行路径等文本序列，通常使用词袋模型、TF-IDF 算法和 N-gram 模型将源数据视为与频率相关的术语集合，从而将源数据映射到向量空间。树和图的表征形式则通常从代码解析得到的树和图各节点中提取代码的语法信息,通过一定的方式组织成 NLP 领域中的语料形式，再通过词向量模型训练成对应的分布式向量表示。其中，常用的词向量模型有 word2vec。word2vec可分为两种模型：一种是根据周围词来预测中心词的连续词袋模型（continuous bag-of-words model，简称CBOW）；另一种是根据中心词来预测周围词的Skip-gram模型。

模型训练模块：选择对当前问题最优的机器学习模型。漏洞挖掘领域常用的机器学习模型有：逻辑回归、随机森林和支持向量机（SVM）等有监督机器学习模型；常用的深度学习模型：多层感知机（multi-layer perception，简称MLP）、卷积神经网络（convolution neural netwaork，简称CNN）、循环神经网络（recurrent neural network，简称RNN）以及长短期记忆网络（long short-term memory，简称LSTM）等。

三、代码的表征形似

向量表示是机器学习模型的实际输入，所以需要将源数据转换为能够表现漏洞特性的向量形式。由于需要保留源数据的语义信息(例如数据依赖和控制依赖)，通常引入中间表示作为源数据与其对应的向量表示之间的“桥梁”。中间表示即本文提到的代码表征。

常见的代码表征形式有代码度量、Token序列、抽象语法树和图。4 种形式的特征来源、检测速度及检测效果的对比关系见下表。

3.1 基于软件代码的度量

代码度量是一组用于衡量软件质量的软件度量值。常用的代码度量指标有代码行数、圈复杂度、继承深度和类耦合等。基于代码度量的表征方式通过选取若干个代码度量指标，得到能够概括代码整体信息的度量序列，使用该度量序列表示相应代码。

基于代码度量的表征方式通过若干个代码度量指标得到对应代码的度量序列，即:这种度量序列通过量化程序属性来表示代码的各种信息，并且量化表示的序列非常适合统计分析,因此检测速度快。虽然相关研究不断地扩大代码度量的范围，但是由于代码度量是基于程序的整体属性，因此与漏洞代码本身关联性不强，检测能力较差。

3.2 基于Token的表征

基于 Token 的表征形式通过对源代码进行词法分析得到，即：在编译过程中扫描源代码的字符流，依据程序语言的词法规则标记源代码的标识符、关键字、函数名和运算符等重要信息，从而将源代码的字符流转换成等价 Token 序列，映射到向量空间作为机器学习模型的输入。

3.3 基于抽象语法树的表征

抽象语法树(abstract syntax tree，简称 AST)是编译过程中的一种中间表示形式,树节点上存储的是代码的语法结构信息。基于 AST 的表征形式通常先使用 lex/yacc、flex/bison、ANTLR 等开源的词法和语法分析工具进行预处理，生成词法分析器和语法分析器。接着对代码进行词法分析和语法分析，将分析的结果构建成 AST，对语法树节点进行编码作为代码的特征。