Anomaly traffic detection in IoT security using graph neural networks

type

status

date

slug

summary

摘要

随着物联网逐渐渗透到生活的各个方面，物联网（IoT）设备的数量迅速扩大。与此同时，物联网设备已经成为攻击团体的新攻击媒介，物联网安全成为亟待解决的紧急问题。攻击者通常通过伪装来回避入侵检测，而针对物联网的攻击方法也在不断演变。为了有效识别恶意流量，我们提出了一种基于属性图的异常检测方法，用于识别物联网流量中的潜在安全漏洞。属性图的节点是从网络流量中提取的特征值，通过基于元路径的图神经网络学习流量网络的拓扑结构和属性信息。为了保证模型在大规模物联网节点下的性能，我们开发了一种基于霍夫曼编码的数据准确性调整策略，优化数据，调整了各种数据规模下属性图的大小。我们在真实网络流量数据集上进行了大量实验，证明了我们方法的有效性。

1. 介绍

贡献：

我们针对物联网场景设计了一种基于图神经网络的异常检测方法。我们将物联网流量特征及其取值作为节点，形成属性图。然后我们使用改进的图神经网络，对图中各种类型的节点和边进行聚合，以学习网络流量特征与拓扑之间的内在关系。

我们采用了一种基于霍夫曼编码的数据优化策略，以简化图的大小和结构。这可以显著缩短模型的运行时间，同时保持异常检测的准确性。

在数据集上验证，可行。

3. 基于图的异常流量检测概述

3.1 问题描述

（介绍物联网攻击，相信可以通过分析流量深层关系区分辨别）

3.2 系统设计概述

我们的方法的总体框架如图1所示。

该方法从网络数据中创建属性图，然后使用基于元路径的图神经网络（GNNs）来发现每个属性之间的深层关联。然后，通过异常检测算法来识别网络攻击，我们研究攻击者社区在不同攻击阶段如何变化。以下结构描述了方法的工作原理：

数据处理和属性图构建

从PCAP数据包中提取流量特征，使用一种基于霍夫曼编码的特征选择算法。构建属性图，分别代表节点、边、属性集合。

基于元路径的图神经网络

使用图表示学习算法来挖掘属性图中节点的隐藏状态，使用基于元路径的图神经网络挖掘不同类型节点之间的深层联系。这里的“元路径”指的是在异构图中定义的不同类型节点之间的路径。在属性图中，我们将每个节点对应的特征定义为该节点的类型，不同类型的节点有不同的关系。

我们考虑了在GCNs的异构图上进行改进，定义的属性图中节点的类型与网络流量的特征相匹配，所以可以通过定义相同数据包的不同特征元路径和不同数据包的相同特征元路径来确定流量之间的内在联系。

异常检测

在这一部分，我们通过综合余弦相似度和欧几里得距离来评估节点低维嵌入之间的相似性。然后，我们根据节点相似性来识别异常流量并对攻击社区进行分类。基于检测结果，我们还统计了完整网络攻击的不同阶段攻击社区的演变。

4. 技术细节

4.1介绍数据预处理阶段的数据准确性调整和使用原始流量构建属性图。4.2介绍使用基于元路径的GNNs对属性图获取节点嵌入。4.3介绍如何使用节点嵌入来进行异常检测。

4.1 数据预处理和属性图构建

从原始PCAP文件中提取流量特征，使用特征选择算法选择出排名前K的重要特征。

4.1.1 基于霍夫曼的数据准确性调整（略看）

节点数量与数据包数量和提取特征数量是正相关的，在构建属性图时，节点数量级为，分别表示数据包数量和提取特征数量，所以为了减少计算时间和内存，提出了一种基于霍夫曼编码的数据准确性校正技术。

具体细节：对于两个数据包到达的时间差相差10的6次方秒内，可以认为是同时到达，在属性图上也就是这两个数据包的特征相关到同一个节点上。过大和过小的精度都会影响检测性能。

本篇文章中采用的是霍夫曼编码的思想，对于高频的流量数据数值区间使用高的提取精度，低频的同理。数值区是用三个四分位数划分四个区间，对于每个序列计算平均值，分别和三个四分位数比较，选择对应的精度进行数据优化。一共有一下三种情况：

平均值位于任意两个四分位数之间。将平均值与相邻的两个四分位数之间的区间设置为高精度，其余部分低精度。

平均值位于最小值和第一个四分位数之间。将平均值到第一个四分位数范围设为高精度，其余部分低精度。

平均值位于最大值和第三四分位数之间。从第三四分位数到平均值之间设置为高精度，其余部分低精度。

一旦确定了高精度区间和低精度区间，数值范围将基于原始数据的精度来确定。例如，当某个区间的原始数据维持在 10^(-6) 时，高精度值可以设定为 10^(-4)，而低精度值可以设定为 10^(-3)。

4.1.2 构造属性图

使用来表示具有个数据包的流量集合，有公式其中M表示数据包数量，N表示特征数量。网络流量的提取特征和特征值分别被看做属性图中的节点和节点属性，每个特征之间的内在联系被看作是边

在隐藏空间中，一个packet可以被看做一个关系的集合，相同的节点可能出现在不同的packet，包含相同节点的packet在隐藏空间有相似的表示。经过辐射影响，即使不包含节点的packet也可能受到影响。

举个例子：packet 1和packet 3都用相同的proto，虽然packet 1和packet 2不相关，但是packet 2和packet 3有共享节点，会通过辐射影响到节点信息。

属性图中的边随机初始化权重，当节点对在多个事件中重复出现时，我们将这些事件中的节点对的初始权重相加。在数据集中频繁出现的节点对具有较大的权重，具有独特特征和不经常出现的节点对的权重较低。当权重差异过大时，低权重节点对的信息将变得不清晰。因此，我们使用平滑函数 𝑆(⋅)（参考[33]）将权重映射到 [0,1] 区间。

4.2 基于元路径的GNNs

通过以上我们获得了属性图G和N个节点M条边，接下来将每个节点映射到低维空间，并使用基于元路径的GNNs提取内在关系。

原始的GCN可以通过叠加层数获取多阶邻域信息。（介绍GCN公式）。

在信息权重聚合阶段，为了更好的捕捉节点之间的关系，定义了元路径表示节点 i 和节点 j 的关系，K表示元路径长度，此时元路径的邻接矩阵表示为

其中是元路径的邻接矩阵，是边的类型数量，表示边的类型，表示边类型的权重，表示边类型的邻接矩阵。最后的正向传播表示为

表示中的第i个矩阵，X是维特征矩阵，W是可训练矩阵，最终的损失函数

（说实话我没看懂）

4.3 异常检测

在上面得到节点的低维嵌入向量，将它们组合成矩阵包含了特征与流量的时间信息之间的内在关联。

节点对之间的相似性是通过余弦距离和欧氏距离进行评估的。余弦距离主要用于通过它们之间的角度大小来确定两个向量的相似性。角度越小，节点的相似性越高。欧氏距离可以反映向量值之间的绝对差异。具体的相似性公式如下所示：

拥有包含 𝑁 个节点的属性图会生成 𝑁 (𝑁 − 1) ∕2 个新特征。这些新特征用来替代流量中选择的特征。然后，利用LightGBM算法和聚类算法基于这些新特征对流量进行分类。

6. 结论

对于物联网场景，我们提出了一种基于图的入侵检测方法。我们使用属性图来表示物联网流量。为了说明流量的各种属性之间的固有关系，流量的属性值被用作图的节点。然后，我们采用基于元路径的聚合方法，通过学习图节点的低维表示来增强图卷积网络。为了找到异常流量，我们使用低维向量相似性来对异常流量进行聚类。此外，基于实验结果，我们统计了完整攻击不同阶段的攻击簇的演化情况，以供未来研究参考。

此外，我们基于Hoffman编码的数据精度调整方法优化了数据结构和图结构，显著提高了异常检测性能。该方法能够在确保异常识别准确性的同时减少运行时间和内存使用。在公开可用的物联网数据集上进行的实验结果显示，所提出的物联网异常检测方法可以以高速度获得高异常检测率。