type
status
date
slug
summary
tags
category
icon
password
IEEE Transactions on Information Forensics and Security (CCF-A) 2023
半监督学习动态折线图神经网络在入侵检测中的应用

I. 摘要

深度学习(DL)通过有效的统计网络特征描述极大增强了二进制异常检测的能力。然而,入侵类别区分性能仍然不足。有两个相关的挑战尚未得到充分探索。1)过于强调统计攻击特征,而忽视了固有的攻击拓扑结构;从整个流量中提取序列特征,但很少考虑每对IP之间随时间演化的交互进化,如长短期记忆(LSTM)和门控循环单元(GRU)。2)在大规模、复杂和异构网络中,满足对许多高质量标记数据样本的需求是一项昂贵而劳动密集的任务。为了解决这些问题,我们提出了一种基于动态线图神经网络(DLGNN)的半监督学习入侵检测方法。我们的模型将网络流量转化为一系列时空图。采用动态GNN(DGNN)从每个离散快照中提取空间信息,并通过连续快照捕获IP对之间通信的上下文演化。此外,线图实现了与网络通信相对应的边嵌入表达,并增强了图卷积的消息聚合能力。在6个新数据集上的实验证明,我们的方法在异常检测中实现了98.15%至99.8%的准确率,并且使用较少的标记样本。同时,达到了最先进的多类别性能,例如在6个数据集上,针对DDoS的平均检测准确率达到了95.32%
 

补充

在图论中,图 所对应的线图是一张能够反映 中各边邻接性的图,记作 。简单来说, 中的每条边各自抽象成一个顶点;如若原图中两条边相邻,那么就给线图中对应顶点之间连接一条边。因为线图将原图的边化作了顶点,所以也可以将其视作原图的一种对偶。
notion image
notion image

I. 介绍

之前开发的DL-based NIDS方法仍然存在两个挑战尚未解决。
  1. 主要关注流量的特征统计,忽略网络拓扑和 IP 随时间演变的交互。主要处理结构化数据,包括网格数据和序列数据。LSTM、GRU 等 RNN 模型集中于序列中间的相关特征,很少进一步跟踪 IP 之间的信息交互。网络中的入侵和恶意行为具有明显的时空特征,而了解网络拓扑和主机通信的上下文演变可以揭示一些潜在的安全风险。
  1. 需要高质量标记样本。半监督学习是一种有希望的解决方案
主要贡献:
  • 将网络流量转化为一系列动态时空图,采用了一种新颖的动态图神经网络(DGNN)来检测时空图中的入侵。第一次将网络的拓扑信息和每对IP之间的信息交互过程结合到基于图的深度学习中。
  • 采用线图增强空间表达,并实现与各种图卷积的兼容。线图结构的卷积直接有效地产生了入侵检测任务所需的边嵌入。据我们所知,这是首次尝试使用线图结构研究入侵检测。
  • 使用半监督学习,减少了所需的标记流量样本数量。
  • 比其他先进方法优秀。
第2节回顾了相关工作,第3节介绍了所提出的NIDS方法。在第4节中,我们报告了大量的实验结果,并在第5节中对全文进行了总结。
 

II. 相关工作

表 I 展示了,其他方法和本文方法的区别。
notion image
 

III. 基于动态线图神经网络 (DLGNN) 对 NIDS 进行建模

首先,NIDS 模型将网络流量展开为一系列离散的时空图。接下来,NIDS 模型通过结合网络流量的统计数据和拓扑信息提取每个图快照的空间特征。在此基础上,NIDS 提取不同快照之间的时态依赖关系。通过半监督学习,在少量的标记中区分异常流量。同时,考虑到网络流量的局部性原则(短时间内高频率访问),我们在NIDS训练过程中实施了一系列优化,包括权重共享和滑动窗口优化。

A. 威胁模型

威胁模型与参考文献[29](物联网环境)和[7](传统互联网环境)中使用的模型类似。假设网络中有一台基于流特征收集器的路径设备,比如路由器。记录的网络流量由默认的五元组定义进行描述,即源IP地址、源端口、目标IP地址、目标端口和传输协议[34]。可以被组织成多种流格式。
notion image
图的理解。左侧从外部的流量包含了正常和异常流量。右侧进入流特征收集器(路由器)以后,一边转发,一边存入数据库,对流信息生成拓扑图,数据传入 NIDS 进行训练,之后对路由器进行一些操作,实现实时监测。
攻击者目的是从外攻击内部设备。我们更倾向于使用网络流量统计数据而不是更细粒度的深度数据包检查。此外,基于 DLGNN 的 NIDS 进一步融入拓扑信息和时序依赖关系。在离线训练以后可以作为一台实时过滤器。

B. 动态时空图快照

我们将网络流量表示为一系列静态图,这些快照是从双向流量之间采集的。受到5G新无线电(NR)帧结构的启发[35],不同 IP 之间的链接被视为不同的“载波频率”, 不同IP地址之间按顺序发送的网络流被视为特殊的“帧”。
notion image
上方:一般流量的静态特征;红色表示异常流量,蓝色表示正常流量,白色表示占位符(随机噪声)。 图左右两侧节点双方,中间是流量信息。每一个数列的流量信息生成一个时空图,正常流量用蓝色边,异常流量用红色边,时空图按顺序演变更新。
(用公式介绍了一下邻接矩阵的构成,正常连接标记为1,其他为0)。边的特征是基于特定流格式的网络流量统计数据,例如 TCP 请求头,不包括载荷信息。
例如对 DDos 这种持续长时间的攻击,提出的NIDS模型试图通过图演变(包括边缘特征和拓扑的变化)来理解这种行为模式,能获取更精细的粒度进行追踪。
由于网络流量在时间和空间上是非均匀分布,例如掉线的双方没有通信,所以在捕获的流量中随机插入占位符来填充,占位符的邻接矩阵表示0再加上特殊的占位符标记。假设有 K 个快照,这就转化为在 K 个图上的边检测任务。最终在一小部分带有标签的边上进行半监督学习,最后在未标记的边上进行验证。

C. 使用线图提取空间特征

对于图卷积提取每个快照的边嵌入,遇到两个挑战:
  • 每个网络快照的信息容量会比上一个更稀疏,直接使用卷积会导致严重的过度平滑。
  • 图卷积通常操作生成节点嵌入,无法直接捕捉入侵检测所需的边特征。
解决这个问题使用了,更深的GCNII [36]层和线图结构。与基本的 GCN 相比,GCNII 架构通过采用称为残差连接恒等映射的两种结构来缓解过拟合问题。
[29]使用消息传递机制来采样和聚合给定图的边信息,但未解决过度平滑问题。文章受图论中的线图启发,
(讲解线图优势、一些基本理论、公式)算法1总结了基于线图的空间特征提取过程。
notion image
线图会提高等效边密度,增加的连接密度使得在线图上执行的卷积操作可以聚合更多的邻居流信息。下图展示线图在图卷积操作方面的优势
notion image
自己理解是,如果对节点图的卷积结果也是在节点上,对于线图,卷积的结果也会是一条异常的边。

D. 通过GCNII-GRU层融合时空特征

过程
notion image

E. 基于DLGNN的网络入侵检测系统框架

框架图如下所示,首先将原始网络流转换为离散的图快照,然后转化为对应的线图,再将线图的结果输入到 DLGNN 的入侵检测模型中,生成节点嵌入。用到的优化方法包括权重共享和滑动窗口训练。最后的节点嵌入用于半监督分类。
notion image
分为上中下,左右侧。 上面部分从静态流量和拓扑结构生成时空线图,图信号包括协议、byte流、tcp flag等。 中间部分对根据时间生成的不同快照进行图卷积,其中使用了权重共享、初始残差连接。 下面将图卷积的结果输入到 GRU 中,将多个 GRU 网络的结果融合生成一个 Fusion。图卷积和 GRU 用到的结构在图右侧。 最终再进入一个半监督的分类器中检测异常
1)半监督节点分类和NIDS模型的优化。介绍半监督学习
2)网络局部性的NIDS模型优化。被攻击的网络节点前后很有可能发生攻击,正常流量也是。所以在多个连续的时间片段上训练的GCNII层之间共享相同的权重。减少模型参数的数量,同时仍然有出色的结果。
长时间序列中规律不太明显,所以采用滑动窗口机制提高模型的稳定性。窗口可以重叠。

IV. 实验部分

 

V. 结论

我们提出了一种基于 DLGNN 和半监督学习的新型实时 NIDS,该方法利用图卷积提取拓扑信息,并通过定制的GRU层学习每个主机节点随时间的演变。此外,我们采用线图结构直接生成边嵌入,从而增强了图卷积操作的信息聚合能力。在仅有30%的训练样本标记的情况下,更有效。总之,我们的模型有效地利用了网络流量在时空维度上的自然分布特征,实现了改进的检测性能和数据利用效率。我们未来的工作将重点解决入侵检测中的数据不平衡问题以及长流中多次攻击事件的情况
 
EULER: Detecting Network Lateral Movement via Scalable Temporal Link PredictionDeepSyslog: Deep Anomaly Detection on Syslog Using Sentence Embedding and Metadata
  • Valine