type
status
date
slug
summary
tags
category
icon
password
TS-IDS:用于物联网网络入侵检测的流量感知自监督学习 2023 SCI1
TS-IDS
hoangntcUpdated Apr 21, 2024

摘要

随着物联网(IoT)技术的最新进展,越来越多的人可以即时轻松地访问庞大而多样的互联设备网络(例如,监控摄像头、运动传感器或智能手表)。这一趋势导致了物联网网络中网络攻击的频率和复杂性显著增加。此外,这些攻击给个人带来了严重的财务和隐私损害,凸显了开发更有效和健壮的网络入侵检测系统(NIDS)的需求。网络入侵检测(NID)旨在识别网络设备中的攻击,这是保护和维护网络安全的重要任务。尽管最近基于机器学习的方法已经发展并提供了更高效的非人工干预解决方案,但这些方法仍然存在一些未解决的问题。现有解决方案的主要局限性之一是大多数方法独立地关注在流级别提取特征,并忽视了这些特征在网络中的相互作用,从而影响了检测性能。为了解决这个问题,在本文中,我们提出了一种面向物联网网络入侵检测系统的Traffic-aware自监督学习,即TS-IDS,旨在捕捉网络实体之间的流关系。我们的方法利用节点和边特征以提高性能。此外,我们还结合了辅助属性的自监督学习(SSL),以增强图表示,即使在没有标记数据的情况下也能实现。我们在两个真实世界的数据集NF-ToN-IoT和NF-BoT-IoT上进行了实验。我们将所提出的模型与最先进的基线模型进行了比较,以展示我们提出的框架的潜力。
关键字:入侵检测 ,物联网,图神经网络,人工智能
 

1. 介绍

在物联网的发展过程中,检测网络威胁景观并防止它们攻击物联网网络已经成为一项关键任务。现有任务分为两种:基于签名基于异常的方法。基于签名的方法就是与历史数据中进行匹配检测,但是不能标记未知的新可疑行为。基于异常的可以解决这个问题,该方法使用机器学习(ML)和深度学习(DL)算法。但是基于异常的这些方法依赖于手工特征质量,还侧重于单独的流量数据记录,没有考虑流量之间互相关系。
近期CNN和RNN用于提取空间和时间特征,但是它们大多集中于独立提取流级别的特征,并忽视了终端之间的互动和网络中的流量传输;因此,它们无法捕捉网络的拓扑结构和通信模式。
近年来,图论已得到广泛研究,并提供了强大的框架,用于捕获网络中更复杂的关系和依赖关系。因此,一些最近的工作采用这种方法来开发NIDS [17-19]
基于上我们提出了Traficaware Self-supervised model for Network Intrusion Detection, TS-IDS,我们将NID问题表述为一个链接分类任务,根据流网络的图表示(即,从节点级别表示中获得的节点和边的特征)。在TS-IDS中,节点的特征是基于终端的流量行为的先验知识提取的两个节点之间的流量流代表了边的特征。为此,我们利用图神经网络(GNN)来学习结构和拓扑信息。为了更好地传达图表示的任务,我们设计了一个自监督预测学习模块,随后是一个节点属性预测模块,用于区分终端表示的低流量和高流量。
提出的框架和现有工作不同点的有:
  • 不一定需要提前从网络流量数据中提取特定特征。该方法利用GNN来捕获网络的结构和其中的关系。
  • CNN和RNN无法捕捉流量之间的关系和相互作用,或整体网络拓扑结构。我们的方法通过使用专门设计用于处理这种图结构数据的GNN来克服这一限制。
  • 最近的研究工作[17-19]是网络入侵检测(NIDS)领域的最新研究,旨在利用GNN捕捉网络模式。然而,这些方法可能没有充分考虑所有可用的先验信息,比如通过终端的流量量。在[19]中提出的SSL模块需要额外的步骤,将池化函数应用于图形,从而生成统一的图嵌入。我们的SSL方法利用基于辅助属性的SSL来增强图形,避免了定义特定池化函数的需要。
 
本文的贡献:
  • 我们设计了TS-IDS,这是一种基于自监督学习的GNN方法,用于在大规模物联网(IoT)入侵检测系统数据集中进行攻击检测。TS-IDS旨在将设备网络中流量的先验知识整合到节点和边特征中。
  • 我们构建了一个流量感知的自监督模块,以丰富图表示。
  • 我们捕获了物联网网络的拓扑结构和通信模式,据我们所知,这是第一个考虑了全面网络信息的方法,包括节点的历史行为和它们之间的通信(边特征)。
  • 在真实数据集上测试
文章其余部分,第2节介绍入侵检测的基于人工智能方法的发展回顾。第3节问题描述,第4节框架算法具体细节,第5节实验设置和结果,第6节总结。

2. 相关工作

回顾人工智能入侵检测方法,图上的自监督学习概念。

2.1 网络入侵检测

网络攻击视为一种分类任务(异常正常二分类,多种类型攻击的多分类)。
(介绍SVM工作)基于SVM的模型的一个主要限制是性能取决于所选择的核函数,这使得它的实际应用性较低。
(介绍朴素贝叶斯、自组织映射、随机森林、XGBoost)
入侵检测模型还可以以无监督的方式进行训练。Yao等人[34]提出使用基于密度的应用噪声的空间聚类(DBSCAN),在文献[35]中,作者研究了在传感器云系统的不平衡数据集中检测异常时密度峰值(DPeak)聚类的效果。无监督聚类算法的一个缺点是这些方法的结果取决于初始化或假设[36]。
基于深度学习的方法为入侵检测系统(IDS)带来了更多的潜在方法,它们允许通过多个隐藏层传递知识,以生成潜在表示,而无需领域知识。这些方法也可以以监督和无监督的方式进行训练。Muhammad等人[37]致力于通过实施基于堆叠自动编码器(AE)模型,后跟传统的多层感知器(MLP),来提高金融物联网环境的安全性。他们在三个数据集,KDDCup99、NSL-KDD和AWID上进行了广泛的实验,以证明无监督的深度学习技术应该用于更具信息性的输入特征潜在空间。
使用卷积层来高效检测入侵的方法。这个想法背后的动机是通过将原始数据表示为一维图像数据,从中提取空间特征。在[41]的工作中,攻击是基于一维卷积神经网络(CNN)模型提取的特征进行自适应粒子群优化(PSO)来检测的。
相比之下,[43,44]的研究假设时间特征可能有助于提高入侵检测系统的整体性能。Le等人[43]试图通过应用循环神经网络(RNN)来实现这一目标。他们的模型基于不同类型的RNN构建,包括传统RNN、长短时记忆网络(LSTM)和门控循环单元(GRU)。与基线相比,在NSL-KDD数据集和ISCX数据集中,他们的模型可以将检测错误率降低至少2%和1%。他们还进一步表明,使用LSTM和GRU层可以显著提高检测性能。在[45]中,Ullah等人设计了一个基于LSTM和GRU的轻量级异常检测模型。他们在每一层中使用正则化项来稳定学习过程并保持检测成功。他们还提出使用加权损失函数来处理不平衡的数据集。在七个数据集上展示的结果表明,有可能开发出更轻量级的模型,而不影响适用于现实场景的效率。
 

3. 问题描述

我们在IoT网络上应用了一个GNN模型,以学习基于流量数据的结构信息,同时通过自监督的预测学习模块来区分正常和异常流量的表示。节点和边的特征是基于先前的知识进行提取的。通过这样做,我们旨在通过学习和概括网络中的正常模式来检测异常行为。
(公式定义)
借用图1中描述,每个端点由一个地址(IP地址)定义,每个交互由网络流量和流量量(例如入站和出站的数据包以及字节)描述。
notion image
 

4. 方法论

图2展示了提出的TS-IDS整体架构,首先,网络被数据转换为一个图结构,节点和边的标签和辅助标签经过预处理后,输入到提出的模型中。TS-IDS整体包含两部分:GNN和自监督学习模块。
TS-IDS的完整结构图,包含两个模块:图神经网络、自监督预测学习。数据以图的方式构建以后就可以输入到框架中。
图神经网络包含两个主要步骤:1. 节点编码,通过消息传递使特征整合生成节点嵌入。2. 边编码,是两端节点的特征结合,可以用于边分类。
自监督预测学习模块用于预测网络中给定节点的属性。因此,将节点编码的输出作为模块输入,它是一组节点嵌入,然后进入分类器。在本文中, 节点的属性表示节点处于高流量或低流量阶段。
最总的损失是这两个损失的总和。
TS-IDS的完整结构图,包含两个模块:图神经网络、自监督预测学习。数据以图的方式构建以后就可以输入到框架中。 图神经网络包含两个主要步骤:1. 节点编码,通过消息传递使特征整合生成节点嵌入。2. 边编码,是两端节点的特征结合,可以用于边分类。 自监督预测学习模块用于预测网络中给定节点的属性。因此,将节点编码的输出作为模块输入,它是一组节点嵌入,然后进入分类器。在本文中, 节点的属性表示节点处于高流量或低流量阶段。 最总的损失是这两个损失的总和。

4.1 预处理

网络构建。每个节点代表网络中的一个唯一终端(或主机),通过其IP地址进行区分。有向边表示从源节点到目标节点的连接。边与附加数据相关联,例如传输的数据包数或流量的持续时间。
特征预处理。将所有流量记录字段分类配为边特征,出/入流量字节,出/入流量数据包,总字节/流/数据包和持续时间。节点特征表示为传输的频率。使用StandardScaler方法进行标准化处理。
节点辅助标签抽取。自监督学习方法需要生成节点的标签集,对节点的总流量来抽取特征。流量的数量可以认为是一种区分的指示。(文章认为高流量节点可能扫描网络等)将高于历史均值的定义为高流量节点(标签1),其他节点标记为低流量节点(标签0)。值得注意的是,我们可以使用不良比率的定义,该比率表示从该节点触发的攻击数量与总流量的比率作为标签。然而,对于自监督学习,我们的目标是在此模块中不使用目标标签。
 

4.2 图神经网络

该组件主要任务是捕获图G结构信息。假设图神经网络可以学习图的拓扑结构节点和边属性,使得在嵌入空间有明显区分。GNN对边编码有两个步骤:(1)节点编码(2)边编码
节点编码使用节点本身它所有边的标签进行编码。边编码使用两端节点的信息组合生成边的编码。这种方法可以使模型同时学习到节点和边的信息,提高其捕获网络数据相关特征的能力。
节点编码。合并边缘表示公式
notion image
是节点i的特征向量,是节点和节点的边特征。可以是任意的最小、最大、平均、连接操作,文中使用的两个是连接和平均函数是在每次迭代时计算特征向量权重所采用的注意机制。注意机制本文使用了多头注意力[64]和多头自注意力[65]进行实验。
图3展示了如何整合边特征执行节点编码。涉及两个过程:邻居抽样消息传递。使用表示图的节点编码表示。
notion image
边编码。这一步主要通过节点嵌入生成边嵌入。节点和节点的边特征向量计算方式:
notion image
函数可以替换为任意函数,例如Hadamard、L2、L1或拼接操作
 

4.3 自监督预测模块

由于模型的效率取决于抽取突出边的潜在表示,所以我们通设计一个自监督学习模块,通过其表达能力的测量来丰富节点嵌入点。可以根据原始图数据中未明确提供的图属性在监督训练过程中学习节点嵌入。在我们提出的模型中,我们通过区分两组节点的方式来学习节点嵌入,这两组节点是根据通过它们的流量量进行分类的(即高流量和低流量)。
所有节点的辅助标签是通过4.1节中描述的统计方法获取,模型获取到公式(2)的输出。具体而言,我们定义了一个分类器,它将节点表示映射到其流量组的概率分布。使用一个单层感知器,后跟一个sigmod函数,目标函数可以定义为标准的二元交叉熵损失:
notion image
 

4.4 TS-IDS模型

定位为一个分类问题,通过将监督学习和自监督学习模块的损失函数相加,我们得到了最终的损失函数。
notion image
算法1概述了TS-IDS的训练过程
notion image
 

5. 实验分析和结果

6. 结论和未来方向

在本文中,我们探索了深度图神经网络在网络入侵检测中的能力。我们提出了TS-IDS模型来捕获网络拓扑,它包含了网络流的节点和边特征。我们实现了一个自监督学习模块,可以丰富边的表示。通过论文中描述的实验,我们展示了相比于用于NIDS的最先进的基于GNN的方法,所提出的框架可以有效地执行任务。尽管显示了改进,我们的模型仍然面临一些局限性。因此,在真实场景中进一步探索以捕获网络的显著拓扑特征是值得的
第一个局限性是我们的模型是一个黑盒子,这也是当前深度神经网络的主要局限性。因此,作为未来工作的重点之一,我们希望研究开发一个更透明的模型,有助于更好地解释检测决策背后的原因。这很重要,因为它将有助于解决当前缺乏解释性的问题,这是入侵检测系统中使用的深度神经网络所面临的主要挑战之一。
其次,我们的模型未捕捉网络流量数据的时变性质。因此,我们计划进行的另一个未来工作是进一步研究预测模型中时间的影响。直观地说,网络流的模式是不静态的。网络流量和攻击模式可以演变。例如,某一时刻的攻击模式可能与最近的时间戳高度相关,而不是那些很久以前记录的时间戳。这些信息应在学习阶段捕获,并纳入图形表示中,以提供更准确的预测。因此,我们的目标是研究如何将时间信息纳入预测模型,以提高其准确性,并使其在检测入侵方面更加有效。
此外,我们尚未探讨不平衡数据集的影响,这在入侵检测中是一个常见的挑战。在未来,我们有兴趣探索数据增强技术(例如,对抗性学习),以生成足够多的数据,用于处理不平衡数据集所带来的问题,特别是对于少数类别数据组。这将有助于提高模型的性能和准确性。
最后,我们的目标是将我们的方法扩展到解决基于图结构的对抗性攻击,使网络入侵检测系统对不同的对抗性机制更加强大。对抗性攻击和防御的主题在计算机视觉和自然语言处理领域得到了广泛研究,但在入侵检测系统的背景下受到了有限的关注。这个研究课题的重要性在于,成功的攻击对计算机网络可能产生严重后果,因此值得进一步研究。
在降低机器学习和深度学习方法的计算成本领域,应用联邦学习的一个有前途的方向在于它具备利用分散式计算资源的潜力。这种范式转变有望解决大规模机器学习应用的计算挑战,为实时部署提供经济高效的模型。通过采用联邦学习,我们可以为未来铺平道路,实现大幅降低计算成本,同时仍然获得高质量的机器学习和深度学习模型。
 
A survey on graph neural networks for intrusion detection systems: Methods, trends and challengesAnomaly traffic detection in IoT security using graph neural networks
  • Valine