FlowMiner:基于流关联挖掘的加密流量分类模型
摘要
随着流量加密技术的持续发展,加密流量分类任务面临日益严峻的挑战。现有方法主要通过提取侧信道特征(如数据包长度和时间序列)来应对加密带来的困难。然而,这些方法通常仅在流级别或包级别进行独立分类,普遍缺乏对不同流样本之间关联性的挖掘机制。由于忽略了流与流之间的相关性信息,这类模型在多种任务中的性能受到显著限制。
为解决上述问题,我们提出 FlowMiner——一种基于流关联挖掘的图分类模型。该模型首先提取时间、长度、内容、字节分布及交叉特征,并将其作为图中节点的初始特征;随后,通过分析不同网络流之间的关联关系,构建流交互图。在此基础上,FlowMiner 利用图神经网络(GNN)高效捕获流间的高阶关联特征,并通过一个集成池化模块生成鲁棒的图级表示向量,最终用于分类决策。
在八个公开与自建数据集上的大量实验表明,FlowMiner 显著优于当前多种最先进方法。更重要的是,在两个真实世界评估场景中,FlowMiner 在恶意流量识别任务上精确率超过 95%,充分验证了其在实际应用中的高有效性与强泛化能力。
关键词:网络流量分类,加密流量,图神经网络,图分类
I. 引言
网络流量分类是网络安全与网络管理中的一项基础性任务,广泛应用于应用识别、入侵检测和 Web 服务发现等场景。近年来,随着加密技术(如 TLS 1.3)的广泛应用,传统的深度包检测(DPI)技术已难以适用于加密流量分类任务。与此同时,流量伪装与混淆技术的快速发展进一步加剧了分类难度——攻击者和网络犯罪分子可利用虚拟专用网络(VPN)、抗审查代理以及 Tor(The Onion Router)等工具规避监管系统。
目前,大多数加密流量分类方法依赖于数据包长度或时序信息,从中提取流级或包级的统计特征,再结合机器学习或深度学习模型进行语义建模。然而,这些方法仍存在以下关键局限性:
- 特征提取不全面:现有方法往往仅关注特定维度的特征,例如仅提取时空特征 [1],或仅使用字节级特征 [2,3]。这导致模型任务泛化能力弱,难以适应多样化的流量分类场景;
- 异构特征融合困难:统计特征通常表现为表格化、异构的高维数据(如时序特征与长度特征之间缺乏显式关联)。而当前深度学习在表格数据上的优势尚未充分显现 [4],如何有效融合多维度、异构的流量特征仍是亟待解决的问题;
- 忽略流间关联信息:主流方法仍局限于单一流或包的独立分析,未挖掘不同网络流之间的潜在关联,从而丢失大量上下文协同信息。
近年来,图神经网络(GNN)因其强大的关联关系建模能力 [5] 受到广泛关注。已有研究尝试将 GNN 应用于特定流量分类任务,如应用识别 [6,7]。但这些工作通常仅基于部分流量信息(如包长或字节序列)构建图结构,未能充分刻画流与流之间的交互行为。因此,如何利用 GNN 深度挖掘流量内在关联,并构建一个通用、鲁棒的加密流量分类框架,仍需深入探索。
为应对上述挑战,我们提出 FlowMiner —— 一种深度融合时间、内容与行为等多维异构特征的新型加密流量分类模型。
(1)具体而言,我们提出了一种新颖的流量图构建与表示学习方法,能够有效捕获网络流之间的交互行为,为后续图级分类奠定基础。区别于以往在单一流或数据包层面构建流量图的工作,FlowMiner 的核心贡献在于首次实现基于'流间交互图'(inter-flow interaction graphs),从而显著拓展了加密流量中可利用信息的边界。
(2)此外,我们提出了新型流量特征表示方法。与以往仅关注原始字节内容的方法不同,我们为流量字节生成了多维度统计特征。特别地,我们设计了交叉特征(cross-features),从一个全新视角刻画流量内容——通过建模流量特征不同属性列之间的相关性(例如包长度与时序特征之间的关联),揭示特征列间的内在耦合关系,从而捕捉传统方法忽略的高阶语义。
(3)同时,我们精心设计了 FlowMiner 的图神经网络表示学习组件,并提出一种集成式决策池化模块(integrated decision pooling module)。该模块的关键创新在于:在图池化过程中引入显式决策机制,不再简单采用最大值或平均值聚合,而是动态权衡图中所有节点的信息重要性,从而更全面地保留流交互图的整体结构与语义特征。
本文的主要贡献总结如下:
- 从新视角提出创新性特征:包括字节统计分布特征与非线性交叉特征。这些增强特征不仅补充了对字节模式的学习,还显式建模了不同特征维度间的交叉依赖关系,有效弥补了现有方法在特征表达上的不足;
- 提出 FlowMiner —— 一种通用型加密流量分类模型。该模型通过挖掘不同流样本间的关联性构建流交互图,并利用专门设计的图神经网络,从图中联合学习浅层统计特征与深层行为交互特征。这种设计实现了异构统计特征与行为特征的有益互补,显著提升模型判别能力。通过生成鲁棒的图级表示向量,FlowMiner 在多种流量分类任务中展现出广泛的适用性;
- 在八个真实流量数据集上的大量实验表明,FlowMiner 具有卓越的流量表示学习能力,性能显著优于当前最先进的方法(SOTA)——在所有任务上,其平均 F1 分数比最佳基线模型 BIND 提高了 10.18%。尤为突出的是,FlowMiner 在保持极小模型体积的同时仍达到最优分类性能,超越现有深度学习方案。真实部署测试结果进一步证实:无需任何专家规则或先验知识,FlowMiner 即可在恶意流量识别任务中媲美业界领先的入侵检测规则集(如 Emerging Threat Ruleset),精确率超过 95%。


