半监督机器学习方法
Erman等人2007年为了克服有监督学习的标记样本困难和无法发现新应用的缺陷而提出半监督的流量分类方法。该方法将少量有标记样本和大量无标记样本作为训练集,首先运用K均值方法将训练集划分成不同的“聚类”;根据“聚类”拥有的标记样本的类别信息将其映射到应用类别。映射过程通过计算最大似然估计簇内有标记样本的后验概率,即将簇映射到应用类别的概率。同年,Feng Qian等人提出利用高斯混合模型的半监督网络流量分类,利用样本数据估计混合高斯分布形式的参数值,运用高斯混合模型对训练集数据进行聚类,然后通过计算后验概率对每个“聚类”的样本进行应用类别标记。
2008年柳斌等人利用K均值将包含少量有标记样本和大量无标记样本的训练样本集进行聚类,然后利用后验概率计算方法实现“聚类”到应用类别之间的映射。该方法能发现新的应用,但在标记样本较少时,分类准确率不高。2009年陆伟宙等人利用半监督学习方法对Web流量进行聚类,利用隐马尔科夫模型描述Web流的事件序列,然后利用K均值聚类方法进行聚类,根据已标签数据对无监督聚类结果进行调整再聚类,直到聚类结果不再改变为止。该方法主要针对HTTP应用的流量分类出其Web流。2009年HE HaiTao等人提出基于集成学习和协同学习进行流量分类的半监督学习方法,该方法可通过协同学习选取无标记样本提升分类器性能,最终集成6个基分类器分类未知样本。但是在利用无标记样本的启发式规则不完善,导致分类器在时效性上尚存在不足。
基于网络图理论的分类介绍
BLINC流量分类方法由Karagiannis等人提出,BLINC方法是基于主机行为的另一种网络应用识别方法。BLINC方法从三个层面识别网络流量:社会层,功能层,应用层。
在社会层主要目标是研究某个主机的交互情况;在功能层的目标是鉴别主机的功能类型(提供服务、使用服务、两者皆有)。应用层的目标是以社会层和功能层的工作为基础鉴别网络流量的应用类别。在该层所使用的信息包括四元组(源IP、源端口、目标IP、目标端口)、传输层协议和报文大小,其主要工作是对不同的网络应用进行模式化,抽取出Graphlet。Graphlet由四元组或者四元组和传输层协议组成,前两组(源IP和目的IP)揭示主机的社会级行为,加上源端口揭示主机的功能级行为,所有组共同构成连接模式揭示应用层行为。对不同的应用进行模式化建立Graphlet库后,当有新的网络流到达,就计算其中的四元组或者五元组,以及网络流的结点之间的通信关系,与Graphlet库进行匹配后,得到网络应用类别。
网络流散列图(TDGs)流量分类方法由Iliofotou等人提出。TDGs的基本原理是将整个网络中的主机之间的通信行为组建成TDGs。TDGs的一个结点代表一个IP地址,两点间的边代表两个结点之间有通信行为。构建TDGs后可以根据图论的相关性质识别主机之间的通信行为,分析每种网络应用的通信模式,为每种网络应用结合图论的相关性质建立阈值与启发式规则,用于将TDGs所表示的通信行为与网络应用相对应。Iliofotou等人继续应用TDGs构建一个P2P流量分类框架。
基于端口和载荷的传统流量分类方法因端口动态分配和载荷加密技术的广泛应用而逐渐失效。基于流属性的机器学习的网络流量分类方法,因不依赖于端口号和报文载荷内容而被大量研究应用解决网络流量分类问题,然而其面临需要标记样本类别先验信息、分类器扩展性不好、类别数据偏斜问题等挑战。基于网络图理论的方法开创一种从用户社会行为对流量进行统计分析分类的新角度,目前更侧重于研究各种具体应用流量的模式行为分析以及特定行为模式应用的识别分析。未来,一个高效准确的网络流量识别系统不会是某个方法的单独应用,而是各种方法的综合应用。
(作者单位为华南理工大学信息网络工程研究中心)
参考阅读:
[1] Roughan M, Sen S, Spatscheck O, et al. Class-of-service mappingfor QoS:A statistical signature-based approach to IP trafficclassification[C]. Proceedings of ACM SIGCOMM InternetMeasurement Conference, 2004: 135 - 148.
[2] Erman J., Arlitt M., Mahanti A. Traffic classification using clusteringalgorithms [C]. Proceedings of theMineNet '06, 2006: 281-286.
[3] A.W. Moore, D. Zuev. Internet traffic classification using Bayesiananalysis techniques [C]. In Proc. of the 2005 ACMSIGMETRICS international conference on Measurement and modelingof computer systems, 2005: 50-60.
[4] Auld T, Moore AW, Gull SF. Bayesian Neural Networks forInternet Traffic Classification [J]. IEEE transaction on neuralnetworks, 18(1), 2007: 223 - 239.
[5] Thuy T.T. Nguyen,Grenville Arimitage. A Survey of Techniquesfor Internet Traffic Classification using Machine Learning [J]. IEEECommunications Surveys and Tutorials, 10(4), 2008: 1 - 21.
[6] McGregor A, Hall M, Lorier P, et al. Flow Clustering Using MachineLearning Techniques [C]. Proceedings of the PAM, 2004: 205 -214.
特别声明:本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者在两周内速来电或来函联系。