admin管理员组

文章数量:1540630

2024年4月26日发(作者:)

网络加密流量可视化方法探讨

摘要 随着互联网加密流量的不断飙升,如何区分不同业务流量,提供差异

化服务保障,成为运营商面临的新挑战。通过对网络加密流量可视化方法的探讨,

有助于快速识别互联网流量,解决实际问题。

关键词 加密流量识别;深度包检测;机器学习

前言

随着计算机技术的不断发展以及移动智能终端的飞速普及,各种新型互联网

应用如P2P[1]等不断涌现,移动数据流量呈现井喷式增长。同时网络用户对网络

质量以及安全性的要求也越来越高。为确保用户隐私性,互联网SP引入了HTTPS

协议。在提高安全性的同时,如何通过有效技术手段区分不同应用流量,针对不

同用户需求提供差异化服务,提高网络服务质量,也成为运营商面临的新挑战。

1 网络加密流量现状

HTTPS(Hypertext Transfer Protocol over Secure Socket Layer,基于SSL的

HTTP协议)使用了HTTP协议,但HTTPS使用不同于HTTP协议的默认端口

及一个加密、身份验证层(HTTP与TCP之间)。这个协议的最初研发由网景公

司进行,提供了身份验证与加密通信方法,目前被广泛用于互联网上安全敏感的

通信。

2016年6月,苹果要求所有IOS APP在2016年底必须强制开启ATS(App

Transport Security,应用程序安全传输)安全标准。ATS是苹果在iOS 9 中首次

推出的一项隐私安全保护功能,会屏蔽HTTP明文传输协议的资源加载,强制

APP通过HTTPS连接网络服务,通过传输加密保障用户数据安全。谷歌早在2014

年就宣布,将把HTTPS作为影响搜索排名的重要因素,并优先索引HTTPS网

页。在2015年6月Google向IETF提交了QUIC草案,2016年10月开始,海

外QUIC流量激增,主要产生于使用Android手机看YouTube视频的流量。百度

也公告表明,开放收录HTTPS站点,同一个域名的http版和https版为一个站点,

优先收录https版。很多网站采用从HTTP跳转或重定向到HTTPS网页的方式来

实现。

HTTPS化对于SP服务提供商来说是一直存在的诉求。在各种的互联网论坛

中,SP服务提供商对全面推广HTTPS有很高的呼声,一直希望尽快杜绝中间人

劫持,减少网络入侵,提高信息安全。从谷歌到百度到阿里,经过数年的促进,

CDN对HTTPS实现了全面支持,各个证书机构也在不停地派发免费的HTTPS

证书,HTTPS的大环境正在成熟。如阿里系的淘宝、天猫、支付宝都进行了很

高程度的HTTPS加密,淘宝、天猫只留下一些状态信息和部分栏目图片外,商

品的详情和商品的图片等都进行了加密。支付宝由于本身就涉及财产,加密程度

更高,所有涉及支付、用户的部分全部加密,只有少量的头像、图标、状态信息

留下。而百度除部分子搜索未加密外,主搜索链接已经全部加密为HTTPS。

在未来的发展中,支付、账号信息与及网页的框架、文本、图片等文件可能

都将是优先被HTTPS化的对象,深度识别能力大受影响。

2 网络加密流量可视化方法

2.1 基于SSL的业务识别

业务数据加密传输前,会先完成HTTPS握手消息交互。通过解析HTTPS

握手消息,获取消息中携带的标识APP的特征字段。用特征字段去识别加密应

用的流量。常用的方法是通过Client Hello消息或者Certificate消息提取域名,

通过域名实现识别。这是目前比较可行的识别方法之一,相对容易实现,缺点是

只能识别到域名。Client Hello的SERVICE NAME并非必须字段,有可能出现不

存在SERVICE NAME的可能,Certificate消息所呈现是组织机构的名称,用域

名的方式表述,而非服务器地址,可靠性相对低一些,所取得的域名也是最初级

的域名。因此只能作为次选项,一般在Client Hello取不到SERVICE NAME的

时候才使用。

2.2 基于DNS的业务识别

解析DNS包,获取APP的主机名和主机服务器IP地址。匹配主机名的服

务器IP地址,识别加密流量。理论上讲HTTPS的证书应该是一个IP一个证书,

但随着技术的发展,一个IP对应多个证书的技术已经具备,且大的SP中IP资

源很多是共享的,这也造成了IP的不确定性,因此只能作为辅助手段。

2.3 基于机器学习的业务识别

应对网络加密流量只用传统DPI技术(Deep Packet Inspection,深层数据包

检测技术)[2]是不够的,需要借助机器学习的识别技术。机器学习的系统模型

如图3所示,首先从外部环境采集数据,并对数据做出有效处理,知识库模块中

存放生成的一套规律知识模型,根据知识库中已有的规则方法执行解决解决实际

问题,并对实际应用效果进行验证评判,同时又将采集的有效信息传送给学习模

块进行训练,不断演绎更新规则和方法[3]。

与传统的DPI流量识别方法不同,基于机器学习的流量识别方法并不依赖

流量的局部解析特征,而是基于宏观特性对流量的统计行为特征进行识别,通过

数据挖掘中的分类技术实现流量分类,具有一定的智能性,可用于应对OTT快

速变化。但是机器学习算法不能够识别出具体的应用,而且基于特征的分类原则

是匹配同一类数传特征的业务和网络质量诉求,不是所有结果都能和体验行为一

一对应,比如Interactive message包括了用户发送/接收文本行为,也覆盖了部分

头像更新,心跳等交互性特征明顯的行为。

2.4 基于DPI和机器学习结合的业务识别

通过DPI技术能够识别已知特征的网络流量,减少机器学习的计算量,并

能够识别出具体的应用,再通过机器学习分析未知特征加密流量,弥补DPI技

术不能识别加密流量的缺点[4]。

除此之外,建议考虑如下思路提高识别度:

①尽量在仍然存在的HTTP流量中发掘有价值的数据;②加强对域名的研

究,在三、四级域名上挖掘区分流量的可能;③进行更加深入的关联研究,通过

多重关联计算实现部分动作的还原;④加强对现有数据的价值发掘和对模型的研

究,尽量基于现有或者将来可能有的数据进行数据建模,通过模型实现对用户行

为的分析。

3 结束语

本文针对网络加密流量的现状和常用识别方法作了阐述,希望通过此次的探

讨,能够对解决实际问题有所启发。

参考文献

[1] Sen S,Wang J. Analyzing Peer-To-Peer Traffic Across Large Networks[J].

IEEE/ACM TRANSACTIONS ON NETWORKING,2004,12(2):219.

[2] 黄健文. 基于DPI的流量识别系统的开发与设计[J].电子设计工程,2017,

25(11):14-18.

[3] 彭立志. 基于机器学习的流量识别关键技术研究[D].哈尔滨:哈尔滨工业

大学,2015.

[4] 李国平,王勇,陶晓玲. 基于DPI和机器学习的网络流量分类方法[J]. 桂

林电子科技大学报,2012,32(02):140-144.

本文标签: 流量加密识别网络学习