admin管理员组文章数量:1540630
2024年4月26日发(作者:)
网络加密流量可视化方法探讨
摘要 随着互联网加密流量的不断飙升,如何区分不同业务流量,提供差异
化服务保障,成为运营商面临的新挑战。通过对网络加密流量可视化方法的探讨,
有助于快速识别互联网流量,解决实际问题。
关键词 加密流量识别;深度包检测;机器学习
前言
随着计算机技术的不断发展以及移动智能终端的飞速普及,各种新型互联网
应用如P2P[1]等不断涌现,移动数据流量呈现井喷式增长。同时网络用户对网络
质量以及安全性的要求也越来越高。为确保用户隐私性,互联网SP引入了HTTPS
协议。在提高安全性的同时,如何通过有效技术手段区分不同应用流量,针对不
同用户需求提供差异化服务,提高网络服务质量,也成为运营商面临的新挑战。
1 网络加密流量现状
HTTPS(Hypertext Transfer Protocol over Secure Socket Layer,基于SSL的
HTTP协议)使用了HTTP协议,但HTTPS使用不同于HTTP协议的默认端口
及一个加密、身份验证层(HTTP与TCP之间)。这个协议的最初研发由网景公
司进行,提供了身份验证与加密通信方法,目前被广泛用于互联网上安全敏感的
通信。
2016年6月,苹果要求所有IOS APP在2016年底必须强制开启ATS(App
Transport Security,应用程序安全传输)安全标准。ATS是苹果在iOS 9 中首次
推出的一项隐私安全保护功能,会屏蔽HTTP明文传输协议的资源加载,强制
APP通过HTTPS连接网络服务,通过传输加密保障用户数据安全。谷歌早在2014
年就宣布,将把HTTPS作为影响搜索排名的重要因素,并优先索引HTTPS网
页。在2015年6月Google向IETF提交了QUIC草案,2016年10月开始,海
外QUIC流量激增,主要产生于使用Android手机看YouTube视频的流量。百度
也公告表明,开放收录HTTPS站点,同一个域名的http版和https版为一个站点,
优先收录https版。很多网站采用从HTTP跳转或重定向到HTTPS网页的方式来
实现。
HTTPS化对于SP服务提供商来说是一直存在的诉求。在各种的互联网论坛
中,SP服务提供商对全面推广HTTPS有很高的呼声,一直希望尽快杜绝中间人
劫持,减少网络入侵,提高信息安全。从谷歌到百度到阿里,经过数年的促进,
CDN对HTTPS实现了全面支持,各个证书机构也在不停地派发免费的HTTPS
证书,HTTPS的大环境正在成熟。如阿里系的淘宝、天猫、支付宝都进行了很
高程度的HTTPS加密,淘宝、天猫只留下一些状态信息和部分栏目图片外,商
品的详情和商品的图片等都进行了加密。支付宝由于本身就涉及财产,加密程度
更高,所有涉及支付、用户的部分全部加密,只有少量的头像、图标、状态信息
留下。而百度除部分子搜索未加密外,主搜索链接已经全部加密为HTTPS。
在未来的发展中,支付、账号信息与及网页的框架、文本、图片等文件可能
都将是优先被HTTPS化的对象,深度识别能力大受影响。
2 网络加密流量可视化方法
2.1 基于SSL的业务识别
业务数据加密传输前,会先完成HTTPS握手消息交互。通过解析HTTPS
握手消息,获取消息中携带的标识APP的特征字段。用特征字段去识别加密应
用的流量。常用的方法是通过Client Hello消息或者Certificate消息提取域名,
通过域名实现识别。这是目前比较可行的识别方法之一,相对容易实现,缺点是
只能识别到域名。Client Hello的SERVICE NAME并非必须字段,有可能出现不
存在SERVICE NAME的可能,Certificate消息所呈现是组织机构的名称,用域
名的方式表述,而非服务器地址,可靠性相对低一些,所取得的域名也是最初级
的域名。因此只能作为次选项,一般在Client Hello取不到SERVICE NAME的
时候才使用。
2.2 基于DNS的业务识别
解析DNS包,获取APP的主机名和主机服务器IP地址。匹配主机名的服
务器IP地址,识别加密流量。理论上讲HTTPS的证书应该是一个IP一个证书,
但随着技术的发展,一个IP对应多个证书的技术已经具备,且大的SP中IP资
源很多是共享的,这也造成了IP的不确定性,因此只能作为辅助手段。
2.3 基于机器学习的业务识别
应对网络加密流量只用传统DPI技术(Deep Packet Inspection,深层数据包
检测技术)[2]是不够的,需要借助机器学习的识别技术。机器学习的系统模型
如图3所示,首先从外部环境采集数据,并对数据做出有效处理,知识库模块中
存放生成的一套规律知识模型,根据知识库中已有的规则方法执行解决解决实际
问题,并对实际应用效果进行验证评判,同时又将采集的有效信息传送给学习模
块进行训练,不断演绎更新规则和方法[3]。
与传统的DPI流量识别方法不同,基于机器学习的流量识别方法并不依赖
流量的局部解析特征,而是基于宏观特性对流量的统计行为特征进行识别,通过
数据挖掘中的分类技术实现流量分类,具有一定的智能性,可用于应对OTT快
速变化。但是机器学习算法不能够识别出具体的应用,而且基于特征的分类原则
是匹配同一类数传特征的业务和网络质量诉求,不是所有结果都能和体验行为一
一对应,比如Interactive message包括了用户发送/接收文本行为,也覆盖了部分
头像更新,心跳等交互性特征明顯的行为。
2.4 基于DPI和机器学习结合的业务识别
通过DPI技术能够识别已知特征的网络流量,减少机器学习的计算量,并
能够识别出具体的应用,再通过机器学习分析未知特征加密流量,弥补DPI技
术不能识别加密流量的缺点[4]。
除此之外,建议考虑如下思路提高识别度:
①尽量在仍然存在的HTTP流量中发掘有价值的数据;②加强对域名的研
究,在三、四级域名上挖掘区分流量的可能;③进行更加深入的关联研究,通过
多重关联计算实现部分动作的还原;④加强对现有数据的价值发掘和对模型的研
究,尽量基于现有或者将来可能有的数据进行数据建模,通过模型实现对用户行
为的分析。
3 结束语
本文针对网络加密流量的现状和常用识别方法作了阐述,希望通过此次的探
讨,能够对解决实际问题有所启发。
参考文献
[1] Sen S,Wang J. Analyzing Peer-To-Peer Traffic Across Large Networks[J].
IEEE/ACM TRANSACTIONS ON NETWORKING,2004,12(2):219.
[2] 黄健文. 基于DPI的流量识别系统的开发与设计[J].电子设计工程,2017,
25(11):14-18.
[3] 彭立志. 基于机器学习的流量识别关键技术研究[D].哈尔滨:哈尔滨工业
大学,2015.
[4] 李国平,王勇,陶晓玲. 基于DPI和机器学习的网络流量分类方法[J]. 桂
林电子科技大学报,2012,32(02):140-144.
版权声明:本文标题:网络加密流量可视化方法探讨 内容由热心网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:https://m.elefans.com/dianzi/1714116265a388253.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论