admin管理员组

文章数量:1551715

目录

  • 前文回顾
  • 前提说明
  • 概述
    • 寻找节点的过程
    • Token令牌
  • 路由表
  • KRPC协议
    • 请求
    • 回复
    • 错误
  • DHT中的4种请求
    • ping
    • find_node
    • get_peers
      • 补充知识
    • announce_peer
  • DHT网络爬虫和Python爬虫的区别

前文回顾

如果还不懂DHT网络,可以先看这篇文章。理解了DHT网络,后面的内容才看得明白。
别再装纯说不懂BT种子了

前提说明

BitTorrent使用了“分布式哈希表”(DHT)为没有Tracker的种子(torrent)存储了peer之间的联系信息。这样每个peer都成了Tracker。

DHT是基于kademlim网络,并且在UDP上实现的。

DHT 由节点组成,它存储了 peer 的位置。BitTorrent 客户端包含一个 DHT 节点,这个节点用来联系 DHT 中其他节点,从而得到 peer 的位置,进而通过 BitTorrent 协议下载。

解释说明
“peer”: 在一个 TCP 端口上监听的客户端/服务器,它实现了 BitTorrent 协议。简单理解就是一台电脑,但是端口号是基于TCP连接的

“节点”: 在一个 UDP 端口上监听的客户端/服务器,它实现了 DHT(分布式哈希表) 协议。简单理解也是一台电脑,但是端口号是基于UDP连接的

“BitTorrent客户端”:指的是迅雷这些BT软件等

概述

每个节点有一个全局唯一的标识符,作为 “node ID”。

每个节点都维护一个路由表,路由表中包含一部分节点的信息。每个节点都知道在DHT网络中离自己很近的节点,离自己很远的节点知道的很少。

寻找节点的过程

1、 当节点要为种子寻找peer时,它将自己的节点的哈希值(40位16进制字符)和种子的哈希值进行距离计算(异或算法)

2、 向路由表中离种子最近的节点发送请求,问他们正在下载种子的peer的信息

3、 被联系的节点如果知道下载种子的peer信息,那它将peer的信息回复给当前的节点。如果不知道,将回复离种子最近的peer的节点信息,让当前节点去请求离种子最近的peer。

4、 重复3步骤,直到不能找到离种子更近的节点信息。

5、 在查询完之后,客户端把自己作为peer信息,插入到所有回复节点中离种子最近的那个节点中。

Token令牌

如果一个节点宣布它所控制的 peer 正在下载一个种子,它必须在回复节点的同时,附加上对方向我们发送的最近的”令牌(token)”。Token令牌是用来核对信息的。主要体现在get_peer和announce_peer中,后面还会介绍。

路由表

每个节点都维护一个路由表,这个路由表保存着已知的好节点。路由表中的节点作为DHT请求的起始点。

这里的好节点是指在过去的 15 分钟以内,曾经对我们的某一个请求给出过回复的节点,或者曾经对我们的请求给出过一个回复(不用在15分钟以内),并且在过去的 15 分钟给我们发送过请求。

还记得桶的概念吗?桶里装的都是好节点,一旦某个节点变坏了,我们就会用好的节点替代它。怎么确定是坏的节点呢?我们会向它发送ping请求,给出回复的是好的节点。

KRPC协议

KRPC协议是由bencode编码组成RPC结构,使用UDP报文发送。

包含3种消息:请求、回复、错误

在DHT协议中,请求又分为四种:ping、find_node、get_peers、announce_peer

一条KRPC 消息由一个独立的字典组成,其中有 2 个关键字是所有的消息都包含的,其余的附加关键字取决于消息类型。

每条消息都包含 t 关键字,它是一个代表了 transaction ID 的字符串类型。transaction ID 由请求节点产生,并且回复中要包含回显该字段,所以回复可能对应一个节点的多个请求。简单理解transaction ID就是一个请求的唯一标识

另外每个 KRPC 消息还应该包含的关键字是 y,它由一个字节组成,表明这个消息的类型。y 对应的值有三种情况:q 表示请求,r 表示回复,e 表示错误。

请求

请求,对应于 KPRC 消息字典中的 y 关键字的值是 q,它包含 2 个附加的关键字 q 和 a。关键字 q 是字符串类型,包含了请求的方法名字。(请求方法的名字就是ping、find_node、get_peers、announce_peer)关键字 a 一个字典类型包含了请求所附加的参数。

回复

回复,对应于 KPRC 消息字典中的 y 关键字的值是 r,包含了一个附加的关键字 r。关键字 r 是字典类型,包含了返回的值。发送回复消息是在正确解析了请求消息的基础上完成的。

错误

错误,对应于 KPRC 消息字典中的 y 关键字的值是 e,包含一个附加的关键字 e。关键字 e 是列表类型。第一个元素是数字类型,表明了错误码。第二个元素是字符串类型,表明了错误信息。当一个请求不能解析或出错时,错误包将被发送。

DHT中的4种请求

所有的请求都包含一个关键字 id,它包含了请求节点的节点 ID。所有的回复也包含关键字 id,它包含了回复节点的节点 ID。

说明
节点ID(20位字节的字符串)和节点的哈希值即node节点ID(40位16进制的字符串)是不同的,不要搞混了。

ping

最基础的请求就是 ping。这时 KPRC 协议中的 “q” = “ping”。

Ping 请求包含一个参数 id,它是一个 20 字节的字符串包含了发送者网络字节序的节点 ID。

对应的 ping 回复也包含一个参数 id,包含了回复者的节点 ID。

报文示例

ping Query = {
				"t":"aa", 
				"y":"q",
				"q":"ping", 
				"a":{
					"id":"abcdefghij0123456789"
					}
			}
Response = {
			"t":"aa", 
			"y":"r", 
			"r": {
				"id":"mnopqrstuvwxyz123456"
				}
}

find_node

find_node 被用来查找给定 ID 的节点的联系信息。这时 KPRC 协议中的 “q” == “find_node”。

find_node 请求包含 2 个参数,第一个参数是 id,包含了请求节点的ID。第二个参数是 target,包含了请求者正在查找的节点的 ID。

当一个节点接收到了 find_node 的请求,他应该给出对应的回复,回复中包含 2 个关键字 id 和 nodes,nodes 是字符串类型,包含了被请求节点的路由表中最接近目标节点的 K(8) 个最接近的节点的联系信息。

报文示例

find_node Query = {
					"t":"aa", 
					"y":"q",
					 "q":"find_node", 
					 "a": {
						 "id":"abcdefghij0123456789",
						  "target":"mnopqrstuvwxyz123456"
						  }
 				 }
Response = {
			 "t":"aa",
			 "y":"r",
			 "r": {
				  "id":"0123456789abcdefghij",
				   "nodes": "def456..."
  				 }
   			}

get_peers

get_peers 与 torrent 文件的 infohash 有关。

这时 KPRC 协议中的 “q” = “get_peers”。get_peers 请求包含 2 个参数。第一个参数是 id,包含了请求节点的 ID。第二个参数是 info_hash,它代表 torrent 文件的 infohash。

如果被请求的节点有对应 info_hash 的 peers,他将返回一个关键字 values,这是一个列表类型的字符串。每一个字符串包含了 “CompactIP-address/portinfo” 格式的 peers 信息。如果被请求的节点没有这个 infohash 的 peers,那么他将返回关键字 nodes,这个关键字包含了被请求节点的路由表中离 info_hash 最近的 K 个节点,使用 “Compactnodeinfo” 格式回复。

在这两种情况下,关键字 token 都将被返回。token 关键字在今后的 annouce_peer 请求中必须要携带。token 是一个短的二进制字符串。

报文格式

get_peers Query = {
					"t":"aa", 
					"y":"q", 
					"q":"get_peers", 
					"a": {
						"id":"abcdefghij0123456789", 
						"info_hash":"mnopqrstuvwxyz123456"
						}
					}
Response with peers = {
						"t":"aa",
						 "y":"r", 
						 "r": {
							 "id":"abcdefghij0123456789",
							 "token":"aoeusnth",
							 "values": ["axje.u", "idhtnm"]
							   }
   }
Response with closest nodes = {
								"t":"aa",
								 "y":"r",
								  "r": {
									  "id":"abcdefghij0123456789", 
									  "token":"aoeusnth",
									   "nodes": "def456..."
									   }
   								}

补充知识

联系信息编码 Contact Encoding

Peers 的联系信息被编码为 6 字节的字符串。又被称为 “CompactIP-address/port info”,其中前 4 个字节是网络字节序的 IP 地址,后 2 个字节是网络字节序的端口。

节点的联系信息被编码为 26 字节的字符串。又被称为 “Compactnode info”,其中前 20 字节是网络字节序的节点 ID,后面 6 个字节是 peers 的 “CompactIP-address/port info”

announce_peer

这个请求用来表明发出 announce_peer 请求的节点,正在某个端口下载 torrent 文件。

announce_peer 包含 4 个参数。

第一个参数是 id,包含了请求节点的 ID;

第二个参数是 info_hash,包含了 torrent 文件的 infohash;

第三个参数是 port 包含了整型的端口号,表明 peer 在哪个端口下载;

第四个参数数是 token,这是在之前的 get_peers 请求中收到的回复中包含的。

收到 announce_peer 请求的节点必须检查这个 token 与之前我们回复给这个节点 get_peers 的 token 是否相同。如果相同,那么被请求的节点将记录发送 announce_peer 节点的 IP 和请求中包含的 port 端口号在 peer 联系信息中对应的 infohash 下

报文示例

announce_peers Query = {
						"t":"aa",
						 "y":"q", 
						 "q":"announce_peer", 
						 "a": {
							 "id":"abcdefghij0123456789", 
							 "implied_port": 1, 
							 "info_hash":"mnopqrstuvwxyz123456", 
							 "port": 6881, 
							 "token": "aoeusnth"
							 }
						 }
Response = {
			"t":"aa",
			 "y":"r", 
			 "r": {
				 "id":"mnopqrstuvwxyz123456"
				 }
			 }

DHT网络爬虫和Python爬虫的区别

要想成功编写出DHT网络爬虫,DHT网络协议必须弄明白。

DHT爬虫,就是把自己伪装成DHT网络中的一个节点,当某个客户端想要下载某个torrent文件时,就会在DHT网络上发起广播,当它询问我的节点时,我就知道:哦,原来有人下载这个种子,那么在DHT网络上肯定有这个种子。于是我把这个种子的信息保存到我的数据库。

Python 爬虫,是主动出击,盲目寻找。在互联网的海量网页中寻找种子和磁力链接。而 DHT 爬虫则变成了被动等待,当别人来询问时,就把它的询问结果记录下来,如果一个种子被询问了很多次,则说明这个种子是一个热门种子,这是 Python 爬虫无法做到的。

简单总结:python爬虫是主动出击,而DHT爬虫是被动等待。

本文标签: 不懂你还协议DHT