不是吧！你还不懂DHT协议？|电子爱好者

admin管理员组
文章数量:1551715

前文回顾

如果还不懂DHT网络，可以先看这篇文章。理解了DHT网络，后面的内容才看得明白。
别再装纯说不懂BT种子了

前提说明

BitTorrent使用了“分布式哈希表”（DHT）为没有Tracker的种子（torrent）存储了peer之间的联系信息。这样每个peer都成了Tracker。

DHT是基于kademlim网络，并且在UDP上实现的。

DHT 由节点组成，它存储了 peer 的位置。BitTorrent 客户端包含一个 DHT 节点，这个节点用来联系 DHT 中其他节点，从而得到 peer 的位置，进而通过 BitTorrent 协议下载。

解释说明
“peer”: 在一个 TCP 端口上监听的客户端/服务器，它实现了 BitTorrent 协议。简单理解就是一台电脑，但是端口号是基于TCP连接的

“节点”：在一个 UDP 端口上监听的客户端/服务器，它实现了 DHT(分布式哈希表) 协议。简单理解也是一台电脑，但是端口号是基于UDP连接的

“BitTorrent客户端”：指的是迅雷这些BT软件等

概述

每个节点有一个全局唯一的标识符，作为 “node ID”。

每个节点都维护一个路由表，路由表中包含一部分节点的信息。每个节点都知道在DHT网络中离自己很近的节点，离自己很远的节点知道的很少。

寻找节点的过程

1、当节点要为种子寻找peer时，它将自己的节点的哈希值（40位16进制字符）和种子的哈希值进行距离计算（异或算法）

2、向路由表中离种子最近的节点发送请求，问他们正在下载种子的peer的信息

3、被联系的节点如果知道下载种子的peer信息，那它将peer的信息回复给当前的节点。如果不知道，将回复离种子最近的peer的节点信息，让当前节点去请求离种子最近的peer。

4、重复3步骤，直到不能找到离种子更近的节点信息。

5、在查询完之后，客户端把自己作为peer信息，插入到所有回复节点中离种子最近的那个节点中。

Token令牌

如果一个节点宣布它所控制的 peer 正在下载一个种子，它必须在回复节点的同时，附加上对方向我们发送的最近的”令牌(token)”。Token令牌是用来核对信息的。主要体现在get_peer和announce_peer中，后面还会介绍。

路由表

每个节点都维护一个路由表，这个路由表保存着已知的好节点。路由表中的节点作为DHT请求的起始点。

这里的好节点是指在过去的 15 分钟以内，曾经对我们的某一个请求给出过回复的节点，或者曾经对我们的请求给出过一个回复(不用在15分钟以内)，并且在过去的 15 分钟给我们发送过请求。

还记得桶的概念吗？桶里装的都是好节点，一旦某个节点变坏了，我们就会用好的节点替代它。怎么确定是坏的节点呢？我们会向它发送ping请求，给出回复的是好的节点。

KRPC协议

KRPC协议是由bencode编码组成RPC结构，使用UDP报文发送。

包含3种消息：请求、回复、错误

在DHT协议中，请求又分为四种：ping、find_node、get_peers、announce_peer

一条KRPC 消息由一个独立的字典组成，其中有 2 个关键字是所有的消息都包含的，其余的附加关键字取决于消息类型。

每条消息都包含 t 关键字，它是一个代表了 transaction ID 的字符串类型。transaction ID 由请求节点产生，并且回复中要包含回显该字段，所以回复可能对应一个节点的多个请求。简单理解transaction ID就是一个请求的唯一标识

另外每个 KRPC 消息还应该包含的关键字是 y，它由一个字节组成，表明这个消息的类型。y 对应的值有三种情况：q 表示请求，r 表示回复，e 表示错误。

请求

请求，对应于 KPRC 消息字典中的 y 关键字的值是 q，它包含 2 个附加的关键字 q 和 a。关键字 q 是字符串类型，包含了请求的方法名字。（请求方法的名字就是ping、find_node、get_peers、announce_peer）关键字 a 一个字典类型包含了请求所附加的参数。

回复，对应于 KPRC 消息字典中的 y 关键字的值是 r，包含了一个附加的关键字 r。关键字 r 是字典类型，包含了返回的值。发送回复消息是在正确解析了请求消息的基础上完成的。

错误

错误，对应于 KPRC 消息字典中的 y 关键字的值是 e，包含一个附加的关键字 e。关键字 e 是列表类型。第一个元素是数字类型，表明了错误码。第二个元素是字符串类型，表明了错误信息。当一个请求不能解析或出错时，错误包将被发送。

DHT中的4种请求

所有的请求都包含一个关键字 id，它包含了请求节点的节点 ID。所有的回复也包含关键字 id，它包含了回复节点的节点 ID。

说明
节点ID（20位字节的字符串）和节点的哈希值即node节点ID（40位16进制的字符串）是不同的，不要搞混了。

ping

最基础的请求就是 ping。这时 KPRC 协议中的 “q” = “ping”。

Ping 请求包含一个参数 id，它是一个 20 字节的字符串包含了发送者网络字节序的节点 ID。

对应的 ping 回复也包含一个参数 id，包含了回复者的节点 ID。

报文示例

ping Query = {
				"t":"aa", 
				"y":"q",
				"q":"ping", 
				"a":{
					"id":"abcdefghij0123456789"
					}
			}

Response = {
			"t":"aa", 
			"y":"r", 
			"r": {
				"id":"mnopqrstuvwxyz123456"
				}
}

find_node

find_node 被用来查找给定 ID 的节点的联系信息。这时 KPRC 协议中的 “q” == “find_node”。

find_node 请求包含 2 个参数，第一个参数是 id，包含了请求节点的ID。第二个参数是 target，包含了请求者正在查找的节点的 ID。

当一个节点接收到了 find_node 的请求，他应该给出对应的回复，回复中包含 2 个关键字 id 和 nodes，nodes 是字符串类型，包含了被请求节点的路由表中最接近目标节点的 K(8) 个最接近的节点的联系信息。

报文示例

find_node Query = {
					"t":"aa", 
					"y":"q",
					 "q":"find_node", 
					 "a": {
						 "id":"abcdefghij0123456789",
						  "target":"mnopqrstuvwxyz123456"
						  }
 				 }

Response = {
			 "t":"aa",
			 "y":"r",
			 "r": {
				  "id":"0123456789abcdefghij",
				   "nodes": "def456..."
  				 }
   			}

get_peers

get_peers 与 torrent 文件的 infohash 有关。

这时 KPRC 协议中的 “q” = “get_peers”。get_peers 请求包含 2 个参数。第一个参数是 id，包含了请求节点的 ID。第二个参数是 info_hash，它代表 torrent 文件的 infohash。

如果被请求的节点有对应 info_hash 的 peers，他将返回一个关键字 values，这是一个列表类型的字符串。每一个字符串包含了 “CompactIP-address/portinfo” 格式的 peers 信息。如果被请求的节点没有这个 infohash 的 peers，那么他将返回关键字 nodes，这个关键字包含了被请求节点的路由表中离 info_hash 最近的 K 个节点，使用 “Compactnodeinfo” 格式回复。

在这两种情况下，关键字 token 都将被返回。token 关键字在今后的 annouce_peer 请求中必须要携带。token 是一个短的二进制字符串。

报文格式

get_peers Query = {
					"t":"aa", 
					"y":"q", 
					"q":"get_peers", 
					"a": {
						"id":"abcdefghij0123456789", 
						"info_hash":"mnopqrstuvwxyz123456"
						}
					}

Response with peers = {
						"t":"aa",
						 "y":"r", 
						 "r": {
							 "id":"abcdefghij0123456789",
							 "token":"aoeusnth",
							 "values": ["axje.u", "idhtnm"]
							   }
   }

Response with closest nodes = {
								"t":"aa",
								 "y":"r",
								  "r": {
									  "id":"abcdefghij0123456789", 
									  "token":"aoeusnth",
									   "nodes": "def456..."
									   }
   								}

补充知识

联系信息编码 Contact Encoding

Peers 的联系信息被编码为 6 字节的字符串。又被称为 “CompactIP-address/port info”，其中前 4 个字节是网络字节序的 IP 地址，后 2 个字节是网络字节序的端口。

节点的联系信息被编码为 26 字节的字符串。又被称为 “Compactnode info”，其中前 20 字节是网络字节序的节点 ID，后面 6 个字节是 peers 的 “CompactIP-address/port info”

announce_peer

这个请求用来表明发出 announce_peer 请求的节点，正在某个端口下载 torrent 文件。

announce_peer 包含 4 个参数。

第一个参数是 id，包含了请求节点的 ID；

第二个参数是 info_hash，包含了 torrent 文件的 infohash；

第三个参数是 port 包含了整型的端口号，表明 peer 在哪个端口下载；

第四个参数数是 token，这是在之前的 get_peers 请求中收到的回复中包含的。

收到 announce_peer 请求的节点必须检查这个 token 与之前我们回复给这个节点 get_peers 的 token 是否相同。如果相同，那么被请求的节点将记录发送 announce_peer 节点的 IP 和请求中包含的 port 端口号在 peer 联系信息中对应的 infohash 下

报文示例

announce_peers Query = {
						"t":"aa",
						 "y":"q", 
						 "q":"announce_peer", 
						 "a": {
							 "id":"abcdefghij0123456789", 
							 "implied_port": 1, 
							 "info_hash":"mnopqrstuvwxyz123456", 
							 "port": 6881, 
							 "token": "aoeusnth"
							 }
						 }

Response = {
			"t":"aa",
			 "y":"r", 
			 "r": {
				 "id":"mnopqrstuvwxyz123456"
				 }
			 }

DHT网络爬虫和Python爬虫的区别

要想成功编写出DHT网络爬虫，DHT网络协议必须弄明白。

DHT爬虫，就是把自己伪装成DHT网络中的一个节点，当某个客户端想要下载某个torrent文件时，就会在DHT网络上发起广播，当它询问我的节点时，我就知道：哦，原来有人下载这个种子，那么在DHT网络上肯定有这个种子。于是我把这个种子的信息保存到我的数据库。

Python 爬虫，是主动出击，盲目寻找。在互联网的海量网页中寻找种子和磁力链接。而 DHT 爬虫则变成了被动等待，当别人来询问时，就把它的询问结果记录下来，如果一个种子被询问了很多次，则说明这个种子是一个热门种子，这是 Python 爬虫无法做到的。

简单总结：python爬虫是主动出击，而DHT爬虫是被动等待。

本文标签：不懂你还协议 DHT

版权声明：本文标题：不是吧！你还不懂DHT协议？内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/xitong/1727269917a1105887.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

电子爱好者 - 最新技术资讯及电子产品介绍！

不是吧！你还不懂DHT协议？

目录

前文回顾

前提说明

概述

寻找节点的过程

Token令牌

路由表

KRPC协议

请求

回复

错误

DHT中的4种请求

ping

find_node

get_peers

补充知识

announce_peer

DHT网络爬虫和Python爬虫的区别

更多相关文章

浏览器与WEB服务器的网络协议

火狐浏览器设置秘籍：让https协议下的ws不加密时运行无阻(WebSocket connection HTTPS)

新版chrome 解决在http协议下无法调用摄像头和麦克风的问题（不安全）

基于DHT网络的BT磁力链蜘蛛源码

二阶段提交协议（Two Phase Commitment Protocol）

用了TCP协议，就一定不会丢包吗？

用了TCP协议，就一定不会丢包嘛？

Android音视频学习系列(七) — 从0~1开发一款Android端播放器(支持多协议网络拉流本地文件)

SMB协议详解之-SMBCIFSSMB2NFSSambaNetbiosNTLMKerberos关系和区别

WiFi、WLAN的区别以及深入探索理解802.11协议

xp系统简单tcpip服务器,轻松一招让你在xp系统下重新安装TCPIP协议

大三上期末复习（网络安全&amp;物联网概论&amp;安全协议&amp;软件工程）

详解TCPIP协议第三篇：通信数据在OSI通信模型的上下传输

物联网LoRa系列-25：LoRa终端--LoRaWAN协议简介与LoRa WAN终端软件选择

学前端网络安全这块还不懂？细说CSRF

网络攻防与协议分析练习题

不懂这个别说是刷机高手!安卓Recovery你知多少

ble - GATT 协议详解

BTDHT 相关

现在公开一个DHT网络爬虫网络爬虫供大家一起交流

发表评论

推荐文章

ubuntu修改用户名、主机名、主文件夹名、登录名、密码（完整版）

苹果手机文件夹中服务器连接在哪,如何访问苹果手机上的共享文件夹？

科技向善，腾讯“守护者智能反诈中枢”在行动

android 手机数据备份,安卓手机如何备份数据

今年618买什么东西最划算？最新家用好物精选清单推荐合集~

热门文章

android模拟器 vm版,怎样用vmware虚拟机安装android模拟器

windows计算机管理快捷键,windows系统常见快捷键大全

Eclipse中Ctrl+D(删除快捷键)失效的解决方案

eclipse中Ctrl+shift+F快捷键失效解决方法

千万不要使用360安全管家

MacOS10.8.3+Xcode4.6+IOS6.1 编译FFmpeg，简单使用 (未验证，作标记备用）

carsim2019.1安装遇到问题及解决方法

slqmf刀模工具_CAD刀模绘图插件|CAD刀模绘图插件(SLQMF刀模工具)下载v3.0 免费版 - 欧普软件下载...

腾讯手机助手

DasViewer可以导入dwg或dxf文件吗？

最新文章

《node-thunder》：Node使用迅雷下载

教你怎么用迅雷下载LOL

迅雷下载宝刷入padavan固件

下载电影 php文件 迅雷9,迅雷9怎么下载看片？迅雷9正确找片找资源的多种方法...

为啥点击种子迅雷显示forum.php,迅雷无法解析种子怎么回事_迅雷种子无法解析解决教程...

【github模型下载】浏览器下载出现下载中断：需要登录objects.githubusercontent.com。或者迅雷下载：未知错误，无法继续下载。

迅雷下载原理简述

迅雷下载太慢怎么办？

迅雷专用链接原理及转换

快速无需脚本直接用迅雷下载页面全部链接

迅雷x下载的东西都变成php格式化,关于文件下载后变成PHP格式的解决办法

仿迅雷实现下载工具，支持断点续传和多线程下载以及简单界面展示

如何用idm下载迅雷 2024最新详细解析

百度云下载转化为迅雷下载的解决办法

linux视频教程 迅雷下载地址,在linux中下载迅雷链接(thunder:)

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

大三上期末复习（网络安全&物联网概论&安全协议&软件工程）

下载电影 php文件迅雷9,迅雷9怎么下载看片？迅雷9正确找片找资源的多种方法...

linux视频教程迅雷下载地址,在linux中下载迅雷链接(thunder:)

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载