用elasticsearch和nuxtjs搭建bt搜索引擎|电子爱好者

admin管理员组
文章数量:1531255

世界上已经有了这么多种子搜索引擎，为什么你还要不厌其烦的做一个新的？

可以这么说，地球上大多数的种子搜索引擎的前后端技术都比较古老，虽然古老的技术既经典又好用，但是作为一个喜欢尝鲜的人，我仍然决定使用目前最为先进的开发技术制作一个功能简明的种子搜索引擎。

采用了什么技术？

前端：在vue,angular,react三大现代开发框架中选择了vue，做出这个决定的原因也仅仅是一直以来对vue的谜之好感。有时候就是这样，缘分到了不得不从，恰巧nuxtjs在9月更新了2.0，因此毫不犹豫选择了vue。
后端：在koa,gin,springboot中权衡良久，由于很长时间没有写过java，最后选择了springboot + jdk11，用写javascript的感觉来写java，还是很不错的。从追求速度上来讲，可能使用gin或Koa要更快，但是这一点提升对于我这种实验性网站来说，意义并不是很大。
全文检索：尝试了全文检索里面的比较潮的couchbase、redissearch、elasticsearch，最后选定elasticsearch，另外两个的速度虽然远高于elasticsearch，但毕竟是内存式数据库，简单功能尚可，复杂度上去后则吃内存太多。

制作过程呢？

下面我分享下大概过程，涉及到复杂原理，请自行谷歌，我不认为我可以把复杂原理描述的很简单。

关于命名：

从手中的十来个域名选择了

btzhai.top

中国国内同名的网站有几个，但是这不是问题。

关于服务器：

几经周折，购买了一台美国服务器。配置是:E5-1620|24G|1TB|200M带宽，真正的24小时人工服务。考虑到要用cloudfare，所以不需要硬防。一月1200RMB。

在此期间尝试了很多家服务器，深感这免备案服务器这一行真的是泥沙俱下。

关于爬虫：

大约8月初终于有空来着手bt搜索引擎这件事情。

首先摆在我面前的问题就是数据来源问题，要知道所谓的dht网络，说白了就是一个节点既是服务器又是客户端，你在利用dht网络下载时会广播到网络中，别的节点就会接收到你所下载文件的唯一标识符infohash（有的地方称之为神秘代码）和metadata，这里面包括了这个文件的名称、大小、创建时间、包含文件等信息，利用这个原理，dht爬虫就可以收集dht网络中的即时热门下载。

如果仅仅依靠依靠dht爬虫去爬的话，理论上初期速度大约为40w一天，30天可以收集上千万，但是dht网络里面的节点不可能总是下载新的文件，现实情况是：大多数情况下冷门的种子几年无人问津，热门种子天天数十万人下载。可以推想，随着种子基数增加，重复的infohash会越来越多，慢慢地只会增加所谓的种子热度而不会增加基数，但是没有1000w+的种子，从门面上来讲不好看。

去哪里弄1000w种子成了当时我主要研究的问题。首先我从github上选取了几个我认为比较好用的dht爬虫进行改造，让之可以直接将数据入库到elasticsearch中，并且在infohash重复的时候自动对热度+1。

elasticsearch的mapping如下，考虑到中文分词，选用了smartcn作为分词器，当然ik也是可以的。种子内的文件列表files，本来设置为nested object，因为nested query性能不高已经取消:

{
   
	"properties": {
   
		"name": {
   
			"type": "text",
			"analyzer": "smartcn",
			"search_analyzer": "smartcn"
		},
		"length": {
   
			"type": "long"
		},
		"popularity": {
   
			"type": "integer"
		},
		"create_time": {
   
			"type": "date",
			"format": "epoch_millis"
		},
		"files": {
   
			"properties": {
   
				"length": {
   
					"type": "long"
				},
				"path": {
   
					"type": "text",
					"analyzer": "smartcn",
					"search_analyzer": "smartcn"
				}
			}
		}
	}
}

服务器上开始24小时挂着dht爬虫。期间我也尝试过多种不同语言的开源爬虫来比较性能，甚至还找人试图购买bt种子。下面这些爬虫我都实际使用过：
https://github/shiyanhui/dht
https://github/fanpei91/p2pspider
https://github/fanpei91/simDHT
https://github/keenwon/antcolony
https://github/wenguonideshou/zsky
然而这些dht爬虫经试验，或多或少都有些问题，有的是只能采集infohash而不能采集metadata，有的采集速度不够，有的则随时间增加资源占用越来越大。

最终确定的是这个最优解：

https://github/neoql/btlet

唯一不妥是运行一段时间（

本文标签：搜索引擎 Elasticsearch Nuxtjs bt

版权声明：本文标题：用elasticsearch和nuxtjs搭建bt搜索引擎内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dongtai/1725261567a1015339.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

用elasticsearch和nuxtjs搭建bt搜索引擎

世界上已经有了这么多种子搜索引擎，为什么你还要不厌其烦的做一个新的？

采用了什么技术？

制作过程呢？

更多相关文章

python网盘搜索引擎_打造一个蓝奏云网盘搜索引擎

空间搜索引擎：Censys

全文搜索引擎 ES(Elasticsearch) 简单使用说明

【十分钟入门Solr搜索引擎】从新手到高手的快速指南！

搜索引擎原理与分类

浅谈垂直搜索引擎技术

Consensus-AI论文搜索引擎 直接从论文中找答案

搜索引擎的分类

ElasticSearch搜索引擎入门与实战

搜索引擎基本构成有哪些

搜索引擎开源PHP源码 无需安装数据库

搜索引擎按其工作方式主要可分为三种

搜索引擎solr和elasticsearch

ElasticSearch分布式搜索引擎原理与代码实例讲解

9个基于Java的搜索引擎框架

十大深网搜索引擎，它们提供了你无法从Google和Bing获取的信息

ElasticSearch数据库（ES数据库）简介

搜索引擎技术之概要预览

搜索引擎概述

使用Chrome浏览器的搜索引擎，谷歌浏览器开启同步功能

发表评论

推荐文章

免费是王道！盘点国外十款免费好用的反病毒软件产品

联想拯救者Y7000 2020安装Windows 10+CentOS7双系统

Ubuntu 18.04.2LTS 安装搜狗拼音输入法

怎样更改计算机网络密码怎么办,wifi密码怎么改？

linux中修改静态ip后无法连接网络,我手机连接Wifi后有时候突然不能上网，我把设置中的静态iP改了才恢复，请教一下这是为什么？...

热门文章

kaggle的kernel-only比赛中出现Your Notebook cannot use internet access in this competition解决方案

信息安全作业2——SYSU

STM32——USB 内部FLASH模拟U盘

android 浏览器 内核版本,Android集成三方浏览器之X5内核

浏览器怎么录制网页视频？3种网页视频录制方法

chrome浏览器

Win10+Ubuntu18.04 （亲测有效）双系统安装，引导制作，开机紫屏解决

Ubuntu 14.04 LTS 搜狗拼音输入法不能使用的情况

Kindle wifi 连接不上的问题

移动硬盘无法读取数据，总是提醒格式化

最新文章

硬盘&quot;动态磁盘 无法读取&quot;故障的修复

移动光猫连接移动硬盘变成超小型nas【HS8545M5

计算机识别不了外接硬盘分区,U盘或移动硬盘能识别但不能分配盘符怎么办解决教程...

更改移动硬盘储存格式(背景:iPadOS无法识别)

Centos服务器上使用移动硬盘（NTFS分区）

移动硬盘无法识别

SSD移动硬盘用法

移动硬盘只显示盘符，不显示容量，也不能打开

移动硬盘弹出文件或目录损坏且无法读取解决办法

Mac下移动硬盘U盘热插拔后不能识别的问题解决

Mac下解决硬盘无法读取问题Mounty for NTFS - 免费让 Mac 原生支持移动硬盘U盘 NTFS 读写的必备驱动应用

移动硬盘无法识别，磁盘图标不显示解决方法介绍

ESXI挂载USB移动硬盘

移动硬盘插入Mac后，在Windows无法识别

SCSI硬盘系统无法启动取数据办法

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

Consensus-AI论文搜索引擎直接从论文中找答案

搜索引擎开源PHP源码无需安装数据库

android 浏览器内核版本,Android集成三方浏览器之X5内核

硬盘"动态磁盘无法读取"故障的修复

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载