手把手教你使用Python打造一款简易搜索引擎|电子爱好者

admin管理员组
文章数量:1578034

/1 前言/

相信大家在知识共享的这个年代一定在网上下载了很多的文件保存以供日后有时间学习吧，毕竟硬盘空间也比较有限，下面我们就来说说我们要做的这个项目，就是搜索盘搜里的资源然后进行下载。

/2 项目目标/

实现搜索自己想要的文件，并且下载文件。

/3 项目准备/

使用sublime text 3 开发。因为此次我们需要用到交互式来完成操作，所以需要在sublime text 3 下载一个sublimeREPL插件来进行辅助开发。

/4 项目实现/

1、打开盘搜，并随意打开一个链接，如下图所示：

2、然后可以看到这个画面，如下图所示。

3、此时这个网页地址为：

http://www.pansou/?q=成化十四年

由此可以看出它是一个get请求。于是requests.get搞起来，这样我们就实现了第一步，搜索。于是，可以这样写代码：

import requests 
def down(content):
  content=input('请输入要下载的文件名')
  rep=requests.get('http://www.pansou/?q='+str(content))
  rep.encoding='utf-8'

4、这样就得到了上个页面中的网页源代码，我们通过搜索相关关键字发现竟然搜不到：

5、那么这是怎么回事？原来这是因为ajax异步加载导致的部分关键代码显示不出来。这可就犯难了，换句话说这就触及到我的知识点盲区了。

因为小编并未学过前端，只知道有ajax这回事，哪里知道这个问题怎么产生怎么解决了。不过不用怕，还好小编有一个大绝招，那就是找接口。我找呀找，终于被我找到了，哎，功夫不负苦心人。如图所示：

6、发现这是个json格式的所以我们现在可以将他进行读取，如图：

7、不容易啊，json的坑很多，于是决定用字典。哈哈哈哈，果然适合自己的才是最香的。

找到了这些东西我们就可以把他们提取出来啦，这样我们就提取出了第一页的所有结果，要想提取第二页的结果只需将p的结果改为2即可。

最终的结果，如图：

8、接下来我们强化下程序，让他具有交互功能，供用户选择。

9、但是我们了解到callback一般都是可变的函数，所以真正能用上的就只有两个参数，q和p，于是：

这样就完成了指定页面的文件浏览。

下载的话也比较简单，直接将链接复制到浏览器中即可，这样就完成了一个最简单的搜索引擎了。

/5 小结/

1、不建议抓取太多数据，容易对服务器造成负载，浅尝辄止即可。

2、本文基于Python网络爬虫，利用爬虫库，打造了一款简易的Python搜索引擎。

3、实现的时候，总会有各种各样的问题，切勿眼高手低，勤动手，才可以理解的更加深刻。

4、如果需要本文源码的话，请在公众号后台回复“引擎”关键字进行获取，觉得不错，记得给个star噢。

end

由菜鸟学Python原班人马打造的公众号【程序员GitHub】，专注于分享GitHub上有趣的资源包括，Python，Java，Go语言前端学习等优质的学习资源，爆料程序员圈的新鲜趣事，热门干货，职场感悟，感兴趣的小伙伴可以来捧场！

程序员GitHub

长按2秒，输入：【福利】

点这里，进菜鸟学PythonB站大本营

本文标签：简易手把手教你搜索引擎 Python

版权声明：本文标题：手把手教你使用Python打造一款简易搜索引擎内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dongtai/1727830310a1132537.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

干货 | 查询耗时降低23，携程度假搜索引擎架构优化

3小时前

作者简介少伟，负责度假起价、搜索的研发工作，资深技术控。锦涛，负责度假搜索及相关子系统的建设，对搜索引擎、NLP等有浓厚兴趣。背景介绍携程度假

个人博客 SEO 优化（1）：搜索引擎原理介绍

3小时前

文章首发于我的博客：个人博客 SEO 优化（1）：搜索引擎原理介绍写在文章前面：前段时间接到一个 SEO 优化的私活。为了完成这个活，只能赶鸭子上架，从零开始系统地去学习 SEO 知识。经过几天的学习后，也算是入了门。才意识到 SEO

robots.txt文件的作用及写法（搜索引擎）

3小时前

robots其实就是指Robots协议，Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”（Robots Exclusion

网络安全工程师教你：Shadon网络空间搜索引擎使用教程

3小时前

一、背景介绍与谷歌不同的是，Shodan不是在网上搜索网址，而是直接进入互联网的背后通道。Shodan可以说是一款“黑暗”谷歌，一刻不停的在寻找着所有和互联网关联的服务器、

百度网盘目录搜索引擎

3小时前

百度网盘目录搜索搭建 1、用途： 向客户更直观展示课程内容，同时避免因信息不对称导致的售后问题，更迅速搜索网盘资源 2、优点： 一键更新新增文件目录&

分享百度网盘搜索引擎原理以及实现部分源码

3小时前

先给出大家示例：百度网盘搜索示例参考https:pan.90xz 一、搜索引擎结构网盘搜索引擎---》既然是搜索引擎---》最终都是蜘蛛爬寻程序蜘蛛爬寻就必须有网，网在哪里呢&#

数据挖掘在搜索引擎中的应用

3小时前

服务器端：数据挖掘----有效的网页内容获取和精炼的索引数据库建立 web数据挖掘是从互联网资源中获取数据信息和发现知识的过程，通常人们应用数据挖掘获取网页有用数据，实现数

什么是搜索引擎营销（SEM）？

3小时前

什么是搜索引擎营销（SEM）？ SEM或搜索引擎营销（也称为搜索营销）是从搜索引擎获得有机（即免费&

自己动手实现主题搜索引擎

3小时前

1.前言： 软件设计要写大作业了，好慌啊，写什么好呢，室友居然把Everything实验了，那我也写一个与搜索有关的玩玩吧。突然想

HTML站内搜索引擎

3小时前

对于一个网站来说，使用搜索引擎来进行站内搜索往往比自己编写的站内搜索更高效，并且不占用网站服务器的资源，下面是我搜集到的几个主要搜索引擎（Google和

集成搜索引擎与元搜索引擎

3小时前

搜索引擎是开启网络知识殿堂的钥匙，获取知识信息的工具。随着网络技术的飞速发展，搜索技术的日臻完善，中外搜索引擎已广为人们熟知和使用。任何搜索引擎的设计，

Elasticsearch搜索引擎：ES的segment段合并原理

3小时前

在讲 segment 之前，我们先用一张图了解下 ES 的整体存储架构图，方便后面内容的理解： 一、segment文件的合并流程： 当我们往 Elas

值得收藏的网盘搜索引擎&网盘搜索工具

3小时前

网盘搜索引擎的推荐搜索，下方所有搜索引擎小编都特地试用了一遍，根据收录量、搜索效果等，做出综合评分，并过滤了6分以下的搜索引擎，我

网络爬虫结合搜索引擎

3小时前

网络爬虫架构在NutchHadoop之上，是一个典型的分布式离线批量处理架构，有非常优异的吞吐量和抓取性能并提供了大量的配置定制选项。由于网络爬虫只负责网络资源的抓取，所以&

十个图片搜索引擎（转）

3小时前

下面的十款搜索引擎可以帮你实现，以图找图，以图搜图，以图片搜索相似的图片。一： http:tineye Tineye是典型的以图找图搜索引擎&

创建一个图片搜索引擎的完整指南

3小时前

大家都知道，通过文本或标签来搜索图片的体验非常糟糕。无论你是将个人照片贴标签并分类，或是在公司的网站上搜索一堆照片，还是在为下一篇博客寻找合适的图片。在用文本和关键字来描述

搜索引擎免费登录入口大全（转）

3小时前

欢迎您使用本站的搜索引擎免费登录入口大全如果您觉得本站对您有帮助，请收藏或者推荐给您的朋友。百度免费登录入口Google免费登录入口孙悟空免费登录入口雅虎免费登录入口同城网站联盟免费登录入口中国搜索同盟免费登录入口

搜索引擎存在问题

3小时前

211 　查全率和查准率低不论使用哪种搜索引擎, 在实际使用中, 查准率、查全率和响应时间仍然是用户最关心的基本问题。然而, 目前还没有一种搜索引擎能覆盖因特网全部资源, 即使功能最完善的搜索引擎也只能找到Web 上大约1 3的网页,

最全的全球搜索引擎的介绍

3小时前

Google：Google 全球最大的机器搜索引擎， Google 每天提供 2 亿次查询服务，占全球搜索引擎查询市场份额的 29.2 ％&#x

如何避免搜索引擎爬虫产生的流量过大

3小时前

转载请保留：http:www.qiexingpostweb-seach-spider.html 最近遇到了一件麻烦事。我做的一个网站：且行电子学档，只是教学中使用的网

电子爱好者 - 最新技术资讯及电子产品介绍！

手把手教你使用Python打造一款简易搜索引擎

2、然后可以看到这个画面，如下图所示。

3、此时这个网页地址为：

由此可以看出它是一个get请求。于是requests.get搞起来，这样我们就实现了第一步，搜索。于是，可以这样写代码：

4、这样就得到了上个页面中的网页源代码，我们通过搜索相关关键字发现竟然搜不到：

5、那么这是怎么回事？原来这是因为ajax异步加载导致的部分关键代码显示不出来。这可就犯难了，换句话说这就触及到我的知识点盲区了。

因为小编并未学过前端，只知道有ajax这回事，哪里知道这个问题怎么产生怎么解决了。不过不用怕，还好小编有一个大绝招，那就是找接口。我找呀找，终于被我找到了，哎，功夫不负苦心人。如图所示：

6、发现这是个json格式的所以我们现在可以将他进行读取，如图：

7、不容易啊，json的坑很多，于是决定用字典。哈哈哈哈，果然适合自己的才是最香的。

1、不建议抓取太多数据，容易对服务器造成负载，浅尝辄止即可。

2、本文基于Python网络爬虫，利用爬虫库，打造了一款简易的Python搜索引擎。

3、实现的时候，总会有各种各样的问题，切勿眼高手低，勤动手，才可以理解的更加深刻。

4、如果需要本文源码的话，请在公众号后台回复“引擎”关键字进行获取，觉得不错，记得给个star噢。

更多相关文章

干货 | 查询耗时降低23，携程度假搜索引擎架构优化

个人博客 SEO 优化（1）：搜索引擎原理介绍

robots.txt文件的作用及写法（搜索引擎）

网络安全工程师教你：Shadon网络空间搜索引擎使用教程

百度网盘目录搜索引擎

分享 百度网盘搜索引擎原理以及实现部分源码

数据挖掘在搜索引擎中的应用

什么是搜索引擎营销（SEM）？

自己动手实现主题搜索引擎

HTML站内搜索引擎

集成搜索引擎与元搜索引擎

Elasticsearch搜索引擎：ES的segment段合并原理

值得收藏的网盘搜索引擎&amp;网盘搜索工具

网络爬虫结合搜索引擎

十个图片搜索引擎（转）

创建一个图片搜索引擎的完整指南

搜索引擎免费登录入口大全（转）

搜索引擎存在问题

最全的全球搜索引擎的介绍

如何避免搜索引擎爬虫产生的流量过大

发表评论

推荐文章

服务器要删除文件访问被拒绝,Win7系统删除文件提示文件访问被拒绝怎么办

某组态软件工程文件加密机制探究

无线路由器使用交换机模式上网不稳定

Win10家庭版、专业版、企业版、教育版各版本功能区别对照表

搜索引擎索引之如何建立索引

热门文章

Ubuntu 13.04下安装QQ2012

Java异常处理注意点

48-拒绝服务型攻击(Denial-of-Service Attacks)

Android Wifi断开问题分析和802.11原因码

【HCIA-Datacom V1.0培训教材】广域网技术

漏洞扫描练习题

win10自带VPN连接失败，提示“不能建立到远程计算机的连接,你可能需要更改此连接的网络设置”处理方法（亲测有效）

服务器 ubuntu 卡死重启后一直进入emergency mode

win10家庭版和专业版远程桌面出现身份验证错误， 要求的函数不受支持。解决办法【亲测有效】

windows10 家庭版 使用VMware虚拟机卡死 进程杀不死无法打开

最新文章

不装了，整点干货——IOS逆向环境搭建

VScode配置CC++环境详细

android x86触屏驱动下载,农步祥作品 - 使用台式机和触摸屏玩Android X86 [Soomal]

校运会管理系统设计与实现(源码+lw+部署文档+讲解等)

vncapp下载，vncapp下载怎么下载？下载教程

玩客云如何部署小雅AList并结合内网穿透工具实现远程访问浏览资源

达观助手AI写作下载安装教程及特色功能详解，速速收藏体验！

手机软件何时统一——桥接模式

亚马逊平板刷机Linux系统,亚马逊平板刷机步骤盘点【图解】

斐讯N1盒子刷OpenWRT系统结合内网穿透远程管理本地软路由

搭建个人云盘---宝塔+可道云

python的搜题软件下载_直播答题？Python助你自动搜题之新手篇！

美食信息推荐系统

【2025】springboot家装一体化服务平台背景（源码+文档+调试+答疑）

如何解决Windows 7中DLL文件缺失导致的文件无法打开问题？恢复系统正常运行的步骤

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

分享百度网盘搜索引擎原理以及实现部分源码

值得收藏的网盘搜索引擎&网盘搜索工具

win10家庭版和专业版远程桌面出现身份验证错误，要求的函数不受支持。解决办法【亲测有效】

windows10 家庭版使用VMware虚拟机卡死进程杀不死无法打开

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载