2024年Python最新python多线程爬虫框架，分享面试流程|电子爱好者

admin管理员组
文章数量:1542383

最后

不知道你们用的什么环境，我一般都是用的Python3.6环境和pycharm解释器，没有软件，或者没有资料，没人解答问题，都可以免费领取（包括今天的代码），过几天我还会做个视频教程出来，有需要也可以领取~

给大家准备的学习资料包括但不限于：

Python 环境、pycharm编辑器/永久激活/翻译插件

python 零基础视频教程

Python 界面开发实战教程

Python 爬虫实战教程

Python 数据分析实战教程

python 游戏开发实战教程

Python 电子书100本

Python 学习路线规划

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友，可以戳这里获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

print(“测试代码4”)

except KeyError:

#如果获得KeyError异常,跳过

pass

else:

#如果是未成功下载的网页,重新下载

if result[“code”]:

if self.num_retries > 0 and 500<result[“code”]<600:

result = None

如果页面不存在,下载该页面

if result is None:

#延迟默时间

self.throttle.wait(url)

if self.proxies:

#如果有代理IP,从代理IP列表中随机抽取一个代理IP

proxy = random.choice(self.proxies)

else:

proxy = None

#构造请求头

headers = {“User-agent”:self.user_agent}

#下载页面

result = self.download(url,headers,proxy = proxy,num_retries = self.num_retries)

‘’’

file = open(“f:\\bilibili.html”,“wb”)

file.write(result[“html”])

file.close()

‘’’

if self.cache:

#如果有缓存方式,缓存网页

self.cache[url] = result

print(url,“页面下载完成”)

return result[“html”]

def download(self,url,headers,proxy,num_retries,data=None):

‘’’

用于下载一个页面,返回页面和与之对应的状态码

‘’’

#构建请求

request = urllib.request.Request(url,data,headers or {})

request.add_header(“Cookie”,“finger=7360d3c2; UM_distinctid=15c59703db998-0f42b4b61afaa1-5393662-100200-15c59703dbcc1d; pgv_pvi=653650944; fts=1496149148; sid=bgsv74pg; buvid3=56812A21-4322-4C70-BF18-E6D646EA78694004infoc; CNZZDATA2724999=cnzz_eid%3D214248390-1496147515-https%253A%252F%252Fwww.baidu%252F%26ntime%3D1496805293”)

request.add_header(“Upgrade-Insecure-Requests”,“1”)

opener = self.opener or urllib.request.build_opener()

if proxy:

#如果有代理IP,使用代理IP

opener = urllib.request.build_opener(urllib.request.ProxyHandler(proxy))

try:

#下载网页

response = opener.open(request)

print(“code是”,response.code)

html = response.read().decode()

code = response.code

except Exception as e:

print(“下载出现错误”,str(e))

html = ‘’

if hasattr(e,“code”):

code =e.code

if num_retries > 0 and 500<code<600:

#如果错误不是未找到网页,则重新下载num_retries次

return self.download(url,headers,proxy,num_retries-1,data)

else:

code = None

print(html)

return {“html”:html,“code”:code}

class Throttle:

‘’’

按照延时,请求,代理IP等下载网页,处理网页中的link的类

‘’’

def __init__(self, delay):

self.delay = delay

self.domains = {}

def wait(self, url):

‘’’

每下载一个html之间暂停的时间

‘’’

获得域名

domain = urllib.parse.urlparse(url)loc

获得上次访问此域名的时间

las_accessed = self.domains.get(domain)

if self.delay > 0 and las_accessed is not None:

计算需要强制暂停的时间 = 要求的间隔时间 - (现在的时间 - 上次访问的时间)

sleep_secs = self.delay - (datetime.datetime.now() - las_accessed).seconds

if sleep_secs > 0:

time.sleep(sleep_secs)

存储此次访问域名的时间

self.domains[domain] = datetime.datetime.now()

然后是实现爬虫功能的类

import time

import threading

import re

import urllib.parse

import datetime

from bs4 import BeautifulSoup

from Downloader import Downloader

from MongoCache import MongoCache

SLEEP_TIME = 1

def get_links(html):

‘’’

获得一个页面上的所有链接

‘’’

bs = BeautifulSoup(html, “lxml”)

link_labels = bs.find_all(“a”)

for link in link_labels:

return [link_label.get(‘href’, “default”) for link_label in link_labels]

def same_domain(url1, url2):

‘’’

判断域名书否相同

‘’’

return urllib.parse.urlparse(url1)loc == urllib.parse.urlparse(url2)loc

def normalize(seed_url, link):

‘’’

用于将绝对路径转换为相对路径

‘’’

link, no_need = urllib.parse.urldefrag(link)

return urllib.parse.urljoin(seed_url, link)

def threader_crawler(seed_url,resource_regiex=None,link_regiex = “.*”,delay=5,cache=None,download_source_callback=None,user_agent=“wswp”,proxies=None, num_retries=1, max_threads=10, timeout=60,max_url=500):

downloaded = []

crawl_queue = [seed_url]

seen = set([seed_url])

D = Downloader(cache = cache,delay = delay,user_agent=user_agent,proxies=proxies,num_retries=num_retries,timeout=timeout)

print(user_agent)

def process_queue():

while True:

links = []

try:

url = crawl_queue.pop()

except IndexError:

break

else:

html = D(url)

downloaded.append(url)

if download_source_callback:

if resource_regiex and re.match(resource_regiex,url):

download_source_callback(url,html)

links.extend([link for link in get_links(html) if re.match(link_regiex,link)])

for link in links:

link = normalize(seed_url, link)

if link not in seen:

seen.add(link)

if same_domain(seed_url,link):

crawl_queue.append(link)

print(“已经发现的总网页数目为”,len(seen))

print(“已经下载过的网页数目为”,len(downloaded))

print(“还没有遍历过的网页数目为”,len(crawl_queue))

threads=[]

while threads or crawl_queue:

if len(downloaded) == max_url:

return

for thread in threads:

if not thread.is_alive():

threads.remove(thread)

while len(threads) < max_threads and crawl_queue:

print(“线程数量为”, len(threads))

thread = threading.Thread(target=process_queue)

thread.setDaemon(True)

thread.start()

print(“线程数量为”, len(threads))

threads.append(thread)

def main():

starttime = datetime.datetime.now()

threader_crawler(“http://www.xicidaili/”,max_threads=1,max_url=10,user_agent=“Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36”)

endtime = datetime.datetime.now()

print(“花费时间”,(endtime-starttime).total_seconds())

if __name__ == “__main__”:

main()

经过测试,多线程爬虫速度要远远高于单个线程爬取,简单测试结果如下

开启30个线程爬取一百个网站用时31秒,平均一个用时0.31秒

开启10个线程爬取一百个网页用时69秒,平均一个用时0.69秒

开启1 个线程爬取一百个网站用时774秒,平均一个用时7.74秒

顺便实现了一个测试用的资源下载类,用于将电影天堂的所有资源页的电影保存到数据库

from lxml import etree

from pymongo import MongoClient

import urllib.request

感谢每一个认真阅读我文章的人，看着粉丝一路的上涨和关注，礼尚往来总是要有的：

①　2000多本Python电子书（主流和经典的书籍应该都有了）

②　Python标准库资料（最全中文版）

③　项目源码（四五十个有趣且经典的练手项目及源码）

④　Python基础入门、爬虫、web开发、大数据分析方面的视频（适合小白学习）

⑤ Python学习路线图（告别不入流的学习）

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友，可以戳这里获取

本文标签：爬虫多线程框架流程最新

版权声明：本文标题：2024年Python最新python多线程爬虫框架，分享面试流程内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dianzi/1727070866a1096152.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

2024年Python最新python多线程爬虫框架，分享面试流程

最后

如果页面不存在,下载该页面

获得域名

获得上次访问此域名的时间

计算需要强制暂停的时间 = 要求的间隔时间 - (现在的时间 - 上次访问的时间)

存储此次访问域名的时间

for link in link_labels:

更多相关文章

小米手机6X简单刷成开发版启用Root权限的流程

红米Note 4超简单刷成开发版获取ROOT权限的流程

mi5x的Android的版本,小米5XMIUI11最新稳定版刷机包（最新系统完整固件升级吧安卓8.0）...

wifi基础介绍＜一＞底层基础知识到驱动应用框架

基于Node.js的商城APP-97200（免费领源码）可做计算机毕业设计JAVA、PHP、爬虫、APP、小程序、C#、C++、python、数据可视化、大数据、全套文案

Python爬虫系列（二）——Python爬虫批量下载百度图片

写一个爬虫脚本获取必应（Bing）搜索引擎首页每日的4K超清壁纸 做文章封面

Python爬虫淘宝母婴销售数据可视化和商品推荐系统 开题报告

学了那么久的Python,为啥还是不会爬虫 一点经验分享_为啥我按照《python从入门到精通》中教的方法爬虫不能成功

java三大平台介绍，选择哪个平台学习java编程？，2024年最新12道Python高级面试题

2024年Python最新python多线程爬虫框架，分享面试流程

Python爬虫海南海口景点数据可视化和景点推荐系统 开题报告

Python北京二手房源爬虫数据可视化分析大屏全屏系统设计与实现 开题报告_二手房数据爬取与可视化的绪论(1)

2024年最全python爬虫从0到1 - urllib中的异常

ESP32 开启 Wi-Fi 热点与手机端 Iperf 测试 APP 来测试 ESP32 Wi-Fi AP 速率的流程

app专项测试（网络测试流程）

APP测试基本流程以及要点梳理，保证您看了不后悔

App测试流程及规范

App测试流程，测试前途

软件测试-App测试流程及测试点

发表评论

推荐文章

win7任务栏谷歌浏览器图标显示异常

联想G40重装linux系统,联想G40笔记本重装XP系统教程

惠普局域网共享打印机设置_win7惠普32位系统局域网设置打印机共享的对策

软件测试初级测试之测试基础

android root权限注册,安卓root权限获取的方法【图文教程】

热门文章

字体在线转换

Chrome浏览器：分享几个好用的谷歌浏览器拓展程序

固态硬盘能不能提高计算机速度,固态硬盘掉速如何解决？几招轻松提升SSD速度方法 (全文)...

红米note5解锁教程_红米NOTE5手机忘密码了怎么办?修手机的师傅教给我一个简单方法，解锁其实很简单...

近10年的网盘发展史（那些年你的网盘存了多少资料）

2021年安全生产模拟考试（全国特种作业操作证焊工作业-压力焊模拟考试题库一）

编译Android系统源码和内核源码分类：Android...

小米手机连接电脑（Mac）刷miui12开发版的操作指南

Android开发：申请小米开发者账号步骤

Deepin 与 Win10 双系统Deepin无法启动且没有引导项问题

最新文章

user和userdebug模式下开启adb的root权限

Ubuntu增加一个用户并给普通用户赋予root权限的方法

linux命令获取root权限,Linux命令学习：获取root权限

emacs以root权限打开文件

adb shell root权限

ansible普通用户执行root权限进行操作

ansible使用，普通用户root权限操作

非root权限利用pip安装包

Android实现系统ROOT, 并能赋予app root权限

ubuntu 16.04 如何获取root权限

Android安全之使用root权限替代无障碍服务的方式去获取TopActivity

hadoop账号赋予root权限

adb Shell root 权限

android机顶盒root,[Android]机顶盒root脚本：SupersuSU获取完美Root权限万能方法，解决二进制更新问题 | 樱花庄...

UBUNTU中如何获得root权限

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

写一个爬虫脚本获取必应（Bing）搜索引擎首页每日的4K超清壁纸做文章封面

Python爬虫淘宝母婴销售数据可视化和商品推荐系统开题报告

学了那么久的Python,为啥还是不会爬虫一点经验分享_为啥我按照《python从入门到精通》中教的方法爬虫不能成功

Python爬虫海南海口景点数据可视化和景点推荐系统开题报告

Python北京二手房源爬虫数据可视化分析大屏全屏系统设计与实现开题报告_二手房数据爬取与可视化的绪论(1)

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载