scrapy|电子爱好者

admin管理员组
文章数量:1531726

scrapy

一、分布式爬虫简述

（一）分布式爬虫优势

1.充分利用多台机器的带宽速度

2.充分利用多台机器的ip地址

（二）Redis数据库

1.Redis是一个高性能的nosql数据库

2.Redis的所有操作都是原子性的

3.Redis的数据类型都是基于基本数据结构，无需额外的抽象

4.Redis五种数据类型：string、hash、list、set、zset(sorted set）

（三）python操作redis数据库

1.终端：pip install redis

2.代码如下

import redis 
db = redis.Redis(host="localhost", port="6379", decode_responses=True)# 如果用到相同的key值，可以自动修改
db.set("name", "Sam")
db.set("name2", "张三")print(db.get("name2"))# 多个值
db.mset({"k1":"v1","k2":"v2"})
print(db.mget("k1","k2","name2"))# hash
db.hset("hash1","hkey1","hvalue1")
db.hset("hash1","hkey2","hvalue2")
db.hset("hash1","hkey3","hvalue3")print(db.hget("hash1","hkey2"))
print(db.hgetall("hash1"))db.lpush("list1",11,22,33)
print(db.llen("list1"))
print(db.lrange("list1",0,-1))db.sadd("set1", 55, 44 ,77)
print(db.scard("set1"))
print(db.smembers("set1"))db.zadd("zset1",{"item1":1,"item2":2,"item3":2})
print(db.zcard("zset1"))
print(db.zrange("zset1",0,-1))
print(db.zrange("zset1",0,-1,withscores=True))

（四）Redis数据保存至mongodb数据库

import redis
import pymongo
import jsondb_redis = redis.Redis(host="localhost", port="6379", decode_responses=True)client_mongo = pymongo.MongoClient("mongodb://localhost:27017")
db_mongo = client_mongo["RedisToMongo"]
col_mongo = db_mongo["C1"]for i in db_redis.lrange("app:items", 0 -1):page = {"title":json.loads(i)["title"]}res = col_mongo.insert_one(page)print(res.inserted_id)

二、分布式爬虫实战

实现一个简单的分布式：

1.创建爬虫项目和文件同scrapy一样的步骤

2.修改settings.py文件中的user-agent、robotstxt_obey、log_level、打开注释掉的item_piplines

3.终端安装scrapy-redis:pip install scrapy-redis

4.在app.py文件中修改如下代码：

import scrapy
from ..items import C07L07Item
from scrapy_redis.spiders import RedisSpiderclass AppSpider(RedisSpider):name = "app"redis_key = "app"# start_urls = ["http://127.0.0.1:5000/C07L07"]def __init__(self, *args, **kwargs):domain = kwargs.pop("domain","")self.allowed_domains = filter(None, domain.split(","))super(AppSpider, self).__init__(*args, **kwargs)def parse(self, response):links = response.xpath('//a/@href').getall()for link in links:link = "http://127.0.0.1:5000"+linkyield scrapy.Request(url=link,callback=self.parse_details, dont_filter=True)def parse_details(self, response):item = C07L07Item()item["title"] = response.textyield item

在items.py文件中修改数据结构

import scrapyclass C07L07Item(scrapy.Item):title = scrapy.Field()

在pipelines.py文件中修改代码

from itemdapter import ItemAdapterclass C07L07Pipeline:def process_item(self, item, spider):print(item["title"])return item

5.在settings.py文件中添加如下代码，修改ITEM_PIPELINES

DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
SCHEDULER_PERSIST = TrueREDIS_URL = "redis://127.0.0.1:6379"
DOWNLOAD_DELAY = 1ITEM_PIPELINES = {"C07LO7.pipelines.C07LO7Pipeline":300,"scrapy_redis.pipelines.RedisPipeline":400
}

6.在终端链接redis数据库：redis-cli

lpush app http://127.0.0.1:5000/C07L07

7.运行爬虫代码：scrapy crawl app(可以开多进程）

本文标签： scrapy

版权声明：本文标题：scrapy 内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dongtai/1716965080a525229.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

python3.5安装scrapy_win7+Python3.5下scrapy的安装方法

26天前

win7Python3.5下scrapy的安装方法如何在win7Python3.5的环境下安装成功scrapy？ 通过pip3 install Scrapy直接安装，一般会报错&#xff

scrapy中如何实现翻页抓取数据

23天前

1. 翻页请求的思路回顾requests模块是如何实现翻页请求的： （1）找到下一页的URL地址，并找出翻页以后的url中的那个参数变动了 &a

python爬虫scrapy步骤mac系统_Python爬虫:Scrapy框架的安装和基本使用

23天前

原标题：Python爬虫:Scrapy框架的安装和基本使用大家好，本篇文章我们来看一下强大的Python爬虫框架Scrapy。Scrapy是一个使用简单，功能强大的异步爬

爬虫 - Scrapy 爬取某招聘网站

23天前

文章目录项目简介一、创建项目1、终端创建项目2、修改配置二、爬取列表数据1、数据分析2、模型建立3、存储为 json 数据4、存储为 mysql 数据三、爬取列表下一页及所有数据1、特征分析2、编写方法四、图片1、添加图片保存地址2、添加

爬虫框架：Scrapy 快速入门

23天前

文章目录一、Scrapy简介1.1 示例代码1.2 示例代码的运行流程二、安装Scrapy2.1 Ubuntu下安装2.2 Windows下安装2.3 Mac OS下安装三、Scrapy 快速入门3.1 创建 scrapy 项目3.2

Scrapy结合Selenium采集数据简单实例

23天前

做爬虫的都不难发现，有的页面分页，点击下一页，或者指定某页，网址居然不变，如果是基于scrapy框架采集，那

六 Python之scrapy爬虫框架

23天前

一 scrapy的概念和流程 1.1 scrapy的概念 Scrapy是一个Python编写的开源网络爬虫框架。它是一个被设计用于爬取网络数据、提取结构性数据的框架。 Scrapy 使用了Twisted[twɪstɪd]异步网络框架&a

Scrapy框架的使用之Scrapy通用爬虫

23天前

转载自：https:juejin.impost5b026d53518825426b277dd5 通过Scrapy，我们可以轻松地完成一个站点爬虫的编写。但如果抓取的站点量非常大&#

Scrapy 爬取旅游景点相关数据（二）

23天前

1 安装selenium 借助 selenium 可以使用浏览器来进行爬取数据，可以解决上一节遗留的翻页问题，首先介绍一下如何集成到scrapy环境中。由于我使用的是macbook&

scrapy通过Request返回的页面数据与浏览器查看到的页面数据不一致

23天前

1.URL的地址可以反映请求用户所在的区域，区域不同返回的数据也不同例如：http:www.xxxxenxxx 和 http:www.xxxxcnxxx就可以看出不同 2

Python爬虫技术第25节爬虫框架Scrapy

23天前

Scrapy架构 Scrapy 是一个用于 Python 的高级 Web 爬取框架，它被设计用来爬取网站并从页面中提取结构化的数据。Scrapy 的核心是一个异步处理引擎，基于 Twisted

python scrapy实践-爬取豆瓣读书

23天前

文章目录 scrapy简介初尝scrapy安装scrapy第一个scrapy项目创建项目修改爬虫运行爬虫提取网页数据可以把结果存储在json文件后续 scrapy简介按scrapy官网的介绍来说，scrapy是一

Python爬虫学习 | Scrapy框架详解

23天前

一.Scrapy框架简介何为框架，就相当于一个封装了很多功能的结构体，它帮我们把主要的结构给搭建好了，我们只需往骨架里添加内容就行。scrapy框架是一个为了爬取网站数据

scrapy爬虫框架

23天前

scrapy爬虫框架一、scrapy的概念作用和工作流程1、scrapy的概念2、scrapy框架的作用3、scrapy的工作流程（重点）3.1 回顾之前的爬虫流程3.2 改写上述流程3.3 s

scrapy实战--爬取腾讯的招聘信息

22天前

一，scrapy框架的工作流程首先由引擎爬虫程序索要第一个要爬取的URL,交给调度器去入队列－－＞调度器处理请求后出队列，通过下载器中间件交给下载器去下载－－＞下载器得到响应对象后，通过蜘蛛中间件交给爬虫程序－－＞爬虫程序进行数据提取－

python爬虫之scrapy

14天前

scrapy安装在windows下，在dos中运行pip install Scrapy报错采用pip安装，安装时可能会出现安装错误Microsoft Visual C 14.0 is re

scrapy框架，腾讯新闻爬取

12天前

Scrapy框架，腾讯新闻爬取创建工程命名newsqq1.1使用命令创建 scrapy 工程1.2新建爬虫主文件1.2.1爬虫完整代码 1.3 修改项目 item.py 文件1.4修改项目 pipeline.py 文

爬虫-Scrapy实战一

8天前

本项目是 python scrapy 爬虫练手项目，仅供学习使用。目标获取电影天堂-最新电影的所有电影的详情页的url，title和磁力链接magnet。创建项目在开始爬取之

运行scrapy 报错：CRITICAL: Unhandled error in Deferred [Errno 11] Resource temporarily unavailable

6天前

报错如下： 2019-11-21 03:56:07 [engine.py:256] INFO: Spider opened2019-11-21 03:56:07 [logstats.py:48] INFO: Cra

pycharm +scrapy 运行报错：[twisted] CRITICAL: Unhandled error in Deferred

6天前

解决方法一：这个问题可能是你的pywin32版本不太对，无论你的电脑是32位还是64位，你要安装的pywin32一定要与你Python的版本相一致，

电子爱好者 - 最新技术资讯及电子产品介绍！

scrapy

scrapy

一、分布式爬虫简述

（一）分布式爬虫优势

（二）Redis数据库

（三）python操作redis数据库

（四）Redis数据保存至mongodb数据库

二、分布式爬虫实战

更多相关文章

python3.5安装scrapy_win7+Python3.5下scrapy的安装方法

scrapy中如何实现翻页抓取数据

python爬虫scrapy步骤mac系统_Python爬虫:Scrapy框架的安装和基本使用

爬虫 - Scrapy 爬取某招聘网站

爬虫框架：Scrapy 快速入门

Scrapy结合Selenium采集数据简单实例

六 Python之scrapy爬虫框架

Scrapy框架的使用之Scrapy通用爬虫

Scrapy 爬取旅游景点相关数据（ 二 ）

scrapy通过Request返回的页面数据与浏览器查看到的页面数据不一致

Python爬虫技术 第25节 爬虫框架Scrapy

python scrapy实践-爬取豆瓣读书

Python爬虫学习 | Scrapy框架详解

scrapy爬虫框架

scrapy实战--爬取腾讯的招聘信息

python爬虫之scrapy

scrapy框架，腾讯新闻爬取

爬虫-Scrapy实战一

运行scrapy 报错：CRITICAL: Unhandled error in Deferred [Errno 11] Resource temporarily unavailable

pycharm +scrapy 运行报错：[twisted] CRITICAL: Unhandled error in Deferred

发表评论

推荐文章

Win10安装Linux子系统WSL(ubuntu2204)及图形桌面xfce4

中标麒麟系统修改系统启动选项（亲测有效）

搜狗拼音输入法自定义格式的时间和日期并快捷键触发

Ubuntu16安装搜狗拼音输入法

扫码连wifi小程序源码

热门文章

error in .srcviewsProductView.vue?vue&amp;type=template&amp;id=5ebb49ea&amp;Module not found: Error: Can‘

从Microsoft官网下载Windows10镜像

Windows Update服务状态停止，启动按钮是灰色。(已解决) win10系统商店错误代码: 0x80004003

Chrome浏览器无法启动，只显示在后台进程，应用程序不显示

树莓派4B连接显示器 黑屏、左上角有光标问题

macbookair用什么编辑python_精致又高效地使用Mac（软件篇）

kvm虚拟机启动后进入shell模式的解决方法

检测到你的手机处于root环境_网络安全小黑板 | 如何正确安装和管理手机应用程序...

搜狗拼音输入法 打不了中文

虚拟光驱下载安装和使用，Windows系统如何直接打开iso文件

最新文章

WIN7如何禁止IE浏览器自动升级

xp-win7远程桌面的设置（安装win7终端服务器）

XPWIN7系统中删除残留托盘图标的方法

win7招不到网络计算机,用一招提高家里的网速 Win7网络双工模式设置教程

Oracle数据库从Window XP迁移到Win7的诡异问题

网络里找不到工作组的计算机,win7系统看不到工作组计算机怎么办？win7系统看不到工作组计算机解决方法...

借win11 WSA升级12l，水一贴升级方法和说说要不要升级win11。

如何在win7下升级vs2008

win7字体安装_超强大PDF编辑软件 | Adobe Acrobat DC安装教程

xp新电脑win7重装硬盘SATA模式AHCI及ACPI电源管理zz150118

win7虚拟机时间不能修改怎么办

Win7 64位操作系统中安装Microsoft Access Engine

java开发用win7好还是win10_Win10和Win7各有优点，大家不要再纠结哪个系统更好了！...

win7蓝屏_win7电脑蓝屏自动重启怎么办，卸载程序，电脑瞬间复活

win7添加一个计算机图标,Win7系统任务栏处添加“计算机”图标的方法

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

Scrapy 爬取旅游景点相关数据（二）

Python爬虫技术第25节爬虫框架Scrapy

error in .srcviewsProductView.vue?vue&type=template&id=5ebb49ea&Module not found: Error: Can‘

树莓派4B连接显示器黑屏、左上角有光标问题

搜狗拼音输入法打不了中文

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载