基于scrapy框架的爬虫详细步骤（含没有“下一页”按钮的href抓取）|电子爱好者

admin管理员组
文章数量:1538809

脱离八爪鱼，最近两天用scrapy爬了一个商品网站，本来可以快很多的，其中有一天把时间花在一行代码上最后绕了一大圈改了个参数就解决了？？希望大家少走点弯路。
很多都是对慕课网的一个总结，网址：https://www.imooc/video/17519
讲得非常好！
比较敏感所以用课程的代码例子了。
第一次写，难免不专业多多指教。

1.新建项目

第一步先安装，可以按照视频上安装，略。
例子中，我们要爬的是：https://movie.douban/top250

首先：

scrapy startproject douban

就创建好了一个文件夹叫douban
在cmd上进入到douban文件夹中cd douban，再进入子目录cd douban/
好的，现在我们需要与网站相关联的一个包，cmd输入

 scrapy genspider douban_spider movie.douban.com

然后我们就可以用pycharm或者sublime把包导进去check一下

不要紧张，如果你的和我不一样，那么应该在douban目录下新建一个文件叫main.py

找到Settings.py文件 -> 找到被#掉的user agent -> （这个不是真正的user agent，我们需要打开https://movie.douban/top250，win直接F12，Mac就option+command+I ，打开检查栏）

把黑字复制了拷在settings.py上的user agent后面就好,别忘了去掉注释

2.快捷运行

在main.py文件中，让他代替终端的功能，在环境中运行就好

from scrapy import cmdline
cmdline.execute('scrapy crawl douban_spider'.split())

3. 修改douban_spider.py

先贴上源码

# -*- coding: utf-8 -*-
import scrapy
from douban.items import DoubanItem

class DoubanSpiderSpider(scrapy.Spider):
    name = 'douban_spider'
    allowed_domains = ['movie.douban']
    start_urls = ['http://movie.douban/top250']

本文标签：下一页爬虫框架按钮步骤

版权声明：本文标题：基于scrapy框架的爬虫详细步骤（含没有“下一页”按钮的href抓取）内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dongtai/1717588218a587740.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

基于scrapy框架的爬虫详细步骤（含没有“下一页”按钮的href抓取）

1.新建项目

2.快捷运行

3. 修改douban_spider.py

更多相关文章

Ubuntu18.04系统安装及深度学习框架搭建

nvidia控制面板点了没反应win7_控制面板无响应怎么办_为什么nvidia控制面板打不开图文步骤...

公众号开发(2) —— 盛派.net SDK + vue搭建微信公众号网页开发框架

AI编程案例003 ChatGPT写爬虫程序-通过搜狗搜索抓取微信公众号文章

电脑系统安装知识及安装步骤

crawlergo：强大的浏览器爬虫工具

【云原生 | 31】Docker运行实时流计算框架Apache Storm

Tree-of-Thought Puzzle Solver 学习资料汇总 - 一个使用LLM求解复杂推理任务的框架

记录域名被QQ微信封提示危险怎么办？如何解除？解封步骤很简单

Linux Thermal框架

不同品牌机中的Fn按钮功能定位汇总

不同品牌机中的“Fn”按钮功能定位汇总

四个步骤教会你休眠文件怎么删除？

网络爬虫-一键转换爬虫请求头headers(Fillder各大浏览器适用)

爬虫：使用Chrome谷歌浏览器自动获取xpath爬取内容为空

AI：人工智能​​​​​​​的应用场景—具体应用案例介绍之以领域划分(CV领域DS领域NLP领域金融领域爬虫领域)、以项目划分(AI推荐AI推断AI法律咨询AI挖掘)目录来理解技术交互流

python爬虫万能代码-python网络爬虫源代码（可直接抓取图片）

python爬虫,selenium+chromedriver,谷歌驱动自动下载及配置

XPath Helper：chrome爬虫网页解析工具 Chrome插件图文教程

python2.7 + 谷歌浏览器 实现模拟浏览器爬虫

发表评论

推荐文章

ThoughtWorks读书雷达

Java实现QQ机器人

GPU卡性能相关参数查询网址

盘点谷歌浏览器中的一些神级插件

Mac Chrome 谷歌浏览器解决跨域（CORS）问题，自制app启动脚本

热门文章

网络安全审查办法

2024年最新AI算力厂商排名！

ART-Pi学习笔记（1）——简介与资料

win10微软图标点击无反应_win10系统任务栏开始菜单等系统图标点击无反应的解决方法...

Linux Thermal框架

转-xmind7破解方法

树莓派 python 无人机_DIY一个基于树莓派和Python的无人机视觉跟踪系统

服务器c盘怎么删除临时文件,Win10 C盘临时文件怎么删除?

html谷歌浏览器自动播放视频,谷歌浏览器怎么才能绕过视频自动播放的限制呢？大家有没有什么好办法...

谷歌浏览器Software Reporter Tool长时间占用CPU解决办法

最新文章

固态硬盘开卡软件_最高速度代表性能？这款软件让你了解固态硬盘的真实性能...

hp服务器960g固态硬盘,又一波大船靠岸，三星PM963企业级固态硬盘960G 深度评测...

固态硬盘简称是不是ssd_小白科普：没想到你是这样的固态硬盘

企业固态和普通民用固态 及intel企业固态命名规则

h61 nvme硬盘_最值得买的固态移动硬盘推荐-最佳固态移动硬盘排行榜【2020年10月】...

固态硬盘能提高服务器内存吗,提升整机性能，固态硬盘重要还是内存重要？

Linux固态硬盘 设置写入缓存,写入缓存策略怎么打开让SSD提高速度

intel固态硬盘tbw什么意思

t420i升级固态硬盘提升_老主机升级东芝RC500 NVMe固态硬盘，性能提升有多少？

“固态硬盘避坑：个人如何挑选适合的品牌和型号，数据能恢复吗？”

win10固态硬盘分区 整数_一台机器两个系统，工作生活分隔开——安装win10和Linux双系统...

固态硬盘数据丢失了如何恢复？

java开发256g固态硬盘_256g固态硬盘有哪些

计算机固态硬盘256g,256GB固态和1TB机械硬盘应该怎么选？秒懂

hp服务器960g固态硬盘,蘑菇爱搞机 篇五十八：又一波大船靠岸，给我带来了一条靠谱的固态——三星PM963企业级固态硬盘960G 深度评测...

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

AI：人工智能的应用场景—具体应用案例介绍之以领域划分(CV领域DS领域NLP领域金融领域爬虫领域)、以项目划分(AI推荐AI推断AI法律咨询AI挖掘)目录来理解技术交互流

python2.7 + 谷歌浏览器实现模拟浏览器爬虫

企业固态和普通民用固态及intel企业固态命名规则

Linux固态硬盘设置写入缓存,写入缓存策略怎么打开让SSD提高速度

win10固态硬盘分区整数_一台机器两个系统，工作生活分隔开——安装win10和Linux双系统...

hp服务器960g固态硬盘,蘑菇爱搞机篇五十八：又一波大船靠岸，给我带来了一条靠谱的固态——三星PM963企业级固态硬盘960G 深度评测...

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载