Scrapy见面第五天|电子爱好者

admin管理员组
文章数量:1531794

这算是我第一次使用框架吧，说来惭愧。
此前用Request带上cookie实现、（稍微）完善了QQ空间的爬虫（传送门），接下来想实现分布式去爬。其实只要能实现待爬QQ队列的共享，分布式的主要问题也就解决了。但是觉得这样实现的爬虫项目有点“不正规”，所以想用Scrapy框架和Redis数据库来整顿现有爬虫。无奈公司里也没什么人指点，全凭一人摸爬滚打，过程有点痛苦，但自信只要敢啃，还是可以拿下的，不成问题。
然后就动手了。
（忽略安装过程，估计是以前用其他模块的时候已经吐血吐够了，环境都配好了，竟然直接用 pip install scrapy 就成功了）

第一步、当然是百度，看看传说中的“正规军”是什么样子的，快速了解了一下Scrapy工作机制，以及大家在使用scrapy的时候关注的点更多在哪里。然而看的都是似懂非懂，，然而并不重要，我只需要和它碰个面即可。
第二步、搜GitHub，找代码。搜了十几个demo，快速看了一下scrapy的代码结构。
第三步、从各种平台搜索和Scrapy有关的东西，特别是大家对它的看法，主要途径：新浪微博、知乎、推酷、Google。
第四步、调试、运行从GitHub上download下来的demo，大约了解scrapy具体的运行机制。
第五步、是时候静下心来啃Scrapy的官方文档了，受益良多。
第六步、糗事百科作靶子，模仿demo实战练习，再功能延生。
第七步、即现在，第五天。

其实遇到的问题还是挺多的，主要的原因是对Scrapy了解不够深入。想要入门Scrapy容易，但是想要单枪匹马快速入门，就很需要看重怎么走了。
我是想着先实现简单的Scrapy爬虫，再用Redis实现分布式。在此之后再进行功能拓展，例如Cookie登录，例如爬虫数据的增加，例如异常处理、性能优化等等。总体的思路是先纵向深入，再横向逐个拓展。

计划虽是这样，但终归还是没忍住花了一天时间动手实现了一下QQ空间和新浪微博的Scrapy爬虫。自增苦恼，不过有所收获。
首先是QQ空间，我之前是用Request的session带上Cookie去打开js的请求，返回来的是js文件，里面包含我所需要的信息。直接请求js文件的好处是数据量小，数据流通和数据处理的花销会小很多（反正我的小本本一个小时能抓17万条说说）。而如今，我用Scrapy带上Cookie却返回403（已带表头），我试着打开空间主页的URL，返回的是HTML文件，这很正常，没有JS文件。但为什么打开JS的请求却报错403了呢？这个问题暂先放着。其实空间更蛋疼的问题还没解决呢——Cookie，普通的登录（例如知乎）是发送个表单就行了，但QQ空间的表单，年轻的我没有找到（估计要一点点调试看它的加密算法了，之前的爬虫我是用phantomjs模拟浏览器获取到的）。百度和Google也没有搜到结果，甚至爬QQ空间人就很少，大伙对它没兴趣？
QQ空间爬不成，我试一下微博。很明显大伙对微博的兴趣就高很多了，已经有加密算法和构造表单的方法了。而且我在查看Cookie的时候看到新浪的Cookie有效期是六天左右（未检验）（QQ空间的Cookie有效期在几十分钟到十几个钟不等），如果是这样的话我们就算手动输入Cookie那也没什么呀。不过微博还有一个问题，JS加载。网上的说法是构造下载中间件，具体还有待解决。不过此时看到scrapy的那张架构图（如下）就另外一种感觉了呀，终于对各个部分有一点认识了！不过如果用Redis实现分布式的话Pipeline和Scheduler之间是不是应该要有个数据流通呀？

感觉当前的难点更多的还是在右半边，获取数据。
接下来，构造中间件。

继续勘探，尽快熟悉Scrapy与分布式！

转载请注明出处，谢谢！（原文链接：http://blog.csdn/bone_ace/article/details/50811004）

本文标签：第五天 scrapy

版权声明：本文标题：Scrapy见面第五天内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/xitong/1726251106a1062486.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

Scrapy见面第五天

更多相关文章

scrapy

python3.5安装scrapy_win7+Python3.5下scrapy的安装方法

mac 环境下 Scrapy 入门

scrapy中如何实现翻页抓取数据

python爬虫scrapy步骤mac系统_Python爬虫:Scrapy框架的安装和基本使用

scrapy发送翻页请求

Scrapy结合Selenium采集数据简单实例

Python - 爬虫之Scrapy

六 Python之scrapy爬虫框架

【scrapy】scrapy按分类爬取豆瓣电影基础信息

scrapy的入门使用

Scrapy框架的使用之Scrapy通用爬虫_为什么scrapy的parse_start_url和parse

python scrapy实践-爬取豆瓣读书

scrapy爬虫框架

011：运用Scrapy爬取腾讯招聘信息

chatgpt赋能Python-python3_8安装scrapy

python爬虫之scrapy

Scrapy见面第五天

记mac上解决scrapy执行爬虫项目报错：[twisted] CRITICAL: Unhandled error in Deferred

安卓_手机卫士_第五天(手机定位,设备管理器,电话归属地)

发表评论

推荐文章

解读第三方授权登录：OAuth2.0协议标准的应用与流程

联想小新潮5000--- --- UEFI+GPT 下 重装Win10系统

【Windows驱动篇】解决Windows驱动更新导致AMD Software软件无法正常启动问题

Windows电脑删除自带的五笔输入法？

移动硬盘无法识别

热门文章

解决网站发邮件导致IP泄露的问题

家用路由器 实现 Web认证

树莓派安装方法和第一次启动（没有显示器和路由器）

OppoR17被查找手机锁死问题解锁

Android APK反编译就这么简单 详解（附图）

软件安全笔记

前后端分离项目

快速实现WIFI TCP通信详解

装系统心得

服务器主机只能读取一个硬盘,服务器pe不识别硬盘（无法读取硬盘原因和解决法）...

最新文章

腾讯企业邮箱没有绑定手机也没有绑定微信怎么处理

微信QQ中已停止访问该网页的处理办法

Win10升级后执行系统封装(Sysprep)报错

win7与win10系统哪个好？你听过中兴新支点操作系统么

win7下vs2008过期升级没有提示序列号

前端html第三方登录集合，微信，微博，企鹅

微信公众号之用户登录

在64位Win7操作系统中安装Microsoft Access Engine的解决方案(转)

计算机无法启动打印服务,win7打印服务无法启动怎么办？打印服务无法启动修复...

nvidia控制面板点了没反应win7_控制面板无响应怎么办_为什么nvidia控制面板打不开图文步骤...

公众号开发(2) —— 盛派.net SDK + vue搭建微信公众号网页开发框架

科普：黑客盗QQ究竟是怎么回事？

解决win7 vs2008没有升级按钮导致无法升级

原创---爱普生LQ-690K打印机win7共享报错解决方案“Windows无法连接到打印机。无法找...

六个Win7下XP模式的缺陷

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

联想小新潮5000--- --- UEFI+GPT 下重装Win10系统

家用路由器实现 Web认证

Android APK反编译就这么简单详解（附图）

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载