开始学习爬虫：爬虫之爬取电影天堂网站资源到本地mysql数据库|电子爱好者

admin管理员组
文章数量:1657213

刚刚开始为毕业设计做一个爬虫项目作为数据准备，花费了几天学习爬虫的知识，写了一个爬取电影天堂的爬虫项目，主要是爬取电影天堂的下载链接，图片，导演这些信息保存到本地的mysql数据库中，具体的字段有：

具体代码如下：
demo_scrapy.py：

//#爬虫主体
import scrapy
import json
from movie.items import MovieItem
import re

from scrapy.utils.project import get_project_settings


settings = get_project_settings()
class DmozSpider(scrapy.spiders.Spider):
    name = "demo"
    allowed_domains = ['www.dytt8']
    start_urls = ['https://www.dytt8/html/gndy/dyzz/index.html']
    i = 0
    def parse(self, response):
        info_url_xpath='//td/b/a/@href'
        next_url_xpath='//div[@]/td/a[last()-1]/@href'
        #titles=response.xpath(titles_xpath).extract()
        # 电影介绍页面url
        info_urls=response.xpath(info_url_xpath).extract()
        next_urls=response.xpath(next_url_xpath).extract()
        # 下一页url
        next_url='https://www.dytt8/html/gndy/dyzz/'+next_urls[0]
        #print(next_url)
        a=0
        while a in range(len(info_urls)):
            #print(a)
            #print(titles[a])
            info_url='https://www.dytt8'+info_urls[a]
            a+=1
            yield scrapy.Request(url=info_url,callback=self.def_info)
        yield scrapy.Request(next_url,callback=self.parse)
        pass
    #获取电影标题、下载地址：
    def def_info(self,response):
        #print(response.text)
        i_item = MovieItem()
        data=response.body.decode("gb2312","ignore")
        #title_xpath='//title/text()'
        #title=response.xpath(title_xpath).extract_first()
        down_url_xpath='//tbody/tr/td/a/text()'

        imageurl_xpath='//img[@alt=""]/@src'
        imageurl=response.xpath(imageurl_xpath).extract_first()
        down_url=response.xpath(down_url_xpath).extract_first()
        pat1='类　　别　(.*?)<br />'
        pat2='年　　代　(.*?)<br />'
        pat3='IMDb评分 (.*?)/10'
        pat4='导　　演　(.*?)<br />'
        pat5='简　　介

本文标签：爬虫数据库天堂电影资源

版权声明：本文标题：开始学习爬虫：爬虫之爬取电影天堂网站资源到本地mysql数据库内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dianzi/1729778815a1212530.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

源码分享：爬虫获取酷狗的付费音乐

2天前

准备工作：Python3.5Pycharm 使用到的库：requests，re，json 步骤： 打开酷狗音乐的官网&#

python 爬虫 kugou音乐详细教程（requests模块）

2天前

--------------------------------- @Copyright: fanliao @author: fanliao @date: 2018-06-17 声明：本文仅为技术交流，请勿用于它处。 ------

Unity 热更之【HybirdCLR】+【YooAsset】 [安卓 Android端] [代码 + 资源热更] 功能的简单实现演示

2天前

Unity 热更之【HybirdCLR】+【YooAsset】 [安卓 Android端][代码 + 资源热更] 功能的简单实现演示目录 Unity 热更之【HybirdCLR】+【YooAsset】 [安卓 Android端]

在Linux环境下安装Mongodb数据库(全网最简单全面教程)

2天前

一、准备好mongodb压缩包和mongod.conf配置文件资源获取：安装包和配置文件下载（免费的！） 配置文件内容： s

百度网盘资源怎么分享群链接下载？

2天前

百度网盘是很多小伙伴都在使用的一款云存储软件，功能丰富且齐全，用户经常都会在这里分享交流文件资源，那要怎么在百度网盘分享群链接下载呢？下面小编就给大家带

neo4j 4.x新建数据库，并解决报错Unsupported administration command: CREATE DATABASE

2天前

重要社区版本不支持命令create database xxx，只有企业版可以！社区版本只允许同时打开一个数据库，当然你可以多开几个neo4j服务，当

使用Python编写多线程爬虫抓取百度贴吧邮箱与手机号_零零散散是什么号码最好

1天前

最后 🍅 硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。 🍅 技术互助：技术群大佬指点迷津，你的问题可能不是

亚远景科技-ASPICE 4.0 二级 GP2.1.32.1.4 Determine和Identify资源的区别

1天前

ASPICE 4.0 GP2.1.3 Determine resource needs可翻译为”判定资源需要”。过程实施所需的人力、物理和材料资源，可根据过程实施计划来估算。注: 物理和材料资源可能包括设备、实验

nginx+lua 实现的免费网站站长工具-防网络爬虫,自动推送百度,批量添加站长统计

1天前

github5站长助手介绍基于lua开发的开源站长助手, 实现常见的站长功能: 智能防爬虫批量添加站长统计批量替换网页内容智能管理网站有效链接批量生成robots.txt批量屏蔽网站错误信息自动推送到百度更多功能开发中,欢迎联系我们

Unity 在windows10上资源默认下载的路径

1天前

C:Users电脑名AppDataRoamingUnityAsset Store-5.x

阿里云ECS云服务器资源购买决策

1天前

阿里云ECS云服务器资源购买决策作者：季奔牛 2019-1-31 摘要利用公有云服务可以节省企业在计算资源上的开支这一点已经得到实践证明，越来越多的企业正在从私有数据中心往公有云迁移。然而面对

11. K8S资源限制，多账户管理及网络实现

1天前

1. Kubernetes pod、container与namespace资源限制 CPU 以核心（毫核，1核1000毫核，500m0.5核）为单位。

iOS完整App资源收集

22小时前

前言 iOS开发学习者都希望得到实战训练，但是很多资料都是只有一小部分代码，并不能形成完成的App，笔者在此处收集了很多开源的完整的App，都有源代码哦

被爬虫盯上的50家网站

18小时前

导读：今天爬这个，明天爬那个，你考虑过被爬者的感受吗？ 作者：史中本文由公众号浅黑科技（ID&

Navicat数据库管理工具运行慢处理

11小时前

Navicat以前使用的时候都不会出现卡顿慢的情况，现在用，没次查询数据或者设计表时，会出现一直加载中，会很慢，让我怀疑是不是电脑

海豚工具访问mysql可执行sql语句_Navicat Premium操作MySQL数据库(执行sql语句)

5小时前

一. navicat 简介 1. 什么是navicat ? navicat是一个强大的mysql数据库管理和开发工具。navicat为专业开发者提供了一套强大的足够尖端的工具，但它对于新用户仍然是易于学习。navica

中文在线天堂中文JAVA

2小时前

中文在线天堂中文JAVA：一种编程语言的魅力引言在今天的数字化时代，编程语言的影响力已经无处不在。无论是互联网应用的开发，还是数据分析的实现，编程语

多线程爬虫爬取电影天堂资源

2小时前

先来简单介绍一下，网络爬虫的基本实现原理吧。一个爬虫首先要给它一个起点，所以需要精心选取一些URL作为起点，然后我们的爬虫从这些起点出发，抓取并解析所抓

XYLX 10.19 天堂（HEAVEN）

2小时前

XYLX 10.19 天堂（HEAVEN） 题目描述每一个要上天堂的人都要经历一番考验，当然包括小X，小X开始了他进入天堂的奇异之旅。地狱有18层&

天堂2java gm设置_天堂2GM指令中英文对照

2小时前

天堂2GM指令中英文对照更新时间:2012-07-17 04:09 文章作者: 浏览次数: 次 admin - Brings up the admin menu. 开启GM指令 gmchat - Sends a global me

电子爱好者 - 最新技术资讯及电子产品介绍！

开始学习爬虫：爬虫之爬取电影天堂网站资源到本地mysql数据库

更多相关文章

源码分享：爬虫获取酷狗的付费音乐

python 爬虫 kugou音乐详细教程（requests模块）

Unity 热更 之 【HybirdCLR】+【YooAsset】 [安卓 Android端] [代码 + 资源热更] 功能的 简单实现演示

在Linux环境下安装Mongodb数据库(全网最简单全面教程)

百度网盘资源怎么分享群链接下载？

neo4j 4.x新建数据库，并解决报错Unsupported administration command: CREATE DATABASE

使用Python编写多线程爬虫抓取百度贴吧邮箱与手机号_零零散散是什么号码最好

亚远景科技-ASPICE 4.0 二级 GP2.1.32.1.4 Determine和Identify资源的区别

nginx+lua 实现的免费网站站长工具-防网络爬虫,自动推送百度,批量添加站长统计

Unity 在windows10上资源默认下载的路径

阿里云ECS云服务器资源购买决策

11. K8S资源限制，多账户管理及网络实现

iOS完整App资源收集

被爬虫盯上的50家网站

Navicat数据库管理工具运行慢处理

海豚工具访问mysql可执行sql语句_Navicat Premium操作MySQL数据库(执行sql语句)

中文在线天堂中文JAVA

多线程爬虫爬取电影天堂资源

XYLX 10.19 天堂（HEAVEN）

天堂2java gm设置_天堂2GM指令中英文对照

发表评论

推荐文章

PDF怎么转换成Word？这几个方法可以试试

单硬盘装双系统window和ubuntu

7102-2019年技术文全套整理 | 建议收藏

8大应用助你个性化定制最Cool的Android手机

国内十大不可错过的免费学习资源网站（火速收藏中），java面试基础题核心

热门文章

ant压缩在哪卸载_如何彻底卸载流氓软件？一篇教你彻底解决！

maven工程创建的springboot中提示Identify and stop the process that‘s listening on port 8080解决方法

OnePlus 备份到 PC 的最佳方法 [完整指南]

windows_10_enterprise_ltsc_2019

TikTok账号用哪些ip最合适？三大国外优质动态住宅IP代理测评

英伟达3090Ti即将发布,你的显卡还能再战多久？

解决visual studio 各个版本运行慢问题，亲测有效

一次Spark程序运行缓慢原因排查

计算机内存不足 无法使用,电脑内存不足怎么办,教您解决电脑内存不足

Visio 辅助工具 KMS 工具：提升图表设计效率的利器

最新文章

win7如何重装系统

windows重新安装php,win7系统如何重装

投影仪处理器排行更新：2024年10月最新投影处理器芯片评测

win11无法连接共享打印机的解决办法

Office2021安装包支持Windows和Mac OS系统百度云盘下载

U盘装WIN7系统教程

高通骁龙处理器天梯排行榜2023 高通骁龙处理器排名 骁龙处理器哪个好？

连接共享打印机出错000709

在Windows 10上连接共享打印机

有手机蹭我的随身网怎么办？

安装mysql提示oxc000007b_Win7出现oxc000007b怎么办？解决win7重装系统出现oxc000007b的方法...

重装系统之gpt分区与mbr分区

车机芯片总结

连接共享打印机的 Win11 编程指南

Windows符号包下载地址

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

Unity 热更之【HybirdCLR】+【YooAsset】 [安卓 Android端] [代码 + 资源热更] 功能的简单实现演示

计算机内存不足无法使用,电脑内存不足怎么办,教您解决电脑内存不足

高通骁龙处理器天梯排行榜2023 高通骁龙处理器排名骁龙处理器哪个好？

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载