pytho2.7.x+requests+xpath爬取电影天堂|电子爱好者

admin管理员组
文章数量:1657385

python2.7.x，和python3.x处理中文乱码方式不一样。遇到问题就百度，遇到python2的中文乱码问题可以参考这几篇博客：
https://blog.csdn/hp_cpp/article/details/80953508
https://blog.csdn/hp_cpp/article/details/80997208
https://blog.csdn/hp_cpp/article/details/84842534
https://blog.csdn/hp_cpp/article/details/80953251
本篇博客是自己看视频教程后的代码，参考原来的视频，可能是python版本的不同，我遇到的很多编码问题视频教程中并没有遇到，遇到问题就百度，记录一下，算是python初级入门系列中的一个吧。

爬取电影天堂前7页电影信息

#!/usr/bin/env python 
# -*- coding:utf-8 -*-

from lxml import etree
import requests

import sys
reload(sys)
sys.setdefaultencoding('utf-8')


BASE_DOMAIN = 'https://www.dytt8'
firs_url = "https://www.dytt8/html/gndy/dyzz/list_23_1.html"
HEADERS = {
    'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) '
                  'AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3610.2 Mobile Safari/537.36'
}


def get_detail_urls(url):
    response = requests.get(url, headers=HEADERS)
    text = response.text
    html = etree.HTML(text)
    detail_urls = html.xpath("//table[@class='tbspan']//a/@href")
    detail_urls = map(lambda url:  BASE_DOMAIN+url, detail_urls)
    return detail_urls


def parse_detail_page(url):
    movie = {}
    response = requests.get(url, headers=HEADERS)
    text = response.content.decode('gbk', 'ignore')
    html = etree.HTML(text)
    title = html.xpath("//div[@class='title_all']//font[@color='#07519a']/text()")[0]
    movie['title'] = title
    zoomE = html.xpath("//div[@id='Zoom']")[0]
    imgs = zoomE.xpath(".//img")
    #print(title, url)
    cover = imgs[0]
    movie['cover'] = cover
    if len(imgs) >= 2:
        screenshot = imgs[1]
        movie['screenshot'] = screenshot

    def parse_info(info, rule):
        return info.replace(rule, "").strip()

    infos = zoomE.xpath(".//text()")
    for index, info in enumerate(infos):
        if info.startswith("◎年　　代"):
            info = parse_info(info, "◎年　　代")
            movie['year'] = info
        elif info.startswith("◎产　　地"):
            info = parse_info(info, "◎产　　地")
            movie['country'] = info
        elif info.startswith("◎类　　别"):
            info = parse_info(info, "◎类　　别")
            movie['category'] = info
        elif info.startswith("◎豆瓣评分"):
            info = parse_info(info, "◎豆瓣评分")
            movie['douban_rating'] = info
        elif info.startswith("◎片　　长"):
            info = parse_info(info, "◎片　　长")
            movie['duration'] = info
        elif info.startswith("◎导　　演"):
            info = parse_info(info, "◎导　　演")
            movie['director'] = info
        elif info.startswith("◎主　　演"):
            info = parse_info(info, "◎主　　演")
            actors = [info]
            for x in range(index+1, len(infos)):
                actor = infos[x].strip()
                #actor = actor.encode('gbk', 'ignore')
                if actor.startswith("◎"):
                    break
                actors.append(actor)
            #for actor in actors:
            #    print(actor.encode('gbk', 'ignore'))
        elif info.startswith("◎简　　介 "):
            info = parse_info(info, "◎简　　介 ")  #电影简介多段的情况
            profiles = []
            for x in range(index+1, len(infos)):
                profile = infos[x].strip()
                if profile.startswith("【下载地址】") or profile.startswith("◎"):
                    break
                else:
                    profiles.append(profile)
            movie['profile'] = ''.join(profiles)
            print(url)
            print(movie['profile'].encode('utf-8'))
    download_url = html.xpath("//td[@bgcolor='#fdfddf']/a/@href")[0]
    movie['download_url'] = download_url
    return movie

def spider():
    base_url = "https://www.dytt8/html/gndy/dyzz/list_23_{}.html"
    movies = []
    for x in range(1, 8):
        url = base_url.format(x)
        detal_urls = get_detail_urls(url)
        for detal_url in detal_urls:
            movie = parse_detail_page(detal_url)
            movies.append(movie)
            #print(movie)

if __name__ == '__main__':
    spider()

遇到的问题

编码问题

（1）会出现中文乱码的情况，设置了# -- coding:utf-8 --和

reload(sys)
sys.setdefaultencoding('utf-8')

再加上明白当前字符串是采用的什么编码方式，一般可以解决。
（2）打印的时候出现一些UnicodeEncodeError的问题，具体参考本博客开头的链接。

数据格式不规范的问题

例如在https://www.dytt8/html/gndy/dyzz/20181008/57588.html’
这个页面，是没有电影海报图片，但是有电影封面图片。简介中有多段文字的情况。还有简介文字分了几段的情况，还有◎获奖情况，有的电影详细页面没有这个，所以要特殊处理。

本文标签：天堂电影 XPath requests

版权声明：本文标题：pytho2.7.x+requests+xpath爬取电影天堂内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/xitong/1729778783a1212525.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

pytho2.7.x+requests+xpath爬取电影天堂

爬取电影天堂前7页电影信息

遇到的问题

编码问题

数据格式不规范的问题

更多相关文章

电影资源 BT PT下载的电影命名 规则 资源 详解

Python+PyQt5构建电影天堂电影搜索工具

日本2024年铃木亮平主演的电影《城市猎人》

python电影爬取并下载_python爬取电影并下载

【Python成长之路】从零学爬虫--下载豆瓣8分以上的电影（附电影下载地址）

如何通过电影种子名选择合适的电影

十、技巧：2、使用谷歌浏览器定位xpath是否准确

win7系统怎样搭建电影服务器,win7系统免费看电影的操作方法

使用音频转换器怎么转换电影的格式？

马云、奥巴马都上当：“女版乔布斯”600亿惊天骗局，电影都不敢这么拍

python爬虫(使用requests)报错，UnicodeEncodeError: ‘latin-1‘ codec can‘t encode characters in position

推荐电影 The curious case of Benjamin Button（本杰明.巴顿怪事）

【Javascript】Content-Security-Policy upgrade-insecure-requests

linux怎么用命令下电影,linux命令行---用wget下载电影

电影

有技术的下电影

Using XPath to identify Web objects from Selenium WebDriver

pythonQQ机器人系列：使用requests实现QQ机器人聊天（1-0）

Tahiti: Voices of Paradise 专辑中文名: 大溪地：天堂之声

python爬电影_使用Python多线程爬虫爬取电影天堂资源

发表评论

推荐文章

i5 1135g7和i7 7700hq哪个好

树莓派4B刷win10，保姆级教程

解决两个WINDOWS10的卡死问题

使用uniapp搭建微信小程序样式问题汇集（补充中）

Wazuh：最受欢迎的开源HIDS系统在甲方安全建设中的应用(文末送书)

热门文章

迅雷与迅雷看看播放器使用体验（一）

《架构真经：互联网技术架构的设计原则（原书第2版）》一第1章 大道至简...

我想有个用得上的智能路由器

i5 11600kf和i7 11700kf 哪个好

记录：esp8266-0101s如何下载固件（下载教程）

VMware9 绿色破解版 下载地址

idea双击无法启动，win10后台无进程

购买云服务器时怎么选择云服务器配置？

与MySQL的纠缠（卸载与安装）

android studio 跳转后保留原页面数据_这些技巧和习惯，让你的原生 Android 手机更好用（上篇）...

最新文章

USB网卡驱动分析（rt8152）

【详细】解决联想拯救者Y7000p在ubuntu20.04未找到wifi适配器,安装rtl8852ce网卡驱动问题

浪潮服务器linux网卡驱动安装,CentOS 7 环境配置

【驱动】DM9000网卡驱动分析

CentOS7内置Realtek网卡驱动r8169降级r8168

宏碁暗影骑士2022 i7-12700h+intel ax1650网卡+ubuntu1804+linux5.19 安装网卡驱动

暗影精灵8双硬盘安装Ubuntu20.04.4(显卡、网卡驱动等问题)

阅读ethercat官方文档关于ethercat网卡驱动程序的一些内容

SUSE11 SP4系统安装X722网卡驱动

dl388g8 惠普 linux 网卡驱动,hp dl388 gen9驱动下载

intel wifi 5100agn linux驱动,intel5100agn网卡驱动下载

mac网卡驱动设置

x722网卡linux,X520 X540 X550 X710 X722网卡驱动下载

PVE7更新AQC107网卡驱动，解决奇葩问题。

i219v微星 驱动_Intel英特尔网卡驱动下载-Intel英特尔I217I218I219系列网卡驱动官方版下载[电脑版]-华军软件园...

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

电影资源 BT PT下载的电影命名规则资源详解

《架构真经：互联网技术架构的设计原则（原书第2版）》一第1章　大道至简...

VMware9 绿色破解版下载地址

i219v微星驱动_Intel英特尔网卡驱动下载-Intel英特尔I217I218I219系列网卡驱动官方版下载[电脑版]-华军软件园...

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载