【爬虫&APP逆向007】pyppeteer操作和scrapy基本介绍|电子爱好者

admin管理员组
文章数量:1531755

Pyppeteer简介

异步的selenium。在 Pyppetter的背后是有一个类似 Chrome 浏览器的 Chromium 浏览器在执行一些动作进行网页渲染，首先说下 Chrome 浏览器和 Chromium 浏览器的渊源。
    Chromium 是谷歌为了研发 Chrome 而启动的项目，是完全开源的。二者基于相同的源代码构建，Chrome 所有的新功能都会先在 Chromium 上实现，待验证稳定后才会移植，因此 Chromium 的版本更新频率更高，也会包含很多新的功能，但作为一款独立的浏览器，Chromium 的用户群体要小众得多。两款浏览器“同根同源”，它们有着同样的 Logo，但配色不同，Chrome 由蓝红绿黄四种颜色组成，而 Chromium 由不同深度的蓝色构成。
Pyppeteer 就是依赖于 Chromium 这个浏览器来运行的。那么有了 Pyppeteer 之后，我们就可以免去那些繁琐的环境配置等问题。如果第一次运行的时候，Chromium 浏览器没有安装，那么程序会帮我们自动安装和配置，就免去了繁琐的环境配置等工作。另外 Pyppeteer 是基于 Python 的新特性 async 实现的，所以它的一些执行也支持异步操作，效率相对于 Selenium 来说也提高了。

环境安装

由于 Pyppeteer 采用了 Python 的 async 机制，所以其运行要求的 Python 版本为 3.5 及以上
pip install pyppeteer

快速上手

爬取http://quotes.toscrape/js/ 全部页面数据

代码：

import asyncio
from pyppeteer import launch
from lxml import etree


# 一、创建一个特殊的函数
async def main():
    # 对应的pyppeteer相关的操作要写在特殊函数内部
    # 1.创建一个浏览器对象
    # 跟pyppeteer相关的代码前面都要加上await
    bro = await launch(headless=True)
    # 2.创建一个新的page
    page = await bro.newPage()
    # 3.发起请求
    await page.goto('http://quotes.toscrape/js/')
    # 4.获取页面源码数据
    page_text = await page.content()
    # 5.数据解析
    tree = etree.HTML(page_text)
    div_list = tree.xpath('//div[@class="quote"]')
    print(len(div_list))
    await asyncio.sleep(3)
    await bro.close()


# 二、创建一个协程对象
c = main()
# 三、创建且启动事件循环对象
loop = asyncio.get_event_loop()
loop.run_until_complete(c)

上面的代码必须要是在一个方法里面，不放在特殊函数里面会报错

详细用法

    开启浏览器
        调用 launch() 方法即可，相关参数介绍：
            ignoreHTTPSErrors (bool): 是否要忽略 HTTPS 的错误，默认是 False。
            headless (bool): 是否启用 Headless 模式，即无界面模式，默认是开启无界面模式的。如果设置为 False则是有界面模式。
            executablePath (str): 可执行文件的路径，如果指定之后就不需要使用默认的 Chromium 了，可以指定为已有的 Chrome 或 Chromium。
            devtools (bool): 是否为每一个页面自动开启调试工具(浏览器开发者工具)，默认是 False。如果这个参数设置为 True，那么 headless 默认参数就会无效，会被强制设置为 False。
            args (List[str]): 在执行过程中可以传入的额外参数。
        关闭提示条：”Chrome 正受到自动测试软件的控制”，这个提示条有点烦，那咋关闭呢？这时候就需要用到 args 参数了，禁用操作如下：
            browser = await launch(headless=False, args=['--disable-infobars'])

处理页面显示问题：访问淘宝首页

import asyncio
from pyppeteer import launch

async def main():
    browser = await launch(headless=False)
    page = await browser.newPage()
    await page.goto('https://www.taobao')
    await asyncio.sleep(3)
    await browser.close()
asyncio.get_event_loop().run_until_complete(main())

发现页面显示出现了问题，需要手动调用setViewport方法设置显示页面的长宽像素。设置如下：

import asyncio
from pyppeteer import launch

width, height = 1366, 768
async def main():
    browser = await launch(headless=False)
    page = await browser.newPage()

    await page.setViewport({'width': width, 'height': height})

    await page.goto('https://www.taobao')
    await asyncio.sleep(3)
    await browser.close()
asyncio.get_event_loop().run_until_complete(main())

规避检测：执行js程序执行指定的js程序
正常情况下我们用浏览器访问淘宝等网站的 window.navigator.webdriver的值为 undefined或者为false。而使用pyppeteer访问则该值为true。那么如何解决这个问题呢？

import asyncio
from pyppeteer import launch

width, height = 1366, 768

async def main():
    #规避检测
    browser = await launch(headless=False, args=['--disable-infobars'])
    page = await browser.newPage()
    await page.setViewport({'width': width, 'height': height})
    await page.goto('https://login.taobao/member/login.jhtml?redirectURL=https://www.taobao/')

    #规避检测
    await page.evaluate(
        '''() =>{ Object.defineProperties(navigator,{ webdriver:{ get: () => false } }) }''')
    await asyncio.sleep(20)
    await browser.close()

asyncio.get_event_loop().run_until_complete(main())

节点交互：（可以很好的模拟人的行为）

import asyncio
from pyppeteer import launch


async def main():
    # headless参数设为False，则变成有头模式
    browser = await launch(
        headless=False
    )
    page = await browser.newPage()
    # 设置页面视图大小
    await page.setViewport(viewport={'width': 1280, 'height': 800})

    await page.goto('https://www.baidu/')
    # 节点交互
    await page.type('#kw', '周杰伦', {'delay': 1000})
    await asyncio.sleep(3)
    #点击搜索按钮
    await page.click('#su')
    await asyncio.sleep(3)
    # 使用选择器选中标签进行点击
    alist = await page.querySelectorAll('.s_tab_inner > a')
    a = alist[3]
    await a.click()
    await asyncio.sleep(3)
    await browser.close()
asyncio.get_event_loop().run_until_complete(main())

爬虫练习

异步爬取网易新闻首页的新闻标题
https://news.163/domestic/

import asyncio
from pyppeteer import launch
from lxml import etree


async def main():
    # headless参数设为False，则变成有头模式
    browser = await launch(
        headless=False,
        #可在浏览器中输入chrome://version/，在页面的"个人资料路径"查看浏览器的执行程序
        executablePath='/Applications/Google Chrome.app/Contents/MacOS/Google Chrome'
    )
    page = await browser.newPage()

    await page.goto('https://news.163/domestic/')

    await asyncio.sleep(3)
    # 打印页面文本
    page_text = await page.content()

    return page_text

滑动验证

import random
from pyppeteer import launch
import asyncio
import cv2
from urllib import request


async def get_track():
    background = cv2.imread("background.png", 0)
    gap = cv2.imread("gap.png", 0)

    res = cv2.matchTemplate(background, gap, cv2.TM_CCOEFF_NORMED)
    value = cv2.minMaxLoc(res)[2][0]
    return value * 278 / 360 - 13

async def main():
    browser = await launch({
        # headless指定浏览器是否以无头模式运行，默认是True。
        "headless": False,
        #设置窗口大小
        "args": ['--window-size=1366,768'],
        "executablePath" : '/Applications/Google Chrome.app/Contents/MacOS/Google Chrome'
    })
    # 打开新的标签页
    page = await browser.newPage()
    # 设置页面大小一致
    await page.setViewport({"width": 1366, "height": 768})
    # 访问主页
    await page.goto("https://passport.jd/new/login.aspx?")


    # 模拟输入用户名和密码,输入每个字符的间隔时间delay ms
    await page.type("#loginname", '324534534@qq', {
        "delay": random.randint(30, 60)
    })
    await page.type("#nloginpwd", '345653332', {
        "delay": random.randint(30, 60)
    })

    # page.waitFor 通用等待方式，如果是数字，则表示等待具体时间（毫秒）: 等待2秒
    await page.waitFor(2000)
    await page.click("div.login-btn")
    await page.waitFor(2000)
    # page.Jeval（selector，pageFunction）#定位元素，并调用js函数去执行
    #=>表示js的箭头函数：el = function(el){return el.src}
    img_src = await page.Jeval(".JDJRV-bigimg > img", "el=>el.src")
    temp_src = await page.Jeval(".JDJRV-smallimg > img", "el=>el.src")

    request.urlretrieve(img_src, "background.png")
    request.urlretrieve(temp_src, "gap.png")

    # 获取gap的距离
    distance = await get_track()

        # # Pyppeteer 三种解析方式
        # Page.querySelector()  # 选择器
        # Page.querySelectorAll()
        # Page.xpath()  # xpath  表达式
        # # 简写方式为：
        # Page.J(), Page.JJ(), and Page.Jx()

    #定位到滑动按钮标签
    el = await page.J("div.JDJRV-slide-btn")
    # 获取元素的边界框，包含x,y坐标
    box = await el.boundingBox()
    #box={'x': 86, 'y': 34, 'width': 55.0, 'height': 55.0}
    #将鼠标悬停/一定到指定标签位置
    await page.hover("div.JDJRV-slide-btn")
    #按下鼠标
    await page.mouse.down()
    #模拟人的行为进行滑动
    # steps 是指分成几步来完成，steps越大，滑动速度越慢
    #move(x,y)表示将鼠标移动到xy坐标位置
    #random.uniform生成指定范围的随机浮点数
    await page.mouse.move(box["x"] + distance + random.uniform(20, 40),
                          box["y"],
                          {"steps": 100})
    await page.waitFor(1000)

    await page.mouse.up()
    await page.waitFor(2000)


loop = asyncio.get_event_loop()
loop.run_until_complete(main())

def parse(task):
    page_text = task.result()
    tree = etree.HTML(page_text)
    div_list = tree.xpath('//div[@class="data_row news_article clearfix "]')
    for div in div_list:
        title = div.xpath('.//div[@class="news_title"]/h3/a/text()')[0]
        print('wangyi:', title)


tasks = []
task1 = asyncio.ensure_future(main())
task1.add_done_callback(parse)
tasks.append(task1)
asyncio.get_event_loop().run_until_complete(asyncio.wait(tasks))

scrapy（爬虫多线程的异步框架）

简介
什么是框架？

所谓的框架，其实说白了就是一个【项目的半成品】，该项目的半成品需要被集成了各种功能且具有较强的通用性。
Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架，非常出名，非常强悍。所谓的框架就是一个已经被集成了各种功能（高性能异步下载，队列，分布式，解析，持久化等）的具有很强通用性的项目模板。对于框架的学习，重点是要学习其框架的特性、各个功能的用法即可。

初期如何学习框架？

只需要学习框架集成好的各种功能的用法即可！前期切勿钻研框架的源码！

安装

Linux/mac系统：
    pip install scrapy
Windows系统：
    pip install scrapy

基本使用

创建项目

    scrapy startproject firstBlood项目名称

项目的目录结构：

        firstBlood   # 项目所在文件夹, 建议用pycharm打开该文件夹
            ├── firstBlood  		# 项目跟目录
            │   ├── __init__.py
            │   ├── items.py  		# 封装数据的格式
            │   ├── middlewares.py  # 所有中间件
            │   ├── pipelines.py	# 所有的管道
            │   ├── settings.py		# 爬虫配置信息
            │   └── spiders			# 爬虫文件夹, 稍后里面会写入爬虫代码
            │       └── __init__.py
            └── scrapy.cfg			# scrapy项目配置信息,不要删它,别动它,善待它.

创建爬虫爬虫文件：

    cd project_name（进入项目目录）
    scrapy genspider 爬虫文件的名称（自定义一个名字即可） 起始url (随便写一个网址即可)
        （例如：scrapy genspider first www.xxx）

    创建成功后，会在爬虫文件夹下生成一个py的爬虫文件

编写爬虫文件

    理解爬虫文件的不同组成部分

import scrapy

class FirstSpider(scrapy.Spider):
    #爬虫名称：爬虫文件唯一标识：可以使用该变量的值来定位到唯一的一个爬虫文件
    name = 'first' #无需改动
    #允许的域名：scrapy只可以发起百度域名下的网络请求
    # allowed_domains = ['www.baidu']
    #起始的url列表：列表中存放的url可以被scrapy发起get请求
    start_urls = ['https://www.baidu/','https://www.sogou']

    #专门用作于数据解析
    #参数response：就是请求之后对应的响应对象
    #parse的调用次数，取决于start_urls列表元素的个数
    def parse(self, response):
        print('响应对象为：',response)

配置文件修改:settings.py

    不遵从robots协议：ROBOTSTXT_OBEY = False
    指定输出日志的类型：LOG_LEVEL = 'ERROR'
    指定UA：USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.109 Safari/537.36'

运行项目

    scrapy crawl 爬虫名称 ：该种执行形式会显示执行的日志信息（推荐）
    自己遇到一个坑：
    AttributeError: ‘AsyncioSelectorReactor‘ object has no attribute ‘_handleSignals‘

数据解析

    注意，如果终端还在第一个项目的文件夹中，则需要在终端中执行cd ../返回到上级目录，在去新建另一个项目。
    新建数据解析项目：
        创建工程：scrapy startproject 项目名称
        cd 项目名称
        创建爬虫文件：scrapy genspider 爬虫文件名 www.xxx
    配置文件的修改：settings.py
        不遵从robots协议：ROBOTSTXT_OBEY = False
        指定输出日志的类型：LOG_LEVEL = 'ERROR'
        指定UA：USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.109 Safari/537.36'

编写爬虫文件：spiders/blood.py

import scrapy


class BloodSpider(scrapy.Spider):
    #爬虫文件的唯一标识
    name = 'blood'
    #允许的域名
    # allowed_domains = ['www.baidu']
    #起始的url列表（重要）：列表内部的url都会被框架进行异步的请求发送
    start_urls = ['https://www.xiachufang/category/40076/']

    #数据解析：parse调用的次数取决于start_urls列表元素的个数
    def parse(self, response): #response参数就表示响应对象
        #如何实现数据解析：xpath
        li_list = response.xpath('/html/body/div[4]/div/div/div[1]/div[1]/div/div[2]/div[2]/ul/li')
        for li in li_list:
            #xpath最终会返回的是Selector对象，我们想要的解析的数据是存储在该对象的data属性中(extract可以实现该功能)
            # title = li.xpath('./div/div/p[1]/a/text()')[0].extract() #一般不用

            #extract_first可以将xpath返回列表中的第一个Selector对象中的data属性值获取
            # title = li.xpath('./div/div/p[1]/a/text()').extract_first()

            #extract可以将xpath返回列表中的每一个Selector对象中的data属性值获取
            title = li.xpath('./div/div/p[1]/a/text()').extract()

            #如果xpath返回的列表元素只有一个则使用extract_first，否则使用extract

本文标签：爬虫操作 amp app pyppeteer

版权声明：本文标题：【爬虫&APP逆向007】pyppeteer操作和scrapy基本介绍内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/xitong/1725733354a1039450.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

电子爱好者 - 最新技术资讯及电子产品介绍！

【爬虫&amp;APP逆向007】pyppeteer操作和scrapy基本介绍

Pyppeteer简介

scrapy（爬虫多线程的异步框架）

更多相关文章

uni-app--》什么是uniapp？如何开发uniapp？

h5跳转app指定页面及各种坑的总结

使用uni-app开发谷歌浏览器接口查询失败问题

炫龙毁灭者P6如何重装win7系统操作？

NOMURA Programming Competition 2020 B Postdocs 字符串操作

app 跳转浏览器

uniapp h5在浏览器唤起app

Python相关环境变量配置和模拟手机app登录

win7系统快捷键操作大全

win10安装Tensorflow-cpu（AMD显卡） &amp;&amp; keras

WIN10禁用（AMD显卡驱动）更新&amp;windows找不到gpedit.msc请确定文件名

苹果切换输入法_落格五笔输入法苹果版下载-落格五笔输入法APP

APP渗透—MobSF安全评估、frida、r0capture抓包

从零开始学Python爬虫系列：写好的python文本如何自动运行？Windows自动开机并启动python

免费的APP安全在线检测平台

你被假冒手机银行APP欺骗过吗？

win10系统驱动备份及还原-命令行操作

微信破解WiFi密码如何操作？一招帮你查看密码！

win10一直卡在自动修复_Win10更新后提示“自动修复”无法进入系统问题操作指导...

C#中的条件操作符，空接合，应用参数（ref），输出参数（out），递归与重载

发表评论

推荐文章

Google Chrome浏览器字体模糊，字体锯齿 的解决方法

确定MacLinux系统的架构类型是 x86-64（amd64），还是 arm64 架构

linux下访问windows的共享

Ubuntu 18.04 下使用拼音输入法以及安装搜狗拼音输入法

如何用搜狗拼音输入法输入希腊字母及各种上下标

热门文章

Concise Mercurial Vector Commitments and Independent Zero-Knowledge Sets with Short Proofs 学习笔记

在群晖nas中部署firefox浏览器

CnetOS 7 下关于禅道的安装、备份和恢复

linux+极点五笔输入法,ubuntu 14.04 使用极点五笔输入法

Win10系统打开什么都是反应比平时慢，转圈等待1分钟如何解决？

IPC，一直被人们忽视的“东西”。

各种品牌电脑U盘启动快捷键

linux输入开机密码后很慢,开机很快但输入密码后进入桌面却非常慢

逻辑学引言

希尔伯特及其《几何学基础》电子版（英文PDF），

最新文章

最简单的WIN7内核PE系统

在XP系统上出现无法定位程序输入点 K32GetProcessMemoryInfo

服务器运行按键精灵脚本,打开按键精灵自动运行脚本的方法_win7系统如何使用按键精灵的图文步骤...

搭建qnx开发环境，虚拟qnx系统+虚拟win7系统+QNX Momentics IDE 4.6

ar5b95无线网卡linux驱动,Qualcomm Atheros AR5xxxAR9xxx无线网卡驱动下载10.0.0.303 WHQL版For XP-32XP-64Win7-32Win7...

计算机切换到登录界面了,让我来教大家从WIN10界面切换到WIN 7界面吧！嘻嘻

Win7 系统下配置WinCE 5.0 模拟器网络环境

台式计算机如何升级,台式电脑怎样升级系统

浅谈windows 8.1--如何从xp或win 7 过渡到win 8.1

移动魔百和系统升级服务器地址,【当贝市场】移动魔百盒升级后无法观看视频怎么办...

xp给指定计算机共享,WinXP系统设置访问共享提示指定网络名不可用怎么解决

更换ssd硬盘并安装双系统（mac+win7）

本来共享的计算机突然无法访问,win7无法启用共享访问怎么办_win7无法启用共享访问如何处理-win7之家...

快捷打开计算机管理设置,Win7系统下怎么设置Ctrl+Alt+Del快捷打开任务管理器【图文】...

XP MSTSC连接WIN7或WIN8问题

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

【爬虫&APP逆向007】pyppeteer操作和scrapy基本介绍

win10安装Tensorflow-cpu（AMD显卡） && keras

WIN10禁用（AMD显卡驱动）更新&windows找不到gpedit.msc请确定文件名

Google Chrome浏览器字体模糊，字体锯齿的解决方法

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载