【Python爬虫】招聘网站实战合集第一弹：爬取前程无忧|电子爱好者

admin管理员组
文章数量:1542453

爬个妹子总是没过，没办法，咱们来爬爬招聘网站吧~

本次以前程无忧为例，看看Python的工资如何。

这是今天的重点

1、爬虫的基本流程
2、re正则表达式模块的简单使用
3、requests模块的使用
4、保存csv

使用的软件

python 3.8
pycharm 2021专业版
pycharm 社区版 (免费) 没有主题
专业版 (需要激活码)

使用的模块

requests >>> pip install requests (数据请求模块) 第三方模块
re
json
csv
time

爬虫最基本的思路

一. 数据来源分析

确定我们要的爬取的内容是什么?
招聘基本数据信息
通过开发者工具进行抓包分析, 分析这些数据是从哪里可以获得
开发者工具怎么打开 : F12 或者鼠标右键点击检查

二. 代码实现步骤: 发送请求 >>> 获取数据 >>> 解析数据 >>> 保存数据

发送请求, 对于url地址发送请求
https://search.51job/list/010000%252C020000%252C030200%252C040000%252C090200,000000,0000,00,9,99,python,2,1.html
获取数据, 获取服务器发给我们返回的数据响应数据
解析数据, 提取我们想要的数据内容 (比如招聘标题, 招聘薪资…)
保存数据, 保存到csv文件

OK，思路都清楚的话，咱们来康康代码。

首先导入模块

import requests  # 数据请求 第三方模块 pip install requests
import re  # 正则表达式模块
import json  # 序列化与反序列化
import pprint  # 格式化输出模块
import csv  # 保存csv数据

算了，我直接贴代码吧，流程都写清楚了，我把注释也标上了。

关于这篇文章，也有相对应的视频教程：

(<> “复制代码”)

f = open('python招聘数据1.csv', mode='a', encoding='utf-8', newline='')
csv_writer = csv.DictWriter(f, fieldnames=[
    '标题',
    '公司名字',
    '城市',
    '薪资',
    '招聘信息',
    '公司属性',
    '公司规模',
    '企业性质',
    '招聘发布日期',
    '公司详情页',
    '招聘详情页',
])
csv_writer.writeheader() # 写入表头数据
for page in range(1, 11):
    #  1. 发送请求, 对于url地址发送请求
    url = f'https://search.51job/list/010000%252C020000%252C030200%252C040000%252C090200,000000,0000,00,9,99,python,2,{page}.html'
    # 把python代码进行伪装, 伪装浏览器对服务器发送请求
    # User-Agent 浏览器的基本信息
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.54 Safari/537.36'
    }
    response = requests.get(url=url, headers=headers)  # 调用 requests这个模块里面get方法对于 url发送请求
    #  2. 获取数据, 获取服务器发给我们返回的数据响应数据
    # <Response [200]> <> 表示response响应对象 200 状态码 表示请求成功
    # response.text 获取响应体的文本数据(网页源代码)
    # print(response.text)
    # 3. 解析数据, 提取我们想要的数据内容 (比如 招聘标题, 招聘薪资...)
    # 解析方法: re正则表达式, css选择器 xpath  根据服务器返回的数据内容, 选择最适合的解析方式
    # 遇事不决 .*? 元字符 . 可以匹配任意字符串除了换行符以外 * 匹配前一个字符串 0个或者多个 ? 非贪婪匹配模式
    # [] 表示列表
    # {} 可能想到的是字典数据类型
    # .*? 可以匹配任意字符串 除了 换行符\n
    # 通过re模块调用 findall 方法 'window.__SEARCH_RESULT__ = (.*?)</script>' 要匹配的数据内容  response.text从哪里匹配数据 [0] 列表索引取第一个元素
    # 正则表达式详细内容讲解 在VIP课程里面 要讲三个小时左右
    html_data = re.findall('window.__SEARCH_RESULT__ = (.*?)</script>', response.text, re.S)[0]
    # print(html_data)
    # print(type(html_data))
    # 把这个字符串数据类型 转成 字典数据类型 通过键值对取值方式提取想要的内容
    json_data = json.loads(html_data)
    # print(type(json_data))
    # 字符串的时候 里面的引号是双引号 字典时候就变成了单引号
    # print(json_data)
    # pprint.pprint(json_data['engine_jds'])
    # 字典取值 根据冒号左边的内容, 提取冒号右边的内容
    # parsel 数据解析
    for index in json_data['engine_jds']:
        # pprint.pprint(index)
        dit = {
            '标题': index['job_name'],
            '公司名字': index['company_name'],
            '城市': index['workarea_text'],
            '薪资': index['providesalary_text'],
            '招聘信息': '|'.join(index['attribute_text']),
            '公司属性': index['companyind_text'],
            '公司规模': index['companysize_text'],
            '企业性质': index['companytype_text'],
            '招聘发布日期': index['issuedate'],
            '公司详情页': index['company_href'],
            '招聘详情页': index['job_href'],
        }
        csv_writer.writerow(dit)
        print(dit)

[

关于Python的技术储备

在这里给大家分享一些免费的课程供大家学习，下面是课程里面的截图，扫描最下方的二维码就能全部领取

1.Python所有方向的学习路线

2.学习软件

工欲善其事必先利其器。学习Python常用的开发软件都在这里了，给大家节省了很多时间。

3.学习资料

4.实战资料

实践是检验真理的唯一标准。这里的压缩包可以让你再闲暇之余帮你提升你的个人能力。

5.视频课程

好啦今天的分享就到这里结束了，快乐的时光总是短暂呢，想学习更多课程的小伙伴不要着急，有更多惊喜哦~

本文标签：爬虫合集实战招聘网站前程无忧

版权声明：本文标题：【Python爬虫】招聘网站实战合集第一弹：爬取前程无忧内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/xitong/1727071215a1096189.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

AIGC从入门到实战：ChatGPT 简介：从 GPT1 到 GPT4 的发展历程和应用领域

2天前

AIGC从入门到实战：ChatGPT 简介：从 GPT1 到 GPT4 的发展历程和应用领域 1. 背景介绍 1.1 问题的由来自然语言处理(Natural Language Processing, NLP)是人工智能(Artifi

Docker的使用教程、学习笔记，附实战：部署chatgpt网页版ui，部署mysql8数据库

2天前

作者：ChenZhen 博客地址：https:www.chenzhen.space 版权：来自b站视频【SpringCloudRabbitMQDockerRedis搜

【Unity】AI实战应用——Unity接入GPT和对游戏开发实际应用的展望

2天前

GPT for unity插件地址: GitHub - sunsvipChatGPTForUnity: ChatGPT for unity 用法: 打开Unity PackageManager界面.Add package from g

这么有料的福利，你还不赶紧关注一波吗？（代码合集）

2天前

前言哈喽！哈喽——我是木子吖小编今天要推销一个代码大全当当当就是我自己啦👇 ▽▽▽▽▽▽▽▽▽▽▽▽▽▽▽▽▽▽▽▽▽▽▽▽▽▽▽▽▽▽▽▽▽▽▽▽▽▽▽▽▽▽▽▽▽▽▽▽▽▽▽▽

HarmonyOS从基础到实战-高性能华为在线答题元服务

2天前

最近看到美团、新浪、去哪儿多家互联网企业启动鸿蒙原生应用开发，这个HarmonyOS NEXT越来越引人关注。奈何当前不面向个人开发者开放，但是我们可以尝试下鸿蒙新的应用形态——元服务的开发。元服务是基于HarmonyOS提供的一种面向未

爬虫实战系列(十一)：Win10下手机爬虫工具appium的安装与测试

1天前

一.前言之前介绍的都是关于网页爬虫的相关内容，今天博主想跟大家分享一个非常牛的手机爬虫工具Appium，首先我会介绍它的安装方法，然后给出一个Appium连接手机app例

Adobe Creative Cloud 2022 (macOS、Windows) 合集

1天前

Adobe After Effects、Adobe Animate、Adobe Audition、Adobe Bridge、Adobe Character Animator、Adobe Dimension、Adobe Dreamweaver

python爬虫万能代码-python网络爬虫源代码（可直接抓取图片）

1天前

在开始制作爬虫前，我们应该做好前期准备工作，找到要爬的网站，然后查看它的源代码我们这次爬豆瓣美女网站，网址为：用到的工具：pycharm,这是它的图标?...博文来自：zhang740000的博客 Python新手写出漂亮的爬虫代码1初到

[python爬虫]暴力破解Wifi密码

13小时前

遇到的错误一.Python在终端通过pip安装好包以后，在Pycharm中依然无法使用的解决办法解决方案一： 在Pycharm中，依次打开File—>Setti

AI大模型-机器学习多场景实战

4小时前

机器学习已不再局限于理论探讨，而是广泛渗透到我们生活的方方面面，成为解决复杂问题、优化决策过程的强有力工具。从智能推荐系统个性化推送你可能喜爱的电影和商品，到金融风控领域精准

基于Node.js的商城APP-97200（免费领源码）可做计算机毕业设计JAVA、PHP、爬虫、APP、小程序、C#、C++、python、数据可视化、大数据、全套文案

4小时前

Node.js商城APP的开发摘要在传统的商业模式中，对于日常各类商品，人们习惯于到各种商家店铺购买。然而在快节奏的新时代中，人们不一定能为购买各类商品腾出时间&am

python爬虫案例，爬取某站上海租房图片！

3小时前

前言对于一个net开发这爬虫真真的以前没有写过。这段时间开始学习python爬虫，今天周末无聊写了一段代码爬取上海租房图片，其实很简短就是利用爬虫的第三方库Requests与BeautifulS

常用的网络爬虫工具推荐

3小时前

网络爬虫工具是自动化从互联网上抓取数据的工具，它们能够帮助用户高效地收集、整理和分析所需的信息。以下是几种常用的网络爬虫工具推荐及其详细讲解：1. 八爪鱼简介： 八

Python爬虫案例，腾讯动漫爬虫，步骤超详细解释

3小时前

实施步骤 (1) 数据爬取：使用requests请求为基础获取数据源。 (2) UA伪装：模拟浏览器访问网址。 (3) 数据解析：使用xpath语法处理数据。 (4) 数据

爬虫学的好，牢饭吃得好（爬虫实例）

3小时前

鉴于本人喜欢爬虫，最近看了一些爬虫的基础，几个爬虫入门实例。下面给你们看，大佬勿喷主要知识点: 1.标题web是如何交互的 2.requests库的get、post函数

python爬虫根据景区关键词爬取捷程旅游景区评论

3小时前

最近为了完成作业，做了一个小旅游网站其中我希望能在展示景区介绍的时候，顺便展示景区的评论，这就需要找到捷程或是其他旅游网站的api。但是找了许久没能如愿。这下不得不爬了&

python爬虫的requests库详解

3小时前

import requests responserequests.get(“https:githubfavicon.ico”) with open(‘favicon.ico’, ‘wb’) as f: f.write(res

Python爬虫江西南昌景点数据可视化和景点推荐系统开题报告

3小时前

X X X X 大学**学校**学院毕业论文（设计）开题报告书学生姓名所属学院学号专业班级论文（设计）题目Python爬虫江西南昌景点数据可视化和景点推荐系统设计与实现指导教师姓名（职称）开题日期选题依据：1.研究背景与意义；2

2024年最全python爬虫从0到1 - urllib中的异常

3小时前

运行结果： urllib.error.URLError: <urlopen error [Errno 11001] getaddrinfo failed> （二）

电子爱好者 - 最新技术资讯及电子产品介绍！

【Python爬虫】招聘网站实战合集第一弹：爬取前程无忧

关于Python的技术储备

1.Python所有方向的学习路线

2.学习软件

3.学习资料

4.实战资料

5.视频课程

更多相关文章

AIGC从入门到实战：ChatGPT 简介：从 GPT1 到 GPT4 的发展历程和应用领域

Docker的使用教程、学习笔记，附实战：部署chatgpt网页版ui，部署mysql8数据库

【Unity】AI实战应用——Unity接入GPT和对游戏开发实际应用的展望

这么有料的福利，你还不赶紧关注一波吗？（代码合集）

HarmonyOS从基础到实战-高性能华为在线答题元服务

爬虫实战系列(十一)：Win10下手机爬虫工具appium的安装与测试

Adobe Creative Cloud 2022 (macOS、Windows) 合集

python爬虫万能代码-python网络爬虫源代码（可直接抓取图片）

[python爬虫]暴力破解Wifi密码

AI大模型-机器学习多场景实战

基于Node.js的商城APP-97200（免费领源码）可做计算机毕业设计JAVA、PHP、爬虫、APP、小程序、C#、C++、python、数据可视化、大数据、全套文案

python爬虫案例，爬取某站上海租房图片！

常用的网络爬虫工具推荐

Python爬虫案例，腾讯动漫爬虫，步骤超详细解释

爬虫学的好，牢饭吃得好（爬虫实例）

python爬虫根据景区关键词爬取捷程旅游景区评论

python爬虫的requests库详解

Python爬虫江西南昌景点数据可视化和景点推荐系统 开题报告

最新Python爬虫基础 爬取网页 访问网页_python 爬虫网站

2024年最全python爬虫从0到1 - urllib中的异常

发表评论

推荐文章

FME入门教程：第六节 FME转换器的使用

java 删除桌面快捷方式_万能方法用指定浏览器打开桌面上的网页快捷方式

惠普打印机双击之后没有扫描_惠普打印机为什么扫描不了,显示这个,什么意思,怎么处理?急...

[android11] 开通root权限

虚拟机用户切换及设置root权限的密码

热门文章

Docker占用C盘大问题

bibtex如何转换到bibitem（LaTeX参考文献格式转换）

谷歌浏览器无法自动填充问题

笔记本未启用无线服务器,WiFi无线网络提示未启用DHCP无法上网的解决方法

怎样重置MAC开机密码，在原密码忘了的情况下

Cisco路由器恢复出厂配置

华为设置计算机,华为无线路由器

联想Y7000装系统的方法

启动计算机需要配置,Win10 office2007每次启动都要配置的解决方案

android wifi智能硬件4g,轻便又安全的4G路由 华为随行WiFi评测

最新文章

Android Studio解决模拟器获取不到root权限问题

非root权限安装git-lfs

nfs root 无权限_如何允许root用户访问NFS？

Ubuntu 16.04 获取 root 用户权限并以 root权限登录

怎么样启用小米8 探索版 屏幕指纹版的ROOT权限

腾讯云ubuntu系统获取root权限

Ubuntu 获取 root 权限 （临时&amp;永久）

如何判断当前的进程是否以root权限运行？

#Ubuntu#root 新建虚拟机怎么切换到root用户权限

Centos7创建新用户设置密码，并赋予root权限

openwrt编译失败，必须使用root 权限才能编译，但openwrt还不让用root。

kali安装好后的简单配置 设置root权限 配置国内源

Ubuntu服务器给root权限下目录文件添加用户执行权限--用户群组，chown命令

Mac 在命令行获得root权限

已经是root权限，但仍无法删除某些文件的解决方法

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

Python爬虫江西南昌景点数据可视化和景点推荐系统开题报告

最新Python爬虫基础爬取网页访问网页_python 爬虫网站

android wifi智能硬件4g,轻便又安全的4G路由华为随行WiFi评测

怎么样启用小米8 探索版屏幕指纹版的ROOT权限

Ubuntu 获取 root 权限（临时&永久）

kali安装好后的简单配置设置root权限配置国内源

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载