爬虫|电子爱好者

admin管理员组
文章数量:1530845

爬虫

📚链接爬取

🐇流程梳理

🐇代码实现

🐇结果

📚词云生成

🐇代码实现

🐇结果

📚链接爬取

🐇流程梳理

总体流程是：构建搜索链接 -> 发送HTTP请求 -> 解析网页内容 -> 提取标题和链接 -> 判断重复 -> 写入csv工作表 -> 保存csv工作簿。
循环遍历100页（暂定，实现翻页）的搜索结果，完成全部数据的提取和保存。
key：在百度搜索结果页面中，通常每个搜索结果都包含在一个<h3>标签内，并具有一个特定的CSS类名为"t"。

🐇代码实现

# 发送HTTP请求并处理URL
import urllib
from urllib import request, parse
# 管理和处理HTTP请求和响应中的Cookie信息
import http.cookiejar
# 解析和提取HTML/XML数据
from bs4 import BeautifulSoup
# 读取和编辑数据
import openpyxl
import random
import time# 随机等待时间的函数
# 避免以高频率向服务器发送请求造成宕机
def random_wait():# 生成一个随机的等待时间，范围为1到5秒wait_time = random.uniform(1, 5)time.sleep(wait_time)# 创建一个新的Excel工作簿对象
workbook = openpyxl.Workbook()
# 返回工作簿中的活动工作表对象，表明之后的代码对这个工作表进行操作
worksheet = workbook.active
# 添加标题
worksheet.append(['Titles', 'Links'])
# 标题集合，用于之后重复标题的处理
titles_set = set()word = input("请输入搜索的关键词：")
for page in range(1, 101):print("现在是第" + str(page) + "页")# quote()函数用于将字符串进行URL编码link = "="+urllib.parse.quote(word)url = f"{link}?page={page}"headers = {"Accept": "text/html, application/xhtml+xml, image/jxr, */*","Accept - Encoding": "gzip, deflate, br","Accept - Language": "zh - CN","Connection": "Keep - Alive","User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:109.0) Gecko/20100101 Firefox/119.0",# 请求的来源页面"referer": "baidu"}# 创建一个CookieJar对象，用于保存网站返回的Cookie信息。Cookie = http.cookiejar.CookieJar()# 创建一个opener对象，使用CookieJar处理器来处理Cookie，实现Cookie的自动管理。opener = urllib.request.build_opener(urllib.request.HTTPCookieProcessor(Cookie))# 将headers字典中的键值对转化为元组，并添加到headall列表中。pairs = []for key, value in headers.items():item = (key, value)pairs.append(item)# 将pairs列表设置为opener的请求头opener.addheaders = pairs# 将opener安装为全局默认的urlopen()函数的opener。urllib.request.install_opener(opener)# 发送请求并获取网页内容。data = urllib.request.urlopen(url).read().decode('utf-8')# 解析网页内容，生成BeautifulSoup对象。soup = BeautifulSoup(data, 'html.parser')# 查找名为'h3'，class属性为't'的HTML元素# 在百度搜索结果页面中，通常每个搜索结果都包含在一个<h3>标签内，并具有一个特定的CSS类名为"t"。for result_table in soup.find_all('h3', class_='t'):# 调用等待时间函数，防止宕机random_wait()a_click = result_table.find("a")# 获取标题title = a_click.get_text()# 获取链接link = str(a_click.get("href"))# 如果标题已经存在于集合中，跳过此条记录，而且不要视频大全if title in titles_set or "视频大全" in title:continue# 将标题添加到集合中titles_set.add(title)print("标题:" + title)  # 标题print("链接:" + link)  # 链接worksheet.append([title, link])workbook.save('AI换脸_法律_案件.csv')

🐇结果

关键词设置为：AI换脸法律案件

📚词云生成

🐇代码实现

用爬取的全部标题来构建词云

# coding:utf-8
import jieba  # 导入分词库
import collections  # 导入collections库，用于词频统计
import wordcloud  # 导入生成词云图的库
import matplotlib.pyplot as plt  # 导入绘图库# 打开文件
with open(r"AI换脸_法律_案件.txt", encoding='utf-8') as f:data = f.read()# 使用jieba库进行分词，默认精确模式
w_cut = jieba.cut(data, cut_all=False)# 存储分词结果的列表
word_list = []
# 设置排除词
word_remove = [u'，', u' ', u'。', u'、', u'\n', u'', u'(', u')',  u'“', u'”', u',', u'!', u'?', u'【', u'】', u'...', u'_', u':', '|', '-', u'的', u'是', u'了', u'我', u'我们', u'腾讯', u'哔哩', u'百度', u'新浪', u'你', u'又', u'被', u'他', u'谁', u'人']
# 遍历分词结果，过滤掉排除词，将有效词添加到word_list中
for x in w_cut:if x not in word_remove:word_list.append(x)  # 使用Counter进行词频统计
word_counts = collections.Counter(word_list)  
# 取出词频最高的前50个词
word_counts_top50 = word_counts.most_common(50)  
# 打印出前50个词云及对应数量
print(word_counts_top50)  
# 将词频结果转换为字符串形式
word_counts_top50 = str(word_counts_top50)  w = wordcloud.WordCloud(# 设置词云生成时的中文字体font_path='C:\Windows\Fonts\STKAITI.TTF',  # 设置词云的背景颜色为白色background_color='white',  # 设置词云图片的宽度width=700,  # 设置词云图片的高度height=600,  # 设置词云中显示的最大字体大小max_font_size=180  
)
# 根据词频生成词云图
w.generate_from_frequencies(word_counts)  
# 创建一个绘图窗口
plt.figure(1, figsize=(10, 8))  
# 显示词云图
plt.imshow(w)  
# 不显示坐标轴
plt.axis("off")  
# 展示图表
plt.show()  
# 将词云图保存为图片文件
w.to_file("wordcloud_input.png")

关于jieba.cut：除了 cut_all = False，jieba库还支持以下模式：
- cut_all = True：全模式，将文本中的所有可能是词的部分都进行分词，可能会产生冗余和不常见的词。
- cut_for_search = True：搜索引擎模式，将文本中可能是词的部分进行分词，同时使用了较多的细粒度切分，适用于搜索引擎构建索引或相关场景。
- HMM =True：开启隐式马尔可夫模型（Hidden Markov Model），用于在未登录词（out-of-vocabulary，OOV）的情况下进行中文分词，适用于处理未登录词较多的场景。
关于字体设置：font_path='C:\Windows\Fonts\STKAITI.TTF'，在控制面板 -> 外观与个性化 -> 字体处，可以找到心仪字体。

🐇结果

补报错杂货铺：

本文标签：爬虫

版权声明：本文标题：爬虫内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dongtai/1716889469a523591.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

讲讲Python爬虫绕过登录的小技巧

7天前

作者 l pk哥来源 l Python知识圈（ID：PythonCircle） 前言很多时候我们做 Python 爬虫时或者自动化测试时需要用到 seleniu

python爬虫实验——爬取网页图片+网页源代码

7天前

爬虫图片本实验将利用python程序抓取网络图片，完成可以批量下载一个网站的照片。所谓网页抓取，就是把URL地址中指定的网络资源从网络流中读取出来，保存到本地。原理

Python爬虫之QQ空间登陆获取信息！

6天前

一、背景： 前几天收到了一个需求：获取QQ好友，QQ群，QQ群友的账号。但是我却抓不到QQ程序的包就很尴尬，我觉得应该是QQ程序之

python访问陌生人qq空间_Python爬虫获取QQ空间信息（上）

6天前

开发工具 Python版本：3.6.4 相关模块： requests模块； selenium模块； lxml模块；以及一些Python自带的模块。环境搭建安装Python并添加到环境变量，pip安装需要的相关模块，并前

【python爬虫】爬取QQ空间说说

6天前

前言虽然扒qq空间不是很地道，但咱还是干干吧……正好也是闲来无事，我这个应该不会被别人发现 tao) 技术路线 seleniumbeautifulsouppyautoguiec

如何用python爬虫爬取qq空间说说

6天前

之前学了下爬虫一直就想爬一下QQ空间在爬取之前需要做的准备工作安装python3 需要的库： re 正则 selenium 需要安装 chrome 或者 Firefox 还有他们的模拟 Chrome 模拟添加链

QQSpider qq空间爬虫

6天前

代码请移步GitHub：QQSpider 爬虫功能： QQSpider 使用广度优先策略爬取QQ空间中的个人信息、日志、说说、好友四个方面的信息，详细可见数据库说明。判重

qq好友列表获取之动态爬虫清洗爬取好友列表数据 - 获取qq好友、群、群成员列表

6天前

qq好友列表获取之动态爬虫清洗爬取qq好友列表数据 - 获取qq好友ip、群、群成员列表。我们的好友列表要从 qzone 获取，现在打开 qzone 的链接 https:h5.qzone.qqmqzoneindex 并且登陆。具

爬虫（三）生成qq好友关系网(1)—登录并获得好友列表

6天前

本文目标 1.使用selenium实现账号密码登录qq空间 2.使用多线程爬取qq好友的说说评论点赞情况保存至本地 3.使用echarts将数据可视化开源地址：qq好友关系爬虫这是帮我同学做的他的qq好友关系网效

python爬虫付费内容_Python爬虫：十大付费代理详细对比

5天前

前言随着大数据时代的到来，爬虫已经成了获取数据的必不可少的方式，做过爬虫的想必都深有体会，爬取的时候莫名其妙 IP 就被网站封掉了，毕竟各大网站也不想自己的数据被轻易地爬走。对于爬虫来说，为了解决封禁 IP 的问题，一个有效的方式就是使

HTTP请求中的User-Agent 判断浏览器类型的各种方法网络爬虫的请求标示

4天前

而在Javascript中我们也提供了相关的API获取当前浏览器的信息： 在PHP中也提供了相关的API： 此外还可以使用条件注释语句： 网络爬虫的爬取问题我们知道&

python程序实现最大限度突破高德地图爬虫限制，包括.exe文件的编译，提供最大限度爬虫高德地图poi思路

4天前

一、关于高德地图高德是中国领先的数字地图内容、导航和位置服务解决方案提供商。高德地图产品更多的还是我们查找位置和路线的一个工具，但实际上地图能够实现的层面还有很多，甚至是将现实的商家店铺以及场所搬至虚拟的地图上，然后每个地理位置对应的是

浅谈网络爬虫

4天前

浅谈网络爬虫什么是网络爬虫？爬虫能干什么搜索引擎抢票、刷票等自动化软件部分破解软件金融等行业数据挖掘、分析数据来源其他爬虫很简单语言的选择两种语言的小demo 爬虫也不简单ip、浏览器头(User-Agent)、和

Python爬虫教程:Selenium模拟登录

4天前

1.引入Selenium Selenium（本文基于python3.8）是一个功能强大的自动化测试工具，它可以用于模拟用户在浏览器中的行为，比如点击、

websocket 爬虫

4天前

前言有些网站为了追求数据的实时更新，很多时候会采用 websocket 的方式，例如股票交易数据、数据货币交易数据等。关于websocket的机制，网上不乏相关资料。但关

Python爬虫突破封禁的6种常见方法

4天前

在互联网上进行自动数据采集（抓取）这件事和互联网存在的时间差不多一样长。今天大众好像更倾向于用“网络数据采集”，有时会把网络数据采集程序称为网络机器人（

爬虫突破封禁的6种常见方法

4天前

为何大量网站不能抓取?爬虫突破封禁的6种常见方法

爬虫入门学习笔记 Day 1+ 记录遇到的小问题

3天前

安装好pycharm，开始学习。目录一、学习requests模块1.安装requests2.requests模块的简单使用3.requests发送请求的例子二、学习response响应对象1.text和conte

python爬虫爬取华硕笔记本信息

3天前

之前一个朋友麻烦我帮他爬取一下华硕笔记本信息，最后存储为一个csv格式的文件，文件格式为"系列型号"。本文为本人实现该爬虫的心路旅程。目录一、获取系列信息1. 爬虫可行性

python爬虫（上）--请求——关于模拟浏览器方法

2天前

前言离上一篇更新的博文应该过了挺久的了（ python爬虫（上）–请求——关于旅游网站的酒店评论爬取（传参方法）），因为中间考完试紧接着就去实习的缘故，然后到新环境各种熟悉什么的，所以后面有所学到的东西就来不及汇总，终于在某个礼拜天的下

电子爱好者 - 最新技术资讯及电子产品介绍！

爬虫

爬虫

📚链接爬取

🐇流程梳理

🐇代码实现

🐇结果

📚词云生成

🐇代码实现

🐇结果

更多相关文章

讲讲Python爬虫绕过登录的小技巧

python爬虫实验——爬取网页图片+网页源代码

Python爬虫之QQ空间登陆获取信息！

python访问陌生人qq空间_Python爬虫获取QQ空间信息（上）

【python爬虫】爬取QQ空间说说

如何用python爬虫爬取qq空间说说

QQSpider qq空间爬虫

qq好友列表获取之动态爬虫清洗爬取好友列表数据 - 获取qq好友、群、群成员列表

爬虫（三）生成qq好友关系网(1)—登录并获得好友列表

python爬虫付费内容_Python爬虫：十大付费代理详细对比

HTTP请求中的User-Agent 判断浏览器类型的各种方法 网络爬虫的请求标示

python程序实现最大限度突破高德地图爬虫限制，包括.exe文件的编译，提供最大限度爬虫高德地图poi思路

浅谈网络爬虫

Python爬虫教程:Selenium模拟登录

websocket 爬虫

Python爬虫突破封禁的6种常见方法

爬虫突破封禁的6种常见方法

爬虫入门学习笔记 Day 1+ 记录遇到的小问题

python爬虫爬取华硕笔记本信息

python爬虫（上）--请求——关于模拟浏览器方法

发表评论

推荐文章

视频教程-让你事半功倍的12个Excel小技巧-OfficeWPS

Codeforces 1399C - Boats Competition（双指针）

吐血整理（最全论文指令手册），还有 ChatGPT 3.54.0 新手使用手册~ 【亲测好用】

JAVA网络编程知识学习

Windows 10無法正常登入系統， 提示User Profile can not be loaded的錯誤。

热门文章

Cooking Competition

ZOJ3958-Cooking Competition

不用再找了，吐血整理 ChatGPT 论文润色、降重指令手册~ 【2024年 更新】

Win10怎么删除远程桌面连接记录？（3种方法）

亲测有效，最简单的Win10系统下的IDEA Ultimate2019.1.3安装和破解秘籍

吉大路由器使用教程

硬盘安装Win7

怎么修复Windows11中的AMD驱动程序崩溃

在ubuntu下安装五笔输入法（百度输入法）

WIFI 破解与加固(Aircrack-ng + 无线网卡)

最新文章

win7 系统更新服务器失败怎么办,Windows7 Update更新失败报错80070002和80070003怎么办？...

WiFi和WLAN有什么区别和联系？

公共wifi不安全家里的wifi就安全了吗？

路由器wifi热点丢包率高_使用笔记本电脑和虚拟路由器创建自己的Wifi热点

无线路由器服务器拒接,wifi被拒绝接入解决方法(图文)

Windows7系统优化（批处理）

如何给自己各种帐号编一个安全又不会忘记的密码？

ESP8266 Node mcu WIFI无线控制入门_01无线远程控制LED

看自己的Wifi是否被盗用的技巧

【Android wifi】wifi基本原理

win7、win8旗舰版系统下载、32位、64位

【智能家居篇】wifi网络接入原理（中）——认证Authentication

Android Wifi连接控制、TCP、UDP通信，6.0以上适配

网络安全--解除认证攻击wifi(详细教程)

WIFI 一键配置原理-ESP8266

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

HTTP请求中的User-Agent 判断浏览器类型的各种方法网络爬虫的请求标示

Windows 10無法正常登入系統，提示User Profile can not be loaded的錯誤。

不用再找了，吐血整理 ChatGPT 论文润色、降重指令手册~ 【2024年更新】

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载