使用lxml.etree配合Xpath快速爬取100项网页关键词|电子爱好者

admin管理员组
文章数量:1619183

文章目录

第一步：将网页另存到本地
第二步：找到所需要提取内容的Xpath
第三步：使用lxml.etree方法进行解析和提取

欧盟委员会（EUROPEAN COMMISSION）发布《面向未来的100项重大创新突破》（100 Radical Innovation Breakthroughs for the future）报告，我们在微信公众号文章中可以看到原文面向未来的100项颠覆性技术创新。现在我有一个需求，就是把这100项技术提取出来，如果手动提取的话，就会比较累，那么我们能不能使用python来进行提取呢？答案是肯定的，只需要使用lxml模块中的etree方法，使用Xpath语法就可以完成这个功能了。

第一步：将网页另存到本地

我们可以在浏览器中依次点击右键-另存为，将这个网页保存到本地，在这里，我把这个文件命名为了"toptech.html"

第二步：找到所需要提取内容的Xpath

这个如果手写的话需要学习Xpath语法，不过我们的浏览器已经帮我们做好了解析的工作，我们只需要直接右键就可以得到Xpath了，如下图所示：

这个步骤要在开发者工具里面执行，Chrome浏览器中的快捷键是“ctr+shift+J”，然后使用左上角的选择工具（箭头图表），左键选择需要找到的对象，然后在右边右键CopyXpath，就可以得到所需要的Xpath了，我找了一些元素，他们的Xpath如下所示：

//*[@id="js_content"]/section[3]/section/section[4]/section/section/section/p/span/strong

//*[@id="js_content"]/section[3]/section/section[3]/section/section/section/p/span/strong

//*[@id="js_content"]/section[3]/section/section[7]/section/section/section/p/span/strong

//*@id="js_content"]/section[3]/section/section[106]/section/section/section/section/p/span/strong

不难找出规律，得到通用的表达式：

//*[@id="js_content"]/section[3]/section/section[*]/section/section/section/p/span/strong

//*[@id="js_content"]/section[3]/section/section[*]/section/section/section/section/p/span/strong

第三步：使用lxml.etree方法进行解析和提取

这里我参考了Python利用requests和xpath爬取网页内容过程这篇博客，然后编写了以下简单的代码：

from lxml import etree
html = etree.parse('./toptech.html', etree.HTMLParser())
results = html.xpath('//*[@id="js_content"]/section[3]/section/section[*]/section/section/section/p/span/strong')
for result in results:	
	print(result.text)
results = html.xpath('//*[@id="js_content"]/section[3]/section/section[*]/section/section/section/section/p/span/strong')
for result in results:	
	print(result.text)

运行之后，我们就可以把这100个技术的名字全部打印出来啦~开心！

在excel中简单编辑，就得到了下表

本文标签：关键词快速网页 etree lxml

版权声明：本文标题：使用lxml.etree配合Xpath快速爬取100项网页关键词内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dianzi/1728792087a1173806.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

使用lxml.etree配合Xpath快速爬取100项网页关键词

文章目录

第一步：将网页另存到本地

第二步：找到所需要提取内容的Xpath

第三步：使用lxml.etree方法进行解析和提取

更多相关文章

Windows可以ping通百度，但是用浏览器打不开网页

浏览器 禁用 javascript 脚本 解决 网页文本内容无法复制 的问题

浏览器分辨率使用排名以及不同分辨率下的网页测试

使用selenium浏览百度网页（Python）

网页打开app

解决打开百度被劫持到带尾巴tn=21002492_34_hao_pg的网页

如何调试手机网页页面

java实现切图_如何利用Photoshop进行快速切图

Velositey v1.1：Photoshop中的网站快速创建神器

电脑计算机网络都打不开怎么办,电脑打不开网页怎么办？如何解决电脑网页打不开问题...

解决联想电脑网络连接后网页出现“未连接到互联网”的问题

计算机网络打不开怎么办,电脑网页打不开怎么回事

微信中该如何使用外部浏览器打开指定网页html链接

vue网页端Chrome浏览器打开麦克风和摄像头

用新版Edge浏览器打开只有Internet Explorer兼容的老网页

用Eclipse内置浏览器打开应用ajax的jsp网页出现responseText不为空而responseXML为空的解决办法！

解决Google浏览器网页覆盖问题

使用lxml.etree配合Xpath快速爬取100项网页关键词

html+css英雄联盟网页

仿英雄联盟网页HTML代码 学生网页设计与制作期末作业下载 大学生网页设计与制作成品下载 DW游戏介绍网页作业代码下载

发表评论

推荐文章

51单片机+ESP8266实现手机控制单片机（点亮LED灯）

小程序修改当前屏幕亮度

vs2019用git推送到github报错：Recv failure: Connection was reset

解决Google浏览器网页覆盖问题

Mac相机不可用怎么办？教你恢复相机连接的方法

热门文章

除了迅雷还有什么靠谱的下载软件

一个快速切换浏览器搜索引擎的小技巧（在地址栏搜索B站、书签等的方法）

电脑开机慢

关于Mac电脑装双系统的利弊解答

虚拟机中的打印机，无法打印内容，打印的是白纸或英文和数字，打印不了中文

计算机无法传送文件到打印机,发送文件给打印机却没反应？解决方案都在这里了...

cuDNN launch failure

Ubuntu 20 DNS服务出错导致无法解析网址 Failed to fetch, Temporary failure resolving

Failure to transfer org.springframework.bootspring-boot-starter-parentpom2.4.3错误详解

微信浏览器内打开App Store链接,并跳转到对应的app页面

最新文章

linux deploy安装并ssh连接教程

【手把手教你树莓派3 （二）】 启动wifi模块

使用Fluxion搭建钓鱼热点破解WiFi密码

frp内网穿透教程，ssh远程连接，服务自启动

查看自己手机连接过的wifi密码

图文手把手教程--ESP32 MQTT连接阿里云生活物联网平台

海尔随身WiFi型号F231ZC刷机去控过程分享

【微信小程序控制硬件15 】 开源一个微信小程序，支持蓝牙快速配网+WiFi双控制ESP32-C3应用示范；（附带Demo）

PacketTracer模拟器物联网教程3—家庭设备无线连接方法

ESP32-C3入门教程 蓝牙篇②——基于EspBlufiForAndroid极简的Blufi配网Demo

树莓派4b设置WiFi

【一站式教程】精通ESP32：使用VSCode与PlatformIO构建FreeRTOS项目、WIFI网页智能灯控系统、蓝牙、有趣的小功能 — 从轻松入门到项目实战~

ESP32学习笔记----WiFi使用(网页控制)

使用Arduino开发ESP32:wifi基本功能使用

0. 江协科技江科大-STM32入门教程-各章节详细笔记-查阅传送门-STM32标准库开发

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

浏览器禁用 javascript 脚本解决网页文本内容无法复制的问题

仿英雄联盟网页HTML代码学生网页设计与制作期末作业下载大学生网页设计与制作成品下载 DW游戏介绍网页作业代码下载

【手把手教你树莓派3 （二）】启动wifi模块

【微信小程序控制硬件15 】开源一个微信小程序，支持蓝牙快速配网+WiFi双控制ESP32-C3应用示范；（附带Demo）

ESP32-C3入门教程蓝牙篇②——基于EspBlufiForAndroid极简的Blufi配网Demo

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载