爬取msdn.itellyou.cn网站|电子爱好者

admin管理员组
文章数量:1530026

最近一直在琢磨爬虫，从最早的BeautifulSoup爬取游民福利图，后来要爬取的动态网页多了，就逐渐过渡到了selenium+chromedriver/phantomJs的爬虫组合。偶然间听基友说有个msdn.itellyou里收集了各种微软程序的ed2k安装包，因此便开始了对它的爬取之旅。

这个网站的页面结构还是挺复杂的。通过观察，发现软件的名称和地址都在右侧内容项中的label>checkbox中，名称为label的值，而地址为checkbox的data-url属性。且右侧的具体内容是通过div的动态加载来实现的，只有在点击了左侧的具体目录项才会出现；对于多语言的软件，每个子标签中的软件的xpath中的id又是不同的，因此需要动态获得每个子标签的id。最后，该网站会时不时地弹出呼吁捐赠的对话框，也会对爬虫造成影响。

由于采用selenium+chromedriver，且网站的各个资源项的id也摸不到规律，只能用最笨的方法——模拟点击法来获取所有软件的地址，即将目录项一个一个点开后再依次点击右侧的语言栏（若有的话）；同时，在点击时还要处理随时可能弹出的捐款对话框。此外，有很多目录项里头其实没有数据，但也要花费一定时间点击。总的来说，这个爬虫效率是比较低的，若大家有更高效率的方法，欢迎提出。

源代码如下：

# -*- coding=utf-8 -*-
from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
import time
from seleniummon.exceptions import NoSuchElementException,ElementNotVisibleException,WebDriverException,TimeoutException
import xlwt
#左侧目录的xpath
catalogue_list = ['//*[@]/div[1]/div[1]/h4/a',
                  '//*[@]/div[2]/div[1]/h4/a',
                  '//*[@]/div[3]/div[1]/h4/a',
                  '//*[@]/div[4]/div[1]/h4/a',
                  '//*[@]/div[5]/div[1]/h4/a',
                  '//*[@]/div[6]/div[1]/h4/a',

本文标签：网站 MSDN itellyou cn

版权声明：本文标题：爬取msdn.itellyou.cn网站内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/xitong/1725233945a1014438.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

爬取msdn.itellyou.cn网站

更多相关文章

差点被一个截图忽悠了，分析一个QQ空间钓鱼网站

XP系统EasyConnect无法连接服务器-IE8不能访问某些HTTPS网站

小米网站首页实现（html+css）

Python爬虫实战—探索某网站电影排名

腾讯EdgeOne产品测评体验—腾讯云Edgeone为我的网站保驾护航

访问网站时IP被阻止？原因及解决方法

如何禁止电脑访问某个网站

网站百度统计referrer被禁用解决方案

【持续更新】分享100多个好用的网站及推荐理由 SMARK

华硕服务器网站,华硕云服务器

阿里服务器网站访问非常慢,更换本地DNS 解决网站访问速度变慢问题

如何下载在线课程网站的视频

大型网站系统架构演化实例_7.使用NoSQL和搜索引擎

web网页设计与开发____婚纱网站(5页 汉堡菜单 响应式)

h5网站中赌博木马病毒半岛体育解决办法

国外推广必备：国际知名APP网站&amp;APP论坛列表

MSDN的下载和使用

比chatgpt稍逊的ai问答网站phind，专用于编写代码

【合作】网站提交入口

通过手机登陆到自己电脑上的web服务器，通过外网登陆到自己电脑上的网站

发表评论

推荐文章

win7系统恢复出厂设置的方法 win7系统恢复出厂设置怎么操作

电脑上html文件可以删除吗,详细分析电脑c盘哪些文件可以删除

HONOR荣耀MagicBook Pro i5(HBL-WX9)原装出厂Windows10系统

基于Android Studio实现拍照识花+ChatGPT的期末作业

【Linux工具】：软件包管理器yum | 编辑器vim | 编译器gccg++ | 调试器gdb | 自动化构建工具makeMakefile | Linux小程序：进度条 | git命令行

热门文章

windows+10+连接android手机,Windows 10手机怎么兼容Android？直接运行APK的详细教程

android模拟器！Android开发经验的有效总结，送大厂面经一份！_安卓模拟器开发原理

路由器后面再接一个路由器怎么设置？

Windows7（win7）系统重装(转载）

国内主流邮箱如何启用SMTPPOP3IMAP等协议？

linux定时爬虫并把内容发给自己的邮箱

2021-01-27

PixPin 付费版 - 长截图贴图标注软件工具

A卡如何自定义分辨率？AMD显卡自定义分辨率的方法

Ubuntu系统切换五笔输入法

最新文章

Linux基本使用-vmware及centos安装-day01

云上武功秘籍（四）金蝶最新产品KIS全版本华为云部署

IDEA 下载、安装、配置和案例

2024年会声会影哪个版本最新版

【杂谈】当当最新购书优惠来了，满300-60，AI好书推荐

IDEA使用技巧

Diffblue Cover AI Java：Difflane如何利用Diffblue Cover AI实现Java自动化的单元测试

IDEA新手使用教程（详解）

会声会影哪个版本最新

IDEA2021.2安装与配置（持续更新）

r5处理器_【玩码】RedmiBook 三款齐发，标配最新锐龙 4000 系列处理器

idea部署tomcat并实现简单的web项目

JAVA之开发神器——IntelliJ IDEA的下载与安装

eset nod32 v11无限试用补丁

会声会影哪个版本最好用?

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

web网页设计与开发____婚纱网站(5页汉堡菜单响应式)

国外推广必备：国际知名APP网站&APP论坛列表

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载