admin管理员组文章数量:1539154
爬取QQ空间数据–Python爬虫入门
本人自习Python四个月,准本研究NLP,目前大三。我在学习爬虫时,发现大部分都是爬豆瓣的数据,可能是这种简单的例子适合初学者,但是我更喜欢爬取一些能切实体现问题的数据,QQ空间就是我能切身体会的数据源。
- Selenium Web自动化测试工具
- QQ空间自动登陆
- 模拟浏览器
- 动态网页数据爬取(本文暂不涉及,日后补充)
未能解决的问题: 1. 登录后内容直接爬取 2. 动态爬取 3. 多线程爬虫实现
准备工作
- Python3.6
- Selenium
具体过程
模拟登陆:
driver.get('https://qzone.qq/')
driver.switch_to.frame('login_frame')
driver.find_element_by_id('switcher_plogin').click()
driver.find_element_by_id('u').clear()
driver.find_element_by_id('u').send_keys('XXXXXX') #这里填写你的QQ号
driver.find_element_by_id('p').clear()
driver.find_element_by_id('p').send_keys('XXXXXX') #这里填写你的QQ密码
driver.find_element_by_id('login_button').click()
获取登陆后页面源码:
response = driver.page_source
获取页面内所有说说动态(仅文字):
abtract_pattern = repile('<a target="_blank" href="http://user.qzone.qq/(.\d*)" data-clicklog="nick" class="f-name q_namecard " link="nameCard_(.\d*)">(.*?)</a>',re.S)
abtract = re.findall(abtract_pattern,str(response))
elements = driver.find_elements_by_class_name('f-info')
打印结果:
i=0
for a in abtract:
print(a[2]+" : "+elements[i].text)
i=i+1
效果:
注:如有不足,请斧正。
版权声明:本文标题:爬取QQ空间数据 内容由热心网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:https://m.elefans.com/xitong/1726251497a1062528.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论