admin管理员组

文章数量:1530341

【超详细】QQ空间说说爬取教程

文章目录

  • 【超详细】QQ空间说说爬取教程
    • 环境
    • selenium模拟登录
    • 说说内容获取
      • 破解g_tk
    • 说说的评论获取
    • 说说的点赞人获取
      • url参数构成
    • 好友列表获取
    • 数据库的存储
    • 如何加速
    • ps


暑假闲来无事,研究了一下QQ空间的爬取,以下是一些记录

环境

  • 系统: win10
  • 语言: python3.7
  • 浏览器: Chrome
  • 数据库: mysql 8.0

selenium模拟登录

QQ空间的反爬做的相对较好,而且由于好友权限的原因,我们要先登录后再进行说说等信息的获取

selenium是获取登录cookies的一大利器,非常方便

在空间的登陆界面可以观察到,登录的窗口与背景窗口是分开的,所以我们需要先切换frame

切换窗口后定位到账号密码登录元素的位置后点击

使用send_keys函数把账号和密码写入对应位置后定位登录元素后点击,这里使用自带的get_cookies函数获取到cookies,但是这个cookies需要过滤一下,具体操作看以下代码

代码为类的部分节选,完整代码在最后,未声明的变量皆为类的成员变量

def login_func(self,z):
    browser = webdriver.Chrome()
    browser.maximize_window()
    browser.get(self.login_url)
    time.sleep(1.2)
    browser.switch_to.frame('login_frame')
    browser.find_element_by_id('switcher_plogin').click()
    time.sleep(1)
    browser.find_element_by_id('u').send_keys(self.number)
    browser.find_element_by_id('p').send_keys(self.password)
    time.sleep(1)
    browser

本文标签: 女神教程详细空间qq