文本挖掘（四万字总结篇：爬虫 - 文本预处理 - 高频词统计 - 聚类

admin管理员组
文章数量:1546535

1 爬虫

1.1 爬虫原理

这部分内容可以跳过，掌握与否对后面内容的阅读影响并不大，但有兴趣的话可以看看呐~

实现一个爬虫，一般需要经过两个步骤：处理请求和解析源码/数据。

处理请求方面，我们可以使用Python程序自动发送请求，然后根据返回的网页脚本，判断该页面是服务器端渲染还是浏览器端渲染。服务器端渲染可以直接获取到源码并进行解析，如果是浏览器端渲染则需要获取浏览器向服务器发送的二次请求得到的数据。其中，服务器端渲染的网页需要我们解析源码，而浏览器端渲染的网页一般可以直接获得数据。

服务器端渲染：右键 - 查看页面源代码，如果在源码中能看到页面中字条的内容，则认为该字条是服务端渲染的。
浏览器端渲染：右键 - 检查，分别点击网络、Fetch/XHR，当搜索框获得焦点的时候，我们可以看到浏览器会向服务器发送一个请求，然后将服务器返回的数据渲染后到页面上，这种方式就是浏览器端渲染，也被称为AJAX技术。

对于浏览器端渲染的页面，我们直接获取二次请求得到的数据即可，而对于服务器端渲染的页面，我们需要从源码解析出有价值的内容。我们可以使用Python的第三方模块re、bs4、xpath等。re是使用正则表达式匹配网页源码，从而得到我们想要的内容；而bs4是通过标签和属性定位网页源码中我们需要的内容的位置，其更符合前端的编程习惯；xpath同样是通过标签和属性定位，但它看起来更加直观。

import re

list = re.findall(r"\d+", "我的电话号码是:10086, 我女朋友的电话号码是:10010")  # ['10086', '10010']

from bs4 import BeautifulSoup

page = BeautifulSoup(res, "html.parser")  # 把页面源代码（res）交给BeautifulSoup进行处理, 生成BeautifulSoup对象
table = page.find("table", attrs={
   "class": "hq_table"})  # 找到table

xpath

# xpath是在XML文档中搜索内容的一门语言，html是xml的一个子集
from lxml import etree

xml = 
"""
<book>
    <id>1</id>
    <name>野花遍地香</name>
    <price>1.23</price>
    <author>
        <nick>周大强</nick>
        <nick>周芷若</nick>
    </author>
</book>
"""
tree = etree.XML(xml)
result = tree.xpath("/book/name/text()")  # ['野花遍地香']。/表示层级关系，第一个/是根节点，text() 拿文本

另外，在处理请求的过程中，可能需要解决一系列的反爬措施：(1)防止网站识别Python程序需要加上User-Agent请求头；(2)对于使用cookie验证登录的网站需要带上登录后服务器返回的cookie作为请求头；(3)防止因频繁的请求导致ip地址被封需要使用代理；(4)以及针对浏览器端渲染的情况，直接请求数据时可能遇到的一系列加密手段，这时候获取数据需要模拟加密过程进行解密……

个人理解的爬虫原理~

1.2 实现一个爬虫

一般来说，平台知名度越大，其反爬措施就越多，这时候获取数据也会变得更加困难，而下文将会介绍一种技巧性的方法。

1.2.1 Selenium

Selenium是一个用于Web应用程序测试的工具，它可以直接运行在浏览器中，模拟用户的操作，例如点击、输入、关闭、拖动滑块等，就像真正的用户在操作一样。通过Selenium我们可以直接定位到页面中某段文字的位置，在已经经过浏览器渲染的网页中获取需要的内容，而不需要关心网页是服务器端渲染还是浏览器端渲染，所见即所得。

1.2.2 超级鹰

另一方面，某些数据可能需要登录网站后才能获取，而在登录选项中选择账号密码登录一般会被要求输入验证码，比如常见的数字、汉字验证码等，某东平台使用的是滑块。我们可以使用超级鹰处理滑块，它是一款成熟的验证码处理工具，其使用原理是通过截取浏览器中验证码的图片传到超级鹰工具接口，然后接口会返回识别出来的数据（数字，汉字，坐标等），我们通过Selenium可以直接操作浏览器从而通过验证。

1.2.3 实现一个爬虫（源码在这里~）

在这之前，大家可以先注册一个超级鹰账号哈，1元=1000题分，识别一次只需不到50题分，还是相当良心的。
其次，在1.1 爬虫原理部分有简单介绍过xpath，这里有一种更便捷的方法获取元素的xpath，就像这样：右键-检查
另外，部分商品可以使用id搜索
再有就是，Selenium是需要配合浏览器驱动使用的，Chrome的驱动：chromedriver，对应浏览器版本的驱动下载完成后，将驱动放置在Python的安装目录，像下面这样：（也许还需要配置环境变量？？如果遇到报错说没有找到浏览器驱动的话，可以自行搜一下具体是怎么配置的哈）

chaojiying.py（验证码处理）

#!/usr/bin/env python
# coding:utf-8

import requests
from hashlib import md5

class Chaojiying_Client(object):

    def __init__(self, username, password, soft_id):
        self.username = username
        password =  password.encode('utf8')
        self.password = md5(password).hexdigest()
        self.soft_id = soft_id
        self.base_params = {
   
            'user': self.username,
            'pass2': self.password,
            'softid': self.soft_id,
        }
        self.headers = {
   
            'Connection': 'Keep-Alive',
            'User-Agent': 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0)',
        }

    def PostPic(self, im, codetype):
        """
        im: 图片字节
        codetype: 题目类型 参考 http://www.chaojiying/price.html
        """
        params = {
   
            'codetype': codetype,
        }
        params.update(self.base_params)
        files = {
   'userfile': ('ccc.jpg', im)}
        r = requests.post('http://upload.chaojiying/Upload/Processing.php', data=params, files=files, headers=self.headers)
        return r.json()

    def ReportError(self, im_id):
        """
        im_id:报错题目的图片ID
        """
        params = {
   
            'id': im_id,
        }
        params.update(self.base_params)
        r = requests.post('http://upload.chaojiying/Upload/ReportError.php', data=params, headers=self.headers)
        return r.json()


# if __name__ == '__main__':
    # 用户中心>>软件ID
    # chaojiying = Chaojiying_Client('超级鹰账号', '密码', '软件ID')
    # 本地图片文件路径替换code.png，有时WIN系统须要//
    # im = open('code.png', 'rb').read()  # im就是图片的所有字节
    # 官方网站>>价格体系
    # print(chaojiying.PostPic(im, 9101))  # 9101验证码类型

jd.py - 爬虫主程序

目标链接：（第24行代码）

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.action_chains import ActionChains
from selenium.webdriver.common.keys import Keys
from chaojiying import Chaojiying_Client
import time

# 初始化超级鹰
chaojiying = Chaojiying_Client('******', '********', '******')  # 替换自己的账号、密码和软件ID

# 无头浏览器
# opt = Options()
# opt.add_argument("--headless")
# opt.add_argument("--disbale-gpu")
# options = opt

# 设置不关闭浏览器
option = webdriver.ChromeOptions()
option.add_experimental_option("detach", True)

web = webdriver.Chrome(options = option)

# 打开登录页面
web.get("")  # 填入某东登录页面链接，由于不能出现具体的目标链接，故以截图显示
# 最大化窗口，防止误触
web.maximize_window()

# time.sleep()是为了等待资源加载完
time.sleep(3)
# 使用账号登录
web.find_element(By.XPATH, '//*[@]/div[2]/div[1]/div/div[3]/a').click()

time.sleep(3)
# 输入用户名和密码
web.find_element(By.XPATH, '//*[@]').send_keys("***********")  # 某东账号
web.find_element(By.XPATH, '//*[@]').send_keys("********")  # 某东密码
# 点击登录
web.find_element(By.XPATH, '//*[@]').click()

time.sleep(3)
# 处理验证码，识别图像
verify_img = web.find_element(By.XPATH, '//*[@]/div/div/div/div[1]/div[2]/div[1]/img')
dic = chaojiying.PostPic(verify_img.screenshot_as_png, 9101)
result = dic['pic_str']  # x1,y1
p_temp = result.split(",")
x = int(p_temp[0])

# 滑动滑块
btn = web.find_element(By.XPATH, '//*[@]/div/div/div/div[2]/div[3]')
ActionChains(web).drag_and_drop_by_offset(btn, x, 0).perform()

time.sleep(8)
# 登陆成功，搜索界面（使用id搜索）
web.find_element(By.XPATH, '//*[@]').send_keys("100010935292", Keys.ENTER)

# time.sleep(5)
# # 点击商品
# web.find_element(By.XPATH, '//*[@]/ul/li[1]/div/div[1]/a/img').click()

# time.sleep(5)
# # 移动到新窗口
# web.switch_to.window(web.window_handles[-1])

time.sleep(5)
# 商品属性
web.find_element(By.XPATH, '//*[@]/div[2]/div[1]/a').click()

time.sleep(5)
# 点击（商品评论）
comment_el = web.find_element(By.XPATH,'//*[@]/div[1]/ul/li[5]')
comment_el.click()

time.sleep(5)
# 点击（只看当前商品评价）
only_el = web.find_element(By.XPATH, '//*[@]/div[2]/div[2]/div[1]/ul/li[9]/label')
webdriver.ActionChains(web).move_to_element(only_el ).click(only_el ).perform()

f = open("comments.txt", mode="w", encoding='utf-8')

time.sleep(5)
# 评论列表
for i in range(100):
  # 每一页的评论
  div_list = web.find_elements(By.XPATH,'//*[@]/div[@]')  

  for div in div_list:
    comment = div.find_element(By.TAG_NAME, 'p').text
    f.write(comment + '\n\n')
    # 打印页数
    print(i)

  if i < 99:
    # 下一页 
    next_el = web.find_element(By.XPATH, '//*[@]/div[12]/div/div/a[@]')
    # 防止元素遮挡 
    webdriver.ActionChains(web).move_to_element(next_el ).click(next_el ).perform()

  time.sleep(3)

f.close()
print('over!')

把chaojiying.py和jd.py放在同一个目录下，然后下载相关依赖包，运行jd.py就ok了，再放个视频趴（懒得剪了
本文标签：文本爬虫万字情感聚类
版权声明：本文标题：文本挖掘（四万字总结篇：爬虫 - 文本预处理 - 高频词统计 - 聚类 - 情感分析）内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dianzi/1727168373a1100021.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

电子爱好者 - 最新技术资讯及电子产品介绍！

文本挖掘（四万字总结篇：爬虫 - 文本预处理 - 高频词统计 - 聚类 - 情感分析）

1 爬虫

1.1 爬虫原理

1.2 实现一个爬虫

1.2.1 Selenium

1.2.2 超级鹰

1.2.3 实现一个爬虫（源码在这里~）

更多相关文章

【新知】chatGPT 使用笔记（一）——文本代码显示不全的问题解决

爬虫进阶之selenium模拟浏览器

crawlergo：强大的浏览器爬虫工具

史上最全的Zookeeper原理详解(万字长文)

eWebEditor 在线文本编辑器兼容360安全浏览器，IE7，IE8，遨游

两万字总结Windows系统中的Layered分层窗口技术（附源码）

RabbitMQ AMQP MessageConverter 消息转换器 PDF Image Text 文本 图片 PDF json

WPF 踩坑 DataGrid DataGridTextColumn根据文本内容改变颜色绑定转换器

python爬虫之获取谷歌浏览器所有cookie

分享一些关于Python爬虫的源码，需要的朋友可以自行领取_爬虫代码下载 百度云

❤️熬夜7天肝出5万字【禅道缺陷报告测试报告接口测试及用例Fildder】超详细总结❤️

Python爬虫案例，腾讯动漫爬虫，步骤超详细解释

python爬虫根据景区关键词爬取捷程旅游景区评论

python爬虫的requests库详解

2万字系统总结，带你实现Linux命令自由

多媒体处理常用软件：图像、文本、音频、视频、动画、微课

C语言基础--从零开始初识语言（多图超详解|超万字教程）

网络爬虫-模拟手机浏览器抓取数据

万字长文丨大白话带你由浅入深Python编程语言

Python3爬虫系列整理（二）requests

发表评论

推荐文章

题解 | #netstat-查看和3306端口建立的连接#

钉钉F1 RK3399 咸鱼80元板子使用记录

阿里云Raw镜像文件如何在VMware中打开

u盘一插上计算机就不响应,正常U盘插入电脑没反应？u盘插上没反应的绝对有效解决方法-太平洋电脑网...

【高质量】2024数学建模国赛A题B题C题D题E题思路+模型+代码+论文

热门文章

随身WiFi改装天线折腾日记

虚拟机用户切换及设置root权限的密码

VM设置好centos后，启动，出现中间这样一个下划线，一直在跳闪？

吴峰光杀进 Linux 内核

3D深度相机调研【史上最全，不服来战】

第一次写标书

早日选择一门自己喜欢的，然后瞄准目标，不达目的誓不罢休。像文章的作者一样成为一名成功的IT人士。...

关于VMware 虚拟机更换wifi或更换网络后无法上网的问题

【软件工程】软件工程系统设计——结构化设计

软件质量模型ISOIEC25010

最新文章

MySQL数据库之全量+增量+二进制日志的备份与恢复

软件测试——功能测试：边界值测试

2024华为OD机试（C++）真题【E卷+A卷+B卷+C卷+D卷】目录

数据分析常用的100个指标和术语

什么是 ClickHouse（实时数据分析数据库）

Java最全八股文（2023最新整理）

存储基础(SATA、SCSI、RAID、SAN、SAS、FC)

工程物资云平台_SaaS产品设计说明书（PRD）_施工企业工程项目物资材料管理软件系统

计算机网络——数据从网卡到应用的过程

虚拟化管理平台的选择：开源软件 or 商业软件？

阿里面试官没想到，一个Volatile，我都能跟他吹半小时

6 个有效且可用的顶级 Android 数据恢复工具

程序员避免面向监狱编程攻略大盘点

黑方实时数据备份与恢复系统

基于Pix4Dmapper的运动结构恢复无人机影像三维模型重建

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

RabbitMQ AMQP MessageConverter 消息转换器 PDF Image Text 文本图片 PDF json

分享一些关于Python爬虫的源码，需要的朋友可以自行领取_爬虫代码下载百度云

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载