Python 搜狗词库的批量下载|电子爱好者

admin管理员组
文章数量:1583045

Python 搜狗词库的批量下载

简介

搜狗的细胞词库是一个开放共享的词库，其中集结了众多网友提交的词语信息，从搜狗细胞词库的首页的最新数据来看，有 19520 个网友创建了 27695 个词库共 48482247 个词条。当然我下载过来后也没有去统计是否有这么多个词条。有兴趣的朋友可以试试。接下来简单的讲解一下如何批量的下载搜狗词库。（看了一下，下载来的好像没有那么多），本文为分析我的思路，完整程序请去：https://download.csdn/download/q_quanting/10570293

Python实现思路

1. 获取大分类列表

首先，我们先去观察搜狗细胞词库的网站，如下图所示：

在首页中就有词库的分类，这么一来，问题就转化为下载每个分类下的词库了。随便选择一个词库，点击进入观察（我选第一个），如下图所示：

在这里我们发现来搜狗细胞词库的十二个大分类：

‘城市信息’, ‘自然科学’, ‘社会科学’, ‘工程应用’, ‘农林渔畜’, ‘医学医药’,’电子游戏’, ‘艺术设计’, ‘生活百科’, ‘运动休闲’, ‘人文科学’, ‘娱乐休闲’

编写一个函数：

    def get_cate_1_list(res_html):
    # 获取大分类链接
        dict_cate_1_urls = []
        soup = BeautifulSoup(res_html, "html.parser")
        dict_nav = soup.find("div", id="dict_nav_list")
        dict_nav_lists = dict_nav.find_all("a")
        for dict_nav_list in dict_nav_lists:
            dict_nav_url = "https://pinyin.sogou" + dict_nav_list['href']
            dict_cate_1_urls.append(dict_nav_url)
        return dict_cate_1_urls

向该函数传入上面页面的源码，我们能够解析出十二个大分类的对应的链接地址。

2. 获取小分类字典

通过分析观察，我们能够发现“城市信息”分类下的小分类和其他十一个分类下的小分类是有点不一样的，如下图所示：

因此，在这里我们要写两种解析获取小分类的方法：

 def get_cate_2_1_list(res_html):
    # 获取第一种小分类链接
    dict_cate_2_1_dict = {}
    soup = BeautifulSoup(res_html, "html.parser")
    dict_td_lists = soup.find_all("div", class_="cate_no_child citylistcate no_select")
    for dict_td_list in dict_td_lists:
        dict_td_url = "https://pinyin.sogou" + dict_td_list.a['href']
        dict_cate_2_1_dict[dict_td_list.get_text().replace("\n", "")] = dict_td_url
    return dict_cate_2_1_dict

def get_cate_2_2_list(res_html):
    # 获取第二种小分类链接
    dict_cate_2_2_dict = {}
    soup = BeautifulSoup(res_html, "html.parser")
    dict_td_lists = soup.find_all("div", class_="cate_no_child no_select")
    # 类型1解析
    for dict_td_list in dict_td_lists:
        dict_td_url = "https://pinyin.sogou" + dict_td_list.a['href']
        dict_cate_2_2_dict[dict_td_list.get_text().replace("\n", "")] = dict_td_url
    # 类型2解析
    dict_td_lists = soup.find_all("div", class_="cate_has_child no_select")
    for dict_td_list in dict_td_lists:
        dict_td_url = "https://pinyin.sogou" + dict_td_list.a['href']
        dict_cate_2_2_dict[dict_td_list.get_text().replace("\n", "")] = dict_td_url
    return dict_cate_2_2_dict

其中，你会发现为啥在第二个函数中还有两个类型呢？这里的原因是，有部分小分类还有自己的小小分类。有些有，有些没有，这就导致了存在两种类型的小分类，需要分别解析。

3. 获取小分类下页码数

当我们获取小分类的页面后，会观察到不同的分类有不同的页数，因此，为了能够让我们的爬虫知道有多少个页面需要爬取。在此，我们需要获取小分类的页码数。

具体实现如下：

    def get_page(res_html):
        # 页数
        soup = BeautifulSoup(res_html, "html.parser")
        dict_div_lists = soup.find("div", id="dict_page_list")
        dict_td_lists = dict_div_lists.find_all("a")
        page = dict_td_lists[-2].string
        return int(page)

4. 获取下载链接

对每个页面进行爬取的时候，需要去获取页面中的所有的下载链接，用于后期的下载。

具体实现如下：

    def get_download_list(res_html):
    # 获取当前页面的下载链接
        dict_dl_dict = {}
        pattern = repile(r'name=(.*)')
        soup = BeautifulSoup(res_html, "html.parser")
        dict_dl_lists = soup.find_all("div", class_="dict_dl_btn")
        for dict_dl_list in dict_dl_lists:
            dict_dl_url = dict_dl_list.a['href']
            dict_name = pattern.findall(dict_dl_url)[0]
            dict_ch_name = unquote(dict_name, 'utf-8').replace("/", "-").replace(",", "-").replace("|", "-")\
                .replace("\\", "-").replace("'", "-")
            dict_dl_dict[dict_ch_name] = dict_dl_url
        return dict_dl_dict

5. 下载词库

这个就函数就没什么好说的了，就是对上面那个函数获取的下载链接进行下载，并保存到相应的路径下。

def download_dict(dl_url, path):
    # 下载
    res = requests.get(dl_url, headers=headers, timeout=5)
    with open(path, "wb") as fw:
        fw.write(res.content)

6. 获取页面函数

在上面的函数去都是页面解析函数，这里我贴上一个我的获取页面函数：

def get_html(self, open_proxy=False, ip_proxies=None):
    try:
        pattern = repile(r'//(.*?)/')
        host_url = pattern.findall(self.url)[0]
        SougouSpider.headers["Host"] = host_url
        if open_proxy:  # 判断是否开启代理
            proxies = {"http": "http://" + ip_proxies, }  # 设置代理，例如{"http": "http://103.109.58.242:8080", }
            SougouSpider.res = requests.get(self.url, headers=SougouSpider.headers, proxies=proxies, timeout=5)
        else:
            SougouSpider.res = requests.get(self.url, headers=SougouSpider.headers, timeout=5)
        SougouSpider.res.encoding = SougouSpider.res.apparent_encoding  # 自动确定html编码
        print("Html页面获取成功 " + self.url)
        return SougouSpider.res      # 只返回页面的源码
    except Exception as e:
        print("Html页面获取失败 " + self.url)
        print(e)

当然这个函数是我从一个类里直接拖出来的。你们也可以用自己的页面获取函数。

最后

实现效果：

本文主要提供思路介绍和页面解析。

完整程序，欢迎下载

我的csdn资源：https://download.csdn/download/q_quanting/10666339

希望对大家有所帮助！：-）

值得一提的是，从搜狗下载的文件格式为.scel,如果要需要转化为txt格式还需要自行转化。不过我也提供了转化函数,下载链接如下：

https://download.csdn/download/q_quanting/10622066

本文标签：词库搜狗批量 Python

版权声明：本文标题：Python 搜狗词库的批量下载内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dianzi/1727910073a1137764.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

Python 搜狗词库的批量下载

Python 搜狗词库的批量下载

简介

Python实现思路

1. 获取大分类列表

2. 获取小分类字典

3. 获取小分类下页码数

4. 获取下载链接

5. 下载词库

6. 获取页面函数

最后

更多相关文章

Ubuntu 14.04 LTS安装搜狗输入法

textarea的中文输入判断与搜狗输入法的特殊行为

Ubuntu 16.04 安装搜狗输入法

又是搜狗输入法

ubuntu100%快速安装搜狗输入法

linux安装搜狗输入法记录

【招聘】搜狗输入法-自然语言处理研究员

ububtu下sublime不能使用搜狗输入法

ubuntu系统下安装搜狗输入法

Ubuntu安装搜狗输入法相关操作

Ubuntu 18.04安装搜狗输入法的问题。

ubuntu下安装搜狗输入法

在centos7.7安装搜狗输入法踩坑日记

搜狗输入法 与fcitx-ui-qimpanel冲突_搜狗AI录音笔E2预售开启，不只是录音笔，还能拍照翻译？丨43周新闻...

Ubuntu 20.04 安装IBUS非搜狗中文输入法

现实版“柯南变声领结”！搜狗输入法“变声”功能发布，千人千声一键转换...

Ubuntu14.10搜狗输入法崩溃

Feodra 20 安装 搜狗输入法 for linux ubuntukylin

转载：Ubuntu14.04安装Sublime Text 3--解决无法使用搜狗中文输入法

Ubuntu16.04 下如何安装搜狗拼音输入法

发表评论

推荐文章

外挂的艺术-单机游戏辅助工具-网络游戏外挂

bat自动关机代码

如何用代码来实现电脑中“病毒”----关机小程序。 代码的有趣应用~

交通大学计算机科学考研_选择计算机科学作为大学专业之前需要知道的事情

Office Tab Enterprise v14.50.0 微软Office多标签管理工具中文直装版

热门文章

疯狂Java讲义（七）----第二部分

《疯狂java讲义》第7章 java基础类库

菜鸟错误总结

全面适配DPDK 20.11，DPVS发布v1.9.0版本

android与linux版本发展史

解决win10开机卡顿、配置很高但是玩游戏卡顿掉帧等问题

计算机鼠标显示停顿原因,经常遇到鼠标指针停顿卡的解决方法

【windows】window10打开图片显示黑屏，一直打不开

bug---win10电脑权限-文件操作失败。 C:WindowsSystem32driversetchosts 拒绝访问。 (CF@O)

文件夹损坏无法打开如何恢复

最新文章

如何在不重装系统的情况下再次分区电脑c盘还能分区吗？

清理C盘垃圾文件夹，系统空间大瘦身

intellij idea缓存清理,c盘 系统盘清理

Win10 DISM 清理 C盘的 WinSXS 文件夹

Win系统 - 这样清理C盘，一下子多出几十个G

怎么恢复计算机系统软件,重装系统后软件如何恢复原状

C盘清理工具

Windows10系统升级后清理C盘下Windows.old文件夹的方法

C盘清理教程

windows环境下，如何清理C盘中巨大的disk.vmdk文件（docker）

服务器换主板要重装系统吗,换主板需要重装系统吗【解决方案】

Windows C盘空间清理建议

强烈推荐 C盘清理教程

误删C盘文件导致wps不可用如何解决（window 11）

按这十项去做，电脑反应想慢下来都难

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

搜狗输入法与fcitx-ui-qimpanel冲突_搜狗AI录音笔E2预售开启，不只是录音笔，还能拍照翻译？丨43周新闻...

Feodra 20 安装搜狗输入法 for linux ubuntukylin

如何用代码来实现电脑中“病毒”----关机小程序。代码的有趣应用~

intellij idea缓存清理,c盘系统盘清理

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载