爬取搜狗输入法的医学词库下载.scel格式文件|电子爱好者

admin管理员组
文章数量:1653285

Ps: 参考代码原文链接：https://blog.csdn/Q_QuanTing/article/details/82698229

Why am I doing this？

入职后一段时间被安排去做了nlp的相关工作，为了收集相关语料库，发现搜狗输入法的词库有很多已经分类好的词库。于是想办法对其进行了爬取操作。

Function Introduction

爬取指定类别下的.scel文件，并保存在scel_bank文件夹中。


def get_cate_list(res_html):
    """
    获取https://pinyin.sogou/dict/cate/index/132/default/ 下的

      “基础医学(39)	西药学(52)	中医(71)	中药(42)	针灸(2)	疾病(18)	超声医学(5)
    耳鼻喉科(3)	法医学(2)	护理学(4)	解剖学(12)	口腔医学(9)	美容外科(11)	皮肤科(8)
    兽医(5)	医疗器械(19)	医学影像学(5)	肿瘤形态学(1)	医学检验(3)	医疗(32)	外科(8)
    其它(41)”    
    
    的超链接。
    """
    # 获取第二种小分类链接
    dict_cate_dict = {}
    soup = BeautifulSoup(res_html, "lxml")
    dict_td_lists = soup.find_all("div", class_="cate_no_child no_select")
    # 类型1解析
    for dict_td_list in dict_td_lists:
        dict_td_url = "https://pinyin.sogou" + dict_td_list.a['href']
        dict_cate_dict[dict_td_list.get_text().replace("\n", "")] = dict_td_url

    return dict_cate_dict


def get_page(res_html):
    """
    获取主题页数
    """
    # 页数
    soup = BeautifulSoup(res_html, "html.parser")
    dict_div_lists = soup.find("div", id="dict_page_list")
    dict_td_lists = dict_div_lists.find_all("a")
    if dict_td_lists == []:
        return 1
    else:
        page = dict_td_lists[-2].string
        return int(page)


def get_download_list(res_html):
# 获取当前页面的下载链接
    dict_dl_dict = {}
    pattern = repile(r'name=(.*)')
    soup = BeautifulSoup(res_html, "html.parser")
    dict_dl_lists = soup.find_all("div", class_="dict_dl_btn")
    for dict_dl_list in dict_dl_lists:
        dict_dl_url = dict_dl_list.a['href']
        dict_name = pattern.findall(dict_dl_url)[0]
        dict_ch_name = urllib.parse.unquote(dict_name, 'utf-8').replace("/", "-").replace(",", "-").replace("|", "-")\
            .replace("\\", "-").replace("'", "-")
        dict_dl_dict[dict_ch_name] = dict_dl_url
    return dict_dl_dict


def download_dict(dl_url, path):
    # 下载
    res = requests.get(dl_url, timeout=5)
    #print(res)
    #print(res.content)
    with open(path, "wb") as fw:
        fw.write(res.content)


def get_html(res):
    r = requests.get(res)
    content = r.text
    return content
        

if __name__ == "__main__":

    res = 'https://pinyin.sogou/dict/cate/index/132/default/' #大类地址
    content = get_html(res)
    address = get_cate_list(content) 
    
    downloadlist = []
    for ad in tqdm(address):

        print("Get {} ".format(ad))

        res = address[ad] #获取子类的地址 
        c = get_html(res) #获取子类页面
        pages = get_page(c) #获取子类页面页数
        
        for i in range(pages):
            if i + 1 == 1:
                d = get_download_list(c)
            else:
                d = get_download_list(c + '/default/' + str(i + 1))
            downloadlist.append(d)
        
    print(downloadlist) #获取所有词库的下载地址

    print("Downloading...")
    s = 0 #词库个数
    scel_path = "Your path\\scel_bank"
    for j in range(len(downloadlist)):
        for sub_d in tqdm(downloadlist[j]):
            s = s + 1
            print(s)
            download_dict(downloadlist[j][sub_d], scel_path + sub_d + '.scel')

将scel_bank中的文件批量转换为.txt格式，并保存在txt_bank文件夹中。

代码不一一贴上来了，详细见https://github/complicatedlee/Chinese-medical-words-bank

Summary

两个月前的第一次小爬虫，记录一下，python真神奇。

本文标签：词库搜狗格式文件输入法医学

版权声明：本文标题：爬取搜狗输入法的医学词库下载.scel格式文件内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dianzi/1729635841a1208378.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

搜狗输入法无法输出中文

1天前

ubuntu系统，之前下载了搜狗输入法，今天使用时发现只能输出英文在网上搜了很多帖子说是要修改配置文件（该方法不管用，看看就好，

搜狗输入法在Linux Mint系统上的问题总结

1天前

系统环境：linux mint 18.3 1,、在Linux Mint系统上安装搜狗输入法后，任务栏不显示搜狗输入法图标？ 搜狗输入法下载。下载完成后双击或者sud

解决Qtcreator搜狗输入法无法输入中文问题

1天前

由于搜狗输入法依赖fcitx，所以我们解决该问题的核心操作是为QtCreator提供支持fcitx 本系统环境说明：ubuntu22.04、Qt5.12.8、Qt6.6.1&#xff08

Ubuntu18.04下安装并配置搜狗输入法

1天前

网上太多的方法都太复杂，其实在Ubuntu18.04下安装搜狗输入法是非常简单的。一、安装fcitx 首先检测是否有fcitx，因为搜狗拼音依赖fcitx fcitx 提示&#xff

Ubuntu下不能切换中文，qt creator无法输入中文，sogo输入法（详细步骤）_ubuntu搜狗输入法中英文切换

1天前

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上物联网嵌入式知识点，真正体系化！ 由于文件比较多&a

Linux下搜狗输入法的皮肤的更换

1天前

Linux版本的搜狗输入法自带的skin比较少而且不怎么赏心悦目，在此对Ubuntu 16.04 下的Sogou输入法换新的皮肤，具体步骤如下： 1、前往Sogou输入法的

Linxu软件之如何安装和使用搜狗输入法？（Ubuntu）

1天前

文章目录 1. 打开命令行，进入root模式2. 安装搜狗输入法2.1 进入到搜狗输入法安装包路径(自定义)，使用命令安装搜狗输入法2.2 修复依赖关系完成安装 3. Ubuntu配置使用搜狗输入

ios 输入法扩展_搜狗输入法 iOS 版开发与优化实践

1天前

输入法是一种对性能要求极高的产品，不同于普通应用开发，很多在普通应用开发看来不是问题的，在输入法看来却是比较关键。同时，由于 iOS 系统的某些限制&a

在Ubuntu18.04下安装搜狗输入法

1天前

step1：在搜狗输入法官方网站下在搜狗输入法Linux版本 step2：安装搜狗输入法 sudo dpkg -i 《文件路径》例如我的命令是：sudo dpkg

Ubuntu 20.04解决idea jetbrain系列产品搜狗输入法其他输入法一直显示在左下角，不跟随打字的问题

1天前

下载链接: https:pan.baidus12jhNj__z9iqmw-lfNSmD0Q 提取码: 4u1s –来自百度网盘超级会员v4的分享在idea.sh上添加这样的代码 export IDEA_JDKxport IDEA

Ubuntu 16.04安装搜狗输入法

1天前

实际工作中，可能会需要在Linux系统环境下，来完成日常工作，这时候一个好的工具能有效的提高工作效率。比如标题中说的输入法 Ubuntu自带的输入法简直不要太难用Ubun

M3U8格式文件比较稳妥的下载方法

7小时前

1.如果网速好的话直接用M3U8 Downloader 2.如果网络有限制：（可能是网速，也有可能是网站方面的限制，这个时候可以想想别的方法&#

Win10自带输入法怎么删除-Win10卸载微软输入法的方法

5小时前

Win10自带输入法怎么删除？Win10系统自带输入法就是微软输入法，这个输入法满足了很多用户的输入需求。但是，有些用户想要使用其它的输入法，这时候就想

ubuntu20.04 安装搜狗输入法+chorme浏览器

3小时前

安装搜狗输入法 1. 更新源在终端执行 sudo apt update2. 安装fcitx输入法框架 (1）在终端输入 sudo apt install fcitx（2&

ubuntu系统如何中安装搜狗输入法

3小时前

今天装好了ubuntu14.04.5版本，发现其自带的输入简直无法使用（其实是我不会用），所以在网上找了很多搜狗输入法的安装方法。但是，很多用起来都不行...... 后来看到一篇博客说到搜狗输入法linux版的官网下载，然后点击安装就行

ubuntu下载搜狗输入法及language support消失的解决办法

3小时前

搜狗输入法需要fcitx支持，因此首先要安装fcitx。关于fcitx可以自行百度了解首先查看是否已经下载了fcitx fcitx --version 若没有 sudo apt-get update sud

kali Linux 搜狗输入法无法使用

3小时前

1.ubuntu下搜狗的配置文件在 ~.config下的3个文件夹里： SogouPY、SogouPY.users、sogou-qimpanel 删除这3个文件夹 2.重启搜狗。

如何在ubuntu上安装搜狗输入法（已经成功）

3小时前

本人今天在ubuntu上安装搜狗输入法参考照网上多种方法发现很多方法行不通，最后将自己安装成功的方法记录下来，供大家参考，安装的详细步骤如下： 1.下

ubuntu20.04搜狗输入法最细安装指南

3小时前

1. 首先进入搜狗输入法官网 https:shurufa.sogou搜狗拼音输入法官网下载，荣获多个国内软件大奖的搜狗拼音输入法是一款打字更准、词库更大、速度更快、外观漂亮、用了让您爱不释手的输入法&#

愉快解决linux下搜狗输入法不跟随idea2022光标问题

3小时前

最近WinMac平台转linux开发，用的是乌班图。安装搜狗输入法后，发现输入法不会跟随idea光标移动。原因是IDEA的jre有问题。下载 https:githubRikudouP

电子爱好者 - 最新技术资讯及电子产品介绍！

爬取搜狗输入法的医学词库 下载.scel格式文件

Why am I doing this？

Function Introduction

Summary

更多相关文章

搜狗输入法无法输出中文

搜狗输入法在Linux Mint系统上的问题总结

解决Qtcreator搜狗输入法无法输入中文问题

Ubuntu18.04下 安装并配置搜狗输入法

Ubuntu下不能切换中文，qt creator无法输入中文，sogo输入法（详细步骤）_ubuntu搜狗输入法中英文切换

Linux下搜狗输入法的皮肤的更换

Linxu软件之如何安装和使用搜狗输入法？（Ubuntu）

ios 输入法扩展_搜狗输入法 iOS 版开发与优化实践

在Ubuntu18.04下安装搜狗输入法

Ubuntu 20.04解决idea jetbrain系列产品 搜狗输入法其他输入法 一直显示在左下角，不跟随打字的问题

Ubuntu 16.04安装搜狗输入法

M3U8格式文件比较稳妥的下载方法

Win10自带输入法怎么删除-Win10卸载微软输入法的方法

ubuntu20.04 安装搜狗输入法+chorme浏览器

ubuntu系统如何中安装搜狗输入法

ubuntu下载搜狗输入法及language support消失的解决办法

kali Linux 搜狗输入法无法使用

如何在ubuntu上安装 搜狗输入法（已经成功）

ubuntu20.04搜狗输入法最细安装指南

愉快解决linux下搜狗输入法不跟随idea2022光标问题

发表评论

推荐文章

C语言程序设计-文件加密系统01

CVPR2020-RFANet-图像超分辨率新网络 | Residual Feature Aggregation Network for Image Super-Resolution

SVN、git、github-版本控制服务器

批量部署windows和linux系统,使用Cobbler批量部署Linux和Windows：Windows系统批量安装（三）...

PDF公式转化到Word（PDF文献中公式转化）

热门文章

深入理解Java虚拟机——Java垃圾回收器——史上最烂的图文并茂结合——第八章

怎么隐藏计算机控制面板程序,如何隐藏控制面板

Unity中Shader的变体shader_feature

（附源码）springboot校园跳蚤市场 毕业设计 646515

酷狗音乐在线试听下载

酷狗音乐快速转换MP3格式的方法

mysql安装create an_MySQL安装 - anyeshe的个人页面 - OSCHINA - 中文开源技术交流社区

2021-11-22 Ubuntu20.4备份迁移

Docker容器技术&amp;项目部署

文件加密精灵软件使用教程

最新文章

在互联网上提问应该注意什么？

[转] 提问的智慧 快速学习必备

安装win10+linux-Ubuntu16.04的双系统

CTF黑客之提问的智慧

简单几步教你去除开机出现扫描硬盘！

【生活随笔】提问的智慧

请打开正确的提问方式

车老哥手把手带你配置AI项目的环境

提问的智慧（中文版）-----转

iphone和android系统,手机的安卓和苹果谁更好用？

程序员自我修养——提问的智慧

如何正确的提问

三、重启、关机问题

程序开发中提问的智慧

不可以使用计算机病毒疫苗来预防病毒,[计算机病毒与防范] 计算机有病毒疫苗吗...

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

爬取搜狗输入法的医学词库下载.scel格式文件

Ubuntu18.04下安装并配置搜狗输入法

Ubuntu 20.04解决idea jetbrain系列产品搜狗输入法其他输入法一直显示在左下角，不跟随打字的问题

如何在ubuntu上安装搜狗输入法（已经成功）

（附源码）springboot校园跳蚤市场毕业设计 646515

Docker容器技术&项目部署

[转] 提问的智慧快速学习必备

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载