解码百度输入法词库|电子爱好者

admin管理员组
文章数量:1566652

最近需要解析下载得到的百度输入法词库，本来尝试利用深蓝词库转换解决，无奈深蓝词库不能对各个路径下的词库分别进行处理，只能进行合并操作，这就丧失了原来路径具有的分类信息。看来这个坑还得自己填。

声明：下述没有处理拼音，只是简单的提取词库中的中文词。需要处理词库，前提条件是了解词库文件内部存放方式。根据深蓝词库转换源码，我们可以推出百度词库编码方式如下： 0x350 ：词库存放开始位置 int len 词语的长度，int数 4字节长度2*len字节，对应拼音信息长度2*len字节，对应unicode编码的中文词所以，取出词库中的中文词，只需首先将文件读指针移动到0x350位置，读取词的长度，然后跳过中间的拼音信息，直接取到中文词unicode编码的字符串，然后对其进行解码即可。取出文件中的所有词语，只需要循环这个过程，直至文件读指针到了文件末尾。在我的需求中，需要把转码的中文词写入到文件中。思路说完了，下面上代码：

using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using System.Threading.Tasks;
using System.IO;
namespace read_file
{
    class Program
    {
        public static int ReadInt32(Stream fs)
        {
            var temp = new byte[4];
            fs.Read(temp, 0, 4);
            int s = BitConverter.ToInt32(temp, 0);
            return s;
        }
        public static List<String> readWord(string path,List<String>list)
        {
            var fs = new FileStream(path, FileMode.Open, FileAccess.Read);
            fs.Seek(0, SeekOrigin.End);
            long endPosition = fs.Position;
            fs.Position = 0x350;
            do
            {
                int len = ReadInt32(fs);
                fs.Position += len * 2;
                var temp = new byte[len * 2];
                fs.Read(temp, 0, len * 2);
                String word = Encoding.Unicode.GetString(temp);
                list.Add(word);
            } while (fs.Position <endPosition-1);
            fs.Close();
            return list;
        }
        static void transform_txt(string path)
        {
            var files = Directory.GetFiles(path, "*.bdict");
            List<String> list = new List<string>();
            foreach (var file in files)
            {
                list = readWord(file, list);
                Console.WriteLine(file + "文件处理完毕！");
            }
            FileStream fs = new FileStream(path + "dict.txt", FileMode.Append);
            StreamWriter writer = new StreamWriter(fs, Encoding.UTF8);
            foreach (String word in list)
            {
                writer.Write(word + "\n");
            }
            writer.Close();
            fs.Close();
        }
        static void Main(string[] args)
        {
            string []paths = { "C:FileRecv\\安徽\\" };
            foreach (string path in paths)
                transform_txt(path);
        }
    }
}

转载于:https://wwwblogs/zhoudayang/p/5288165.html

本文标签：词库输入法

版权声明：本文标题：解码百度输入法词库内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/xitong/1727528895a1119348.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

解码百度输入法词库

更多相关文章

对小米版百度输入法的认知

百度输入法、QQ 浏览器竟都在窃取用户隐私？

WPF与输入法冲突研究之一：百度输入法会导致WPF程序的崩溃！

百度AI输入法发布全感官输入2.0版本，语音技术取得世界级突破

语音识别准确率行业第一，中英、方言混输百度输入法都没在怕的！

百度手机输入法，如何使用五笔98版？

Ubuntu下微信（wechat）经常无故卡死解决方法百度输入法

Jmeter与搜狗输入法、百度输入法不兼容问题解决方法

win10自带输入法导入其他词库

windows10 出现重命名文件名字,百度无法弹出输入法的解决方法

关于win10输入法导致电脑直接卡机无法动弹问题

都2021年了，输入法还能怎么玩出花？百度智慧输入：toB商业化！

android 10.0 第三方输入法app设置系统默认输入法

lubuntu输入法设置_ubuntu的环境以及输入法设置

百度输入法往选字框里强塞广告

android10 关闭默认输入法的“更正建议”

kali2022安装配置、换源、输入法安装

百度输入法全面升级，打造首个基于大模型的输入法原生应用

Manjaro配置输入法

【原创】MacOS 卸载第三方输入法

发表评论

推荐文章

15分钟安装MySQL[如何彻底卸载旧mysql+重装+测试]

连接局域网打印机显示无法连接服务器,网络打印机拒绝访问无法连接处理方法汇总...

禁止Windows更新自动安装驱动程序

各种多媒体软件安装教程

世界坐标系前端分类

热门文章

讯飞输入法去除广告

ps cc 生成html,使用photoshop生成网页的方法

一台计算机可以安装多台打印机吗,一台打印机这样设置可以让多台电脑进行共享打印...

同一局域网内，多台电脑共享一台打印机

企业微信无法正常启动 报错0xc0000142

idea 类存在正常启动，但是一直报红，说该类不存在

vite搭建V3项目时Error: spawn E:vue3-vitemy-appnode_modulesesbuildesbuild.exe ENOENT

超微主板重置IPMI密码 Windows系统

网络测试技术相关技术术语

&quot;Chrome浏览器下载Word、Excel、PPT，打开提示错误&quot;问题

最新文章

产品管理 - 互联网产品（4）： 交互设计

操作系统有哪些.智能手机的操作系统有哪些?

【Linux】学习Linux，需要借助具象化的思维

FL2440(S3C2440A 芯片) 开发板开发笔记

java开发环境搭建

【历史上的今天】9 月 30 日：“计算机之父”争夺战；Microsoft Excel 诞生；百度推出百度地图

知乎：为什么中国开发不出流行的操作系统和编程语言？

【题目】【信息安全管理与评估】2018年全国职业院校技能大赛高职组信息安全管理与评估样题

Window基础（黑客基础）

flstudio20.8.3.2293水果软件最新中文语言版本

Ubuntu和XP下搭建Android应用开发环境

信息安全概论期末复习笔记

Windows 硬件体验 Device Stage Windows Update

基于android的摆摊进货app

黑盒测试方法

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

企业微信无法正常启动报错0xc0000142

"Chrome浏览器下载Word、Excel、PPT，打开提示错误"问题

产品管理 - 互联网产品（4）：交互设计

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载