Windows10下CRF++ 分词实践|电子爱好者

admin管理员组
文章数量:1580705

步骤如下：
1. 下载 CRF++-0.58.tar.gz，解压
2. 我们只需要如下三个文件

之后

将这三个文件与所需文件压缩包内东西解压放在同一目录下

下载链接：

3. 创建模板文件 tmpl.txt 如下：

# Unigram
U00:%x[-2,0]
U01:%x[-1,0]
U02:%x[0,0]
U03:%x[1,0]
U04:%x[2,0]


# Bigram
B

4.进入Windows shell界面 cd 切换到刚才解压好的目录然后执行如下操作

将训练语料转换成crf++需要的格式

python make_crf_train_data.py pku_train.utf8 pku_training_out.utf8

5. 使用训练，得到model 文件

.\crf_learn tmpl.txt pku_training_out.utf8 pku.model

6. 将测试语料转换成crf++需要的格式

python make_crf_test_data.py pku_test.utf8 pku_test_out.utf8

7. 得到标注文件，还要用脚本进行转换，略繁琐（可以跳过直接进入下一步）

.\crf_test -m pku.model pku_test_out.utf8 > pku_test_result.utf8

8. 执行得到分词输出结果

 python crf_segmenter.py pku.model pku_test.utf8 pku_test_word.utf8

9.对分词结果进行评测

python crf_tag_score.py pku_test_gold.utf8  pku_test_word.utf8

所需文件链接：https://download.csdn/download/qq_27500493/11223964

本文标签：分词 CRF

版权声明：本文标题：Windows10下CRF++ 分词实践内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/xitong/1727875285a1135116.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

英语-ED分词的用法

9月前

英语-ED分词的用法

2012 英语常见情绪动词

9月前

2012 英语常见情绪动词

MySQL的全文索引与分词技术

8月前

MySQL的全文索引与分词技术

_baidu_搜索分词算法

8月前

_baidu_搜索分词算法

中考英语作文十大牛逼句型

8月前

中考英语作文十大牛逼句型

英语分词可用作哪些状语

7月前

英语分词可用作哪些状语

现在分词作状语

7月前

现在分词作状语

英语中表示原因的几种方式

7月前

英语中表示原因的几种方式

用作状语的-ed分词[整理版]

7月前

用作状语的-ed分词[整理版]

独立分词结构

6月前

独立分词结构

有关人情绪动词的现在分词和过去分词做形容词的用法

6月前

有关人情绪动词的现在分词和过去分词做形容词的用法

现代西班牙语第二册笔记很全

5月前

现代西班牙语第二册笔记很全

专四句子成分分析选择题汇总

4月前

专四句子成分分析选择题汇总

like的现在分词是什么意思

3月前

<p>2024年6月8日发(作者：)<p><p><h2><h2><p><p><img style="max-width:35%; ma

自-S12-英语5-学生-非谓语之分词

3月前

年月日发(作者：)非谓语之现在分词&过去分词:.............,,.“,”’..’,’.(普遍存在),-,,.’,—.“,”,:.“.”,“”“”,,,.,,“.”,,.,,().’..时态表示现在分词动作与谓语动作同时发生；或者

with的复合结构用法小结

3月前

年月日发(作者：)复合结构用法小结“复合结构”又称为“结构”，在句中表状态或说明背景情况，常做伴随，方式，原因，条件等状语。具体结构如下：.名词介词短语•().•().•在书面语中。上句也可以说成：,.．名词形容词（强调名词的特性或状态）•

NLP(自然语言处理)基本入门之分词操作

27天前

文章目录环境问题Hanlp代码解读Hanlp分词Hanlp分词标准分词NLP分词索引分词极速词典分词自定义分词命名实体识别与词性标注关键词提取准确分词（自定义字典）jieba分词hanlp分词

搜索引擎分词算法

27天前

查询处理与分词是一个中文搜索引擎必不可少的工作,一个典型的中文搜索引擎一直强调其”中文处理”方面具有其它搜索引擎所不具有的关键技术和优势.我们就来看看百度到底采用了哪些核心技术这是个示范，一般情况下不用减那么多&a

数据库-Elasticsearch进阶学习笔记（分片、映射、分词器、即时搜索、全文搜索等）

27天前

目录基础概念定义特点索引(Index)分片(Shards)副本（Replicas）分配(Allocation) 映射(Mapping)动态映射显式映射常见数据类型文档(document)领域特