admin管理员组

文章数量:1539010

2024年5月22日发(作者:)

第21卷第2期 青海师范大学民族师范学院学报 

2010年11月 

Vo1.21.2 JournalofMinoritiesTeachersCollege ofQinghaiTeachersUniv

ers

ity 

NOV.2010 

班智达藏文自动分词系统的设计与实现术 

才智杰 

(青海师范大学藏文智能信息处理中心青海西宁810008) 

摘要:分词是理解自然语言的第一步,在此基础上才能划分短语、抽取概念以及分析主题,以至自然语言理解,最终实现智能化。 

通过对85万字节藏语语料的统计分析和藏语词的分布特点、语法功能的研究,设计开发了基于词典库的班智迭藏文自动分词系统。系 

统的研制为藏文输入法研究、藏文电子词典建设、藏文字词频统计、搜索引擎的设计和实现、机器翻译系统的开发、网络信息安全、藏文 

语料库建设以及藏语语义分析研究奠定了基础。 

关键词:中文信息处理分块格助词藏文分词 

1 引言 

须具有很好的通用性。 

英语、法语和德语等西方语言的词与词之间 

3班智达藏文自动分词系统的设计与实现 

般采用自然的空格作为词与词的分隔标记,但 

3.1技术路线 

藏文和汉文一样都是字的序列,词之间没有间隔 

通过分析汉文分词系统和藏文特征,制定了 

标记,使得词的界定缺乏自然标准,这就需要通 

明确的项目技术路线,如图1所示。 

过人工或机器对其进行分词。 

近年来随着藏文信息处理技术的发展,研究 

人员已意识到藏文自动分词的重要性,在借鉴亲 

属语言汉语分词研究的已有成果和成功经验,藏 

文自动分词方面取得了一些有价值的研究成果。 

我课题组在国家评委的支持下研制开发了《班智 

达藏文自动分词系统》。 

2分词技术分析 

从分词所采用的方法来看,大致上可分为两 

大类,即统计方法和规则方法。统计方法是先建 

图1技术路线图 

立一个自动分词统计模型,获取模型的各组参 

数,然后从各种可能的词串中挑选概率最高的词 

3.2系统结构设计 

串作为输出结果。规则方法是利用词表和规则, 

分词系统的基本思想是MM匹配算法。先将 

采用一定的算法,文本中读取的候选词与词典库 

待切分文本分块,然后按照一定的策略将待分析 

中的词匹配,匹配成功且符合规则要求,则将候 

的字串与一个“充分大的”机器词典中的词条进 

选词确定为词并予以输出。自动分词系统的准确 

行匹配,若在词典中找不到某个字串,则将字串 

度、高效性、通用性及适用性是其主要技术指标。 

缩小继续查找,否则匹配成功,识别出一个词。对 

准确率是分词系统性能的核心指标,分词准确率 

藏文文本直接利用最大匹配算法其时间复杂度 

达99%以上才能基本满足上层使用的要求。分词 

非常大,而先分块后切分其时间复杂度减小很 

准确性十分重要,但如果分词速度太慢,即使准 

多,可有效地提高切分速度。通过改进MM匹配 

确性再高,对于几十万字节甚至几亿字节的文本 

算法得到格分块算法,该算法可作为藏文分词系 

分词时不可用。分词是手段而不是目的,作为各 

统的基本算法。 

种高层次信息处理的共同基础,自动分词系统必 

班智达藏文自动分词系统采用模块化设计, 

基金项目:国家社科基金项目(09XYY024),青海师范大学科研创新计划项目和青海师范大学中青年科研基金项目。 

收稿日期:2009—09—11 

作者简介:才智杰(1970-),男,藏族,青海乐都人。青海师范大学副教授。研究方向:藏文信息处理。 

75 

才智杰:班智达藏文自动分词系统的设计与实现 

由知识库管理模块、知识库模块、句子分块模块、 

统的基础。词条的组织和词典库结构的设计是否 

块分词模块和校正模块等五个主要部分。分词需 

合理是影响文本分词效率和信息查全查准率的 

要三步完成:文本切分成句,句切分成块,块切分 

个重要因素。理论上词库中的词条越多,切词 

成词,其处理过程如图2所示。 

的效果就越好。但是随着词条数的增加,切词过 

程需要过多的模式匹配,切词效率呈下降趋 

势;而词条过少,使得一些词语无法切分,影 

响对文本信息的查全。 

班智达自动分词词典库共95968条,统 

计结果见表1。 

图2分词流程 

表中词条指单个词中所包含的藏字个 

3.3词典库设计 

数,词条数指该词长下所包含词的个数,所占百 

由于班智达藏文自动分词系统采用的是基 

分比指该词长下所包含的词数在词库中所占的 

于词典匹配的分词方法,因而词典库是该分词系 

比例。 

表1词长统计表 

词长(字符) 词条数(条) 所占百分比 词长(字符) 词条数(条) 所占百分比 

l 449 0.47% 18 488 O.51% 

2 1999 2.08% 19 340 0-35% 

3 4381 4.57% 20 24J4 O.25% 

4 1O934 11.39% 21 136 0.14% 

5 17253 17.98% 22 90 0.Oq% 

6 141O1 14.69% 23 68 0.07% 

7 8665 9.03% 24 43 0.04% 

8 6403 6.67% 25 35 0.04% 

9 6186 6.45% 26 24 0.03% 

10 6O65 6-32% 27 23 O.02% 

11 5792 6.40% 28 12 0.O1% 

12 4749 4.95% 29 9 O.O1% 

13 3143 3.28% 30 4 O.0o% 

14 1869 1.95% 31 8 0.O1% 

15 1O99 1_15% 32 6 O.O1% 

16 719 0.75% 33 5 0.01% 

17 624 0.65% 34 2 0.0o% 

由于藏文中有很多习语、成语和藻词,班智 

匹配的词条数。首先对词条按字符数分块,字符 

达藏文分词词典库中词的最大长度达34个字 

数相同的词条放到同一组,并对词典排序。一级 

符,而在文本中出现的词绝大部分是2一l5个字 索引加在各个分组上,一级索引记录各分组的开 

符构成的字词,少部分由1个字符、16个字符、17 

始位置,再根据下一分组的起始位置确定当前分 

个字符和l8个字符组成的词,18个以上字符组 

组的终止位置。二级索引是加在一级索引内部, 

成的词就十分稀少。为了减少查词典的次数和计 

在同一组内部由于有很多的词条,二级索引是按 

算量,提高藏文切分的速度,针对“最大匹配切分 

词的首字符建立,它加在以不同字符开头的词条 

法”的实际需要,参考Tile索引法的检索思想,提 

组中,这样通过二级索引可以进一步缩小查找范 

出了一种适合于藏文分词的“Mbl匹配索引法”。 

围。查询时外部采用分块查询,内部采用二分查 

整个词库采用线性表来组织,并通过分块和 

找。 

索引的方法来提高词库的检索速度,以减少进行 

3_4格分决算法设计 

76 

才智杰:班智达藏文自动分词系统的设计与实现 

藏文文本中的句与句之间有明显的分隔标 

志,文本切分成句并不困难,因此藏文文本自动 

切分的关键技术就在于如何将句切分成块以及 

块切分成词。 

例句: 

n 气。翦 是 事 茸目 目 

叫可目 可§’目 习 |rq。 

a奸气 可q 可n驾ar 嗣 q’slr写可 耐 

删玎量 a基1可 a。茸叮1 cq牙1母 1 ’1 

用常规模式匹配的方式进行分词对分词速 

度的影响非常大,为使提高分词速度可把藏文文 

本以几个特殊的藏文格助词 ’ ’ ’ ’ 

切分过程(为说明方便词之间用“,”分隔): 

第一步:认字分块 

d 离’剐g 事 茸目 怠≈V 旬对气粕 盯口鼋 日。d dr 对 誊0q 写可 q, 

自, 目 日 目气 哥 呵 。 豇,叫玎喜 愚葛1可^ 茸吓1气<q 1 ’ q Vl 

(以下把这几个格助词简称为特殊格助词)为临 

第二步:分词 

界符进行分块,具体过程如下: 

1、对句子从前向后开始扫描,直至遇到特殊 

格助词; 

2、以特殊格助词为基准,分别正向和逆向取 

字合并,并判断是否在临界库中存在。若不存在, 

则将该特殊格助词前的文本为一个块,继续执行 

1;否则切分出临界词,将临界词前的文本作为一 

个块,继续执行1。 

3、重复执行l、2直至文件尾。 

临界库是指凡是含特殊格助词 ’ ’ 珂’ 

’ ’ N”的词组成的词条库。由于藏文中含这几 

个特殊格助词的词不足百条,临界库的规模很 

小,因而分块速度非常快。 

4实验及结果分析 

4.1 实验 

通过对85万字节藏语语料的切分,并经人 

工分析统计班智达自动切分系统对规范的文本 

切分准确率达99%,其界面如图3所示。 

图3班智达自动切分系统 

4.2结果分析 

(1)切分速度。 

根据设计的分词词典,在查找某一个词时, 

是先根据“索引表”查出该字在词表中的起始位 

置,然后在词表中定位到区间,这样可以减少查 

词的时间,从而提高切分速度。 

(2)班智达自动切分系统分词的过程。 

且 , 爵 是 ,亨 茸自气, 目 ‘ ,旨,卦 【w,日 ‘w’q 田 , Bq s1 写 8日, 

断 q 日‘N, 田 气珂 耳目,q q’荨 ’r.1, 蓦1 , 茸1 叩i‘’日, 1 1 

其中 窝 ,为三个未登录词并列出现,根 

据新词识别算法可合并为一专用词。从该例句中 

可看出,对藏文文本直接利用MM匹配算法分词 

其时间复杂度为90 1 1.48×10138,而使用改进 

的MM匹配算法其切分时间复杂度为l3 1+1+15 1 

+9 1+1+11 1+1+l+6 1+8 1—1.3×1012,有效地提 

高了切分速度。 

5结束语 

2007年11月18日,青海省科技厅组织专家 

对《班智达藏文自动分词系统》进行了验收评价, 

专家委员会一致认为:该系统界面友好,易操作, 

运行稳定,对规范的文本切分准确率达99%,切 

分速度快,对藏文字频、词频统计,词典编纂,词 

性标注和属性研究,藏语语法、语义研究,藏语言 

文字规范化研究,藏文语料库和信息化建设等有 

重要的现实意义。该研究成果填补了藏文自动分 

词研究领域的空白,达到国际领先水平。 

参考文献: 

[1】才智杰.藏文自动切分系统中紧缩词的识别Ⅱ】.中 

文信息学报,2009,1. 

[2]孙茂松,黄昌宁等.中文姓名的自动辨识D11中文 

信息学报,1995,2. 

[3]孙茂松,邹嘉彦等.汉语自动分词研究评述Ⅱ】,当代 

语言学,2001,1. 

[4]陈玉忠,李保利,俞士汶等.基于格助词和接续特征 

的书面藏文分词方案卟语言文字应用,2003,1 

[5】李庆虎,陈玉健,孙家广.一种中文分词词典新机 

制——双字哈希机制卟中文信息学报,2003,17(4). 

[6】才旦夏茸.藏文文法详解[M】.西宁:青海民族出版 

社.1988. 

[7]陈玉忠,俞士汶.藏文信息处理的研究现状与展望 

D】.中国藏学,2003,4. 

[8]格桑居冕.实用藏文文法[M】.成都:四川民族出版 

社.1987. 

(责任编辑:耿生玲) 

77 

本文标签: 分词自动系统研究设计