admin管理员组

文章数量:1532657

2024年7月11日发(作者:)

维普资讯

《西藏科技)2008年9期(总第186期) 信息技术 

藏文自动排版技术在 

藏文办公软件中的实现 

群诺 普顿 尼玛扎西 

马发俊 

(1西藏大学现代教育技术中心,西藏 

拉萨850000) 

(2西藏大学工学院,西藏拉萨 

850000) 

(3上海中标软件有限公司,上海 

200030) 

摘要:近几年来在我国政府和有关部委的大力支持下,藏文信息处理技术得到了空前的发展,基于国 

际国家标准的藏文应用软件相继研发成功。本文就围绕国内外第一款基于藏文编码字符集(基本集、 

扩充集A和B准)国际国家标准的中标普华藏文办公软件,重点论述了在藏文办公软件中解决藏文文 

本自动断行的问题和藏文自动排版技术的实现方法。 

关键词:藏文信息处理 国际国家标准 文本断行藏文自动排版 

中图分类号:TP391 

1 引言 

云南等地的西藏中学使用,受到用户的广泛好评。 

西藏作为中华民族大家庭的重要组成部分,具有 

中标软件有限公司与西藏大学合作研制的中标普 

丰富而独特的自然资源和文化资源。中央领导曾多次 

华藏文Ofifce软件,具有以下明显的特点: 

指出,在西藏开发建设的进程中,要把发展科技、教育 

中标软件拥有成熟的中文办公软件产品和英文版 

作为关键环节;要依靠先进的科学技术,以新的思路解 

办公软件产品,藏文版Ofifce软件符合公司长期发展 

决好能源、交通、通讯和信息等经济建设中迫切需要解 

战略;与代表藏文信息处理技术领先水平的西藏大学 

决的问题;在文化上要坚持继承发展,科学继承发展藏 

合作,具有本土优势和技术优势;藏文Ofifce软件排版 

民族传统文化,并加大对外宣传力度,使传统文化在新 

方式上符合藏文习惯,并将制作符合国家藏文编码标 

的历史条件下焕发出新的异彩,为西藏的两个文明建 

准的四种常用字库,每种字库7000字左右。包括:白 

设服务。因此我国一直致力于推动藏文信息技术的发 

体、黑体、楷体、行体等,形成事实上的标准;制作符合 

展,它关系到藏族地区的安定团结,经济发展,社会稳 

国家藏文编码标准、使用方便的藏文输入法,使之普及 

定。我国必须率先取得重大成果,向世界证明,藏族文 

使用;实现产品化应用并将在西藏等藏语区进行产业 

化在采用先进的科学技术中不断发展,藏族地区的经 

化推广工作。 

济将步人信息网络时代,这也是对西方反华势力攻击 

藏文版Ofifce软件的成功推出,充分体现了西藏 

我们毁灭藏族文化的有力回击。 大学在研发和推广本民族语言办公软件方面有着丰富 

2中标普华藏文办公软件介绍 

的经验和扎实的技术积累,为本项目的顺利完成打下 

目前的办公软件市场,微软一直独领风骚。但微 

坚实的基础。 

软没有提供藏文版的办公软件产品。而中标普华藏文 

3与同类产品间的综合比较 

办公软件产品,是在国家有关部委和政府的大力支持 纵观国内外与藏文Ofifce类似的产品,除了不支 

以及相关专家的通力合作,利用中标软件多年来办公 

持或不完全支持藏文编码标准(基本集、扩A、扩B 

软件研究成果为基础开发而来。该产品是全球首款基 

准)外,在藏文排版的过程中,也存在一些缺点。一般 

于藏文编码字符集(基本集、扩充集A和B准)国际国 在排版时,用户首先录入内容而不考虑排版规则,然后 

家标准的纯藏文Ofifce办公软件产品,它提供汉藏界 

再通过执行一段宏代码,对全文档进行排版。 

面切换功能,支持汉藏英混排、图文混排等排版功能, 

这种排版方式的缺点是: 

可在文字处理、电子表格、演示文稿等各方面轻松完成 

不能实现所见即所得的排版效果;排版所需时间 

日常自动化办公任务;作为该领域中的佼佼者,目前该 

根据文档包含对象的复杂性而不同;排版效果存在误 

产品已经在西藏、青海的部分地区和北京、上海、常州、 

差;不支持图文混排的效果;与运行一段宏代码来执行 

73 

维普资讯

信息技术 

藏文排版功能的产品相比,藏文Ofifce的优点是所见 

即所得的排版方式,速度快、排版效果好,支持图文混 

《西藏科技}2008年9期(总第186期) 

i 中标藏普文华O版 fice MS Ofice2oo3 MS 0fice2007 

排等排版方式。 

界面(包括帮助手册等) 汉文、藏文 汉文 汉文 

藏文Office与类似产品,包括微软Office产品、中 

科院软件所的藏文Ofifce,以及北大方正、华光的专业 

藏文断字 ● 口 ■ 

排版系统的具体比较如下。 

藏文 行末补字 ■ 口 口 

在办公软件市场中,微软Ofifce占有垄断地位。 

处理 图文混排 一 口 口 

但微软Ofifce2003本身基本不支持藏文相关的处理。 

汉藏英混排 一 口 口 

微软Ofifce2007也没有专门的藏文版本。尽管微软 

I本藏文数字 ● 口 口 

地化 

Office2007与微软Ofifce2003相比在藏文断字等方面 

藏文日期时间 ● 口 ■ 

有了一些改善,也支持了藏文日期时间和藏文艺术字, 

I 藏文艺术字 一 口 口 

但从总体上仍不能支持复杂的藏文处理和排版过程中 

功能 藏文项目符号/ 

编号 一 口 口 

遇到的问题,例如图文混排、汉藏英混排等。另外, 

 E

MSOfifee2007只支持藏文编码字符集一基本集,不支 

图1与MS办公软件的对比 

持藏文编码字符集国家标准扩A和扩B。 

4藏文自动排版技术 

中标普华藏文Ofifce被誉为全球第一款实用化的 

藏文的排版规则如下: 

藏文办公软件产品,不仅支持藏文编码字符集一基本 

每个藏文音节不可断字显示在两行,每行行末必 

集国际国家标准,而且支持藏文编码字符集(扩充集A 

须是以字分符为结束(段末除外);若藏文字符排到行 

和扩充集B准)国家标准。实现藏文自动排版和汉藏 

末为非字分符,则将这些非字分符移动到下一行,并断 

英文的混排功能、图文混排、藏文断字、行末补字等功 

行;行末对齐到行宽,即可选择补排字分符,直到行宽 

能。不仅实现藏文项目符号和编号、藏文时间、藏文日 

处为止(字符排版);又可选择调整本行的每个字符的 

期、藏文艺术字等藏文处理中常用的功能、汉藏界面的 

间距,以保证行末的对齐(字距排版);图文}昆排时,图 

转换功能,界面可随用户的需要切换成全藏文或全汉 

在语句中时,藏文词不可被分割在图的两侧显示,见 

文。藏文Ofifce可自由读写微软Ofifce的文档,并且 

图2。 

也可将其文档保存为微软的格式(doc、xls、ppt),实现 

j 1#鼻 羔 群 

与微软Ofifce格式和内容上的兼容。其操作界面和操 

■■T ■ j___=_一 

作方式与微软Ofifce基本一致,符合用户使用习惯。 

5弋 割 ’ 毒气’乏剞 荸 15 ’ ’ 写= ≮匿’ 藿 I 

与北大方正、华光等专业排版系统比较产品的定 

位不同,针对的目标用户是不同的。藏文Ofifce针对 

荟‘ 熹零1 i ≮’8 i 岛 ]‘5 ’下 ’ ’ 弓 圈鎏圈I圈_ll 

的是政府、教育、企业等领域的个人办公、文字处理的 

捌 魏 芎酉穹 ’ 。 己曼< 1’下 拳酉 碍弓’ /I 

用户;而方正、华光排版软件主要针对的是印刷行业中 

丐 两—磊丽夏 参 

的排版工作用户。与它们相比,藏文Ofifce更具普 

适性。 

图2藏文排版规则说明(字符排版) 

目前,国外或跨国厂商提供的中文版办公处理软 

件中,Microsoft的Ofifce无论是功能还是用户基础上 

在现有技术中,并没有专门处理藏文的计算机文 

都是其中的佼佼者。在支持藏语文字处理方面,目前 

档排版技术,只能是依靠手工调整的方式来进行排版, 

国外主要也是微软Ofifce针对中国的市场,提供了这 

如图3所示,用目前市面上的Ofifce等软件来编辑藏 

个方面的处理功能。以Microsoft的两个产品举例: 

文文档时,当编辑到行尾时,剩余的空间有时不能放下 

3.1 MS Ofifce2003比较:MS Office2003本身基本不 

整个藏文音节,就会出现一个音节部分显示在当前行, 

支持藏文相关的处理,中标普华藏文Ofifce在此方面 

剩余音节显示在下一行,这样造成了音节因显示在两 

比其具有优势。 

行而影响阅读,排版也不美观。即使有些嵌入的排版 

3.2与MS 0mce2007比较:就MS Office2007本身来 

小工具能够做到藏文的排版效果,但是也是手工的,每 

说,并不是为藏语用户量身定做的版本,而是在其中加 

次编辑文档都需要手工的去调用该工具来重新的对整 

入了对藏文的支持(主要是在Vista系统中区域选项 

个文档进行重新排版。如果需要拷贝排好版的内容, 

加入了藏语,在Office2007中加入了藏文断字)。 

粘贴后的文字中会包含许多排版时补充的“字分符”, 

需要再次的进行重新排版。 

74 

维普资讯

《西藏科技))2008年9期(总第186期) 信息技术 

(6)如果否,则判断该行中的剩余宽度是否大 

于零; 

(7)如果否,则返回步骤(3); 

(8)如果是,则根据该行中的剩余宽度大小进行 

藏文行尾补齐操作,并返回步骤(3)。 

其中,扫描文档中的藏文段落字符信息包括以下 

步骤: 

(1)系统获取藏文段落包含的文字串信息; 

(2)系统扫描该文字串信息,并记录每个字符的 

宽度。 

计算确定当前行的开始藏文字符、能够排下的藏 

文字符数和行末的藏文字符包括以下步骤: 

(1)计算当前行的宽度; 

(2)如果当前行为是第一行,则将该藏文段落文 

字串的第一个藏文字符作为当前行的开始藏文字符; 

如果当前行不是第一行,则将上一行的行末藏文字符 

的下一个字符作为当前行的开始藏文字符; 

(3)根据当前行的宽度,计算当前行能够排下的 

从当前行的开始藏文字符的字符数; 

(4)若行末的藏文字符为字分符、语句结束符或 

者该藏文段落的最后字符,保持该行末的藏文字符; 

(5)否则,从该行末的藏文字符向前扫描,直至遇 

到藏文字分符或藏文语句结束符为止,并将该藏文字 

分符或藏文语句结束符记录为该行末的藏文字符。 

藏文行尾补齐操作包括以下步骤,如图5所示。 

董 ’季 ‘罨“ 萼书秆妻 嚣=’ s《 ’《誊£ 季 ≤ 耄 墓 ≈蔷嚣 霉最 

蓦 鼍 鲁摹 毒 鬻享 ‘a ’囊 宣’《≮ 聋 # 辑镬 ‘ ’号 摹 鼍 } ‘蔗§ 

帮 ’罨鼍享撞并‘≈箍’ 蕃 罨矗 鑫港套 ’蘑 。美盎‘ c ,{ 

& 农 藿蠢 《毒 ’毒’罨 毒 都每弼‘璎’∞ 

毳‘: ‘誊 君 害 毒‘鬻 

亳=.’ 毫《 

图3非藏文版Offiee藏文排版的效果图 

总之,现有技术中存在如下缺陷: 

写藏文文档到行尾换行时,需要手工断字分行,手 

工补足字分符;修改已写好的文档时,需要再次对修改 

处后面的所有行进行手工断字分行,添加或删除行尾 

的字分符;拷贝一段多行的文字粘贴后,又需要删除手 

工的删除拷贝文字中的多余字分符,并再次手工进行 

段落的排版。 

由于存在以上各种缺陷,在办公软件中编辑藏文 

文档非常的费时费力,文档格式的正确性大为降低,造 

成了编辑藏文文档的效率非常低,给编辑藏文文档带 

来了很大不便,阻碍了藏文的信息化进程。 

为了克服上述现有技术中的缺点,需要研制一种 

适合于藏文自动化排版、运行性能稳定可靠、系统处理 

效率较高、适用范围较为广泛的计算机文档中实现藏 

文自动排版的方法。本方法流程如图4所示,主要包 

括以下步骤: 

(1)系统进行初始化操作; 

(2)扫描文档中的藏文段落字符信息; 

图4新的藏文自动排版解决方案流程图 

(3)以藏文字分符或者语句结束符对该藏文段落 

字符信息进行断字,并根据断字的结果计算确定当前 

行的开始藏文字符、能够排下的藏文字符数和行末的 

藏文字符; 

图5藏文行尾补齐操作流程图 

(4)判断该行末的藏文字符是否为段落结束 

字符; 

(5)如果是,则结束本藏文段落的排版; 

(1)获取该行末的藏文字符的宽度; 

(2)根据该行的剩余宽度计算出该行需要补足的 

字分符的个数; 

(3)采用虚拟插入方式将这些需要补足的字分符 

75 

维普资讯

信息技术 

插入到该行的行末位置。 

采用了上述方法的计算机文档中可以实现藏文自 

动排版,由于使用者在书写藏文文档到行尾换行时,系 

统能够自动断字分行,并补足字分符至行的宽度为止, 

完全不用手工干预。同时修改已写好的文档时,自动对 

从修改处到本段落的段尾进行排版,自动的增加或删除 

字分符,使每一行都保持对齐;而且在拷贝一段多行的 

文字时,由于插入字分符采用的是虚拟插入技术,这些 

《西藏科技 ̄2oo8年9期(总第186期) 

是计算机相关的术语,目前还没有国家标准,甚至在藏 

语流行地区也没有达成统一的认识或者标准。因此对 

于产品中的某些描述,在某些地域,还不能达到共识。 

这些都是尚需各方努力来解决的现实问题。 

5.2市场环境尚待进一步培育 

目前,藏族地区还有很多用户受到经济、文化等各 

个方面发展的限制,对于藏文的信息化还不够重视或 

者还不能够解决这个方面的问题,这些都在影响着本 

字分符可以显示、打印,拷贝时不会放入粘贴板中,粘贴 

时不会在文档的非行末处插人多余的字分符,粘贴后再 

自动地对自粘贴处到段尾进行排版,从而很好地解决了 

藏文信息处理中的藏文断字和分行的问题,而且这些操 

作无需人工干预,能够做到完全的自动处理,同时使得 

做出来的文档非常美观大方。不仅如此,该方法的运行 

性能稳定可靠,系统处理效率较高,适用范围较为广泛, 

不仅适合于藏文,而且还适合于其它类型的采用字分符 

进行文字分割的语言,为计算机信息化文档技术的广泛 

应用奠定了坚实的基础。(见图6、7) 

叮 静 蘑鑫 妻 

濑 商篷’鬻鱼 誓≮鼍 £ 晕 零 亳奄或 鼍 雷雹i 搿 j 专叠 

是 枣 ’ 。 ‘善 

截 鼍 可 ≮季 。季 q ‘ 可E麓≮妻搿 鬟 ’ 承 号麓 q 

蘑8 辩 ’察’ 《{ ’每嗣 《 誊 …。‘ 

守 号 霉 嘭 毒 耳 妻 誊 强 霉 。ffic 

套 宫 委 麓 《 可难 ‘五 ’耍 ‘ = 囊蠢‘5≤ ’幢娶 … 

《 3 簧 热’ 

图6字符排版效果 

守r檬 妻可 誓 。萋最 q毒 妻 雪 

最’ ’ 鬈 霉《 是搿 隶 

嚣1 可 嚣 截 R 葺 

藿 季 ’甍 枣 ≮i ’疆芦 鸯 噎i 瓣 夏l’ 鼍 { 

枣 瑟 鼍嚣‘ 跫气’馨气 妻 《霉 ’a ≤蕊‘季 粼 ‘ 

专譬 气’二!。 净 每 {呈 耄 。毒 垂麓 霹黾 。ffice睦麓 

銎 萤 谯鸯 奄 ‘ 辩 枣’ r蘑 ’ 差轰 ‘《 粼 盛 ≈’ 

韵 

图7字距排版效果 

5存在的问题 

5.1藏文相关标准尚需规范 

目前与藏文有关的国家标准主要是藏文键盘的分 

布标准和藏文字符编码标准;但是对于藏文术语,特别 

76 

产品今后的产业化发展步伐,市场环境尚待进一步培 

育和规范。只有在国家有关部门的积极引导下,市场 

环境才能够得到良好地培育。 

5.3 Office本身需要进一步完善 

需要根据用户反馈,开发并完善藏文特色的功能, 

突出西藏文化,包括藏文特色排版、具有藏文特点的模 

板、图库和实用工具等;需要完善藏语界面,推动藏文 

计算机术语的规范;需要配合藏区办公自动化对藏文 

办公软件进行接口封装,提供ActiveX、JavaBean和 

Plug—in等多种插件方式,便于与OA系统无缝集成。 

6 总结 

从上述论述中可以得出,中标普华藏文办公软件可 

以很好地支持藏文处理的需求:不仅实现了藏文排版和 

汉藏英文的混排功能,而且还实现了图文混排、行末补 

字处理等功能;不仅提供了汉藏界面的转换功能,界面 

可随用户的需要切换成全藏文或全汉文,还提供了全藏 

文的在线帮助、用户手册、高级帮助。实现了项目符号 

和编号、藏文数字等藏文本地化支持,是目前功能齐全、 

稳定和丰富的藏文办公软件,并具有明显优势。 

参考文献 

[1] 国家质量技术监督局.GB16959—1997信息技 

术一信息交换用藏文编码字符集一基本集[M].北 

京:中国标准出版社,1998—05 

[2] 林河水,程伟,等.一种ISO14651语义的藏文排 

序实现方法[J].中文信息学报,2000,18(5):36—41 

(3] 陈玉忠,俞士汶.藏文信息处理技术的研究现 

状与展望[J].中国藏学,2003(04) 

[4] 贾彦民,吴建,等.藏文支持在OpenOffice.org 

办公软件中的实现[J].中文信息学报,2005,20(3): 

49—54 

[5] 郭伟军,吴建,孙玉芳.基于OpenOfifce.org的 

民文办公套件的实现.计算机工程与设计,2006,27 

(7):1137—1139 

[6] 国家质量技术监督局.GB/T20542—2006.信息 

技术一信息交换用藏文编码字符集一扩充集A[M]. 

北京:中国标准出版社,2007—03 

编校陈庆芝 

本文标签: 排版软件办公字符技术