admin管理员组文章数量:1532657
2024年7月11日发(作者:)
维普资讯
《西藏科技)2008年9期(总第186期) 信息技术
藏文自动排版技术在
藏文办公软件中的实现
群诺 普顿 尼玛扎西
马发俊
(1西藏大学现代教育技术中心,西藏
拉萨850000)
(2西藏大学工学院,西藏拉萨
850000)
(3上海中标软件有限公司,上海
200030)
摘要:近几年来在我国政府和有关部委的大力支持下,藏文信息处理技术得到了空前的发展,基于国
际国家标准的藏文应用软件相继研发成功。本文就围绕国内外第一款基于藏文编码字符集(基本集、
扩充集A和B准)国际国家标准的中标普华藏文办公软件,重点论述了在藏文办公软件中解决藏文文
本自动断行的问题和藏文自动排版技术的实现方法。
关键词:藏文信息处理 国际国家标准 文本断行藏文自动排版
中图分类号:TP391
1 引言
云南等地的西藏中学使用,受到用户的广泛好评。
西藏作为中华民族大家庭的重要组成部分,具有
中标软件有限公司与西藏大学合作研制的中标普
丰富而独特的自然资源和文化资源。中央领导曾多次
华藏文Ofifce软件,具有以下明显的特点:
指出,在西藏开发建设的进程中,要把发展科技、教育
中标软件拥有成熟的中文办公软件产品和英文版
作为关键环节;要依靠先进的科学技术,以新的思路解
办公软件产品,藏文版Ofifce软件符合公司长期发展
决好能源、交通、通讯和信息等经济建设中迫切需要解
战略;与代表藏文信息处理技术领先水平的西藏大学
决的问题;在文化上要坚持继承发展,科学继承发展藏
合作,具有本土优势和技术优势;藏文Ofifce软件排版
民族传统文化,并加大对外宣传力度,使传统文化在新
方式上符合藏文习惯,并将制作符合国家藏文编码标
的历史条件下焕发出新的异彩,为西藏的两个文明建
准的四种常用字库,每种字库7000字左右。包括:白
设服务。因此我国一直致力于推动藏文信息技术的发
体、黑体、楷体、行体等,形成事实上的标准;制作符合
展,它关系到藏族地区的安定团结,经济发展,社会稳
国家藏文编码标准、使用方便的藏文输入法,使之普及
定。我国必须率先取得重大成果,向世界证明,藏族文
使用;实现产品化应用并将在西藏等藏语区进行产业
化在采用先进的科学技术中不断发展,藏族地区的经
化推广工作。
济将步人信息网络时代,这也是对西方反华势力攻击
藏文版Ofifce软件的成功推出,充分体现了西藏
我们毁灭藏族文化的有力回击。 大学在研发和推广本民族语言办公软件方面有着丰富
2中标普华藏文办公软件介绍
的经验和扎实的技术积累,为本项目的顺利完成打下
目前的办公软件市场,微软一直独领风骚。但微
坚实的基础。
软没有提供藏文版的办公软件产品。而中标普华藏文
3与同类产品间的综合比较
办公软件产品,是在国家有关部委和政府的大力支持 纵观国内外与藏文Ofifce类似的产品,除了不支
以及相关专家的通力合作,利用中标软件多年来办公
持或不完全支持藏文编码标准(基本集、扩A、扩B
软件研究成果为基础开发而来。该产品是全球首款基
准)外,在藏文排版的过程中,也存在一些缺点。一般
于藏文编码字符集(基本集、扩充集A和B准)国际国 在排版时,用户首先录入内容而不考虑排版规则,然后
家标准的纯藏文Ofifce办公软件产品,它提供汉藏界
再通过执行一段宏代码,对全文档进行排版。
面切换功能,支持汉藏英混排、图文混排等排版功能,
这种排版方式的缺点是:
可在文字处理、电子表格、演示文稿等各方面轻松完成
不能实现所见即所得的排版效果;排版所需时间
日常自动化办公任务;作为该领域中的佼佼者,目前该
根据文档包含对象的复杂性而不同;排版效果存在误
产品已经在西藏、青海的部分地区和北京、上海、常州、
差;不支持图文混排的效果;与运行一段宏代码来执行
73
维普资讯
信息技术
藏文排版功能的产品相比,藏文Ofifce的优点是所见
即所得的排版方式,速度快、排版效果好,支持图文混
《西藏科技}2008年9期(总第186期)
i 中标藏普文华O版 fice MS Ofice2oo3 MS 0fice2007
排等排版方式。
界面(包括帮助手册等) 汉文、藏文 汉文 汉文
藏文Office与类似产品,包括微软Office产品、中
科院软件所的藏文Ofifce,以及北大方正、华光的专业
藏文断字 ● 口 ■
排版系统的具体比较如下。
藏文 行末补字 ■ 口 口
在办公软件市场中,微软Ofifce占有垄断地位。
处理 图文混排 一 口 口
但微软Ofifce2003本身基本不支持藏文相关的处理。
汉藏英混排 一 口 口
微软Ofifce2007也没有专门的藏文版本。尽管微软
I本藏文数字 ● 口 口
地化
Office2007与微软Ofifce2003相比在藏文断字等方面
藏文日期时间 ● 口 ■
有了一些改善,也支持了藏文日期时间和藏文艺术字,
I 藏文艺术字 一 口 口
但从总体上仍不能支持复杂的藏文处理和排版过程中
功能 藏文项目符号/
编号 一 口 口
遇到的问题,例如图文混排、汉藏英混排等。另外,
E
MSOfifee2007只支持藏文编码字符集一基本集,不支
图1与MS办公软件的对比
持藏文编码字符集国家标准扩A和扩B。
4藏文自动排版技术
中标普华藏文Ofifce被誉为全球第一款实用化的
藏文的排版规则如下:
藏文办公软件产品,不仅支持藏文编码字符集一基本
每个藏文音节不可断字显示在两行,每行行末必
集国际国家标准,而且支持藏文编码字符集(扩充集A
须是以字分符为结束(段末除外);若藏文字符排到行
和扩充集B准)国家标准。实现藏文自动排版和汉藏
末为非字分符,则将这些非字分符移动到下一行,并断
英文的混排功能、图文混排、藏文断字、行末补字等功
行;行末对齐到行宽,即可选择补排字分符,直到行宽
能。不仅实现藏文项目符号和编号、藏文时间、藏文日
处为止(字符排版);又可选择调整本行的每个字符的
期、藏文艺术字等藏文处理中常用的功能、汉藏界面的
间距,以保证行末的对齐(字距排版);图文}昆排时,图
转换功能,界面可随用户的需要切换成全藏文或全汉
在语句中时,藏文词不可被分割在图的两侧显示,见
文。藏文Ofifce可自由读写微软Ofifce的文档,并且
图2。
也可将其文档保存为微软的格式(doc、xls、ppt),实现
j 1#鼻 羔 群
与微软Ofifce格式和内容上的兼容。其操作界面和操
■■T ■ j___=_一
作方式与微软Ofifce基本一致,符合用户使用习惯。
5弋 割 ’ 毒气’乏剞 荸 15 ’ ’ 写= ≮匿’ 藿 I
与北大方正、华光等专业排版系统比较产品的定
位不同,针对的目标用户是不同的。藏文Ofifce针对
荟‘ 熹零1 i ≮’8 i 岛 ]‘5 ’下 ’ ’ 弓 圈鎏圈I圈_ll
的是政府、教育、企业等领域的个人办公、文字处理的
捌 魏 芎酉穹 ’ 。 己曼< 1’下 拳酉 碍弓’ /I
用户;而方正、华光排版软件主要针对的是印刷行业中
丐 两—磊丽夏 参
的排版工作用户。与它们相比,藏文Ofifce更具普
适性。
图2藏文排版规则说明(字符排版)
目前,国外或跨国厂商提供的中文版办公处理软
件中,Microsoft的Ofifce无论是功能还是用户基础上
在现有技术中,并没有专门处理藏文的计算机文
都是其中的佼佼者。在支持藏语文字处理方面,目前
档排版技术,只能是依靠手工调整的方式来进行排版,
国外主要也是微软Ofifce针对中国的市场,提供了这
如图3所示,用目前市面上的Ofifce等软件来编辑藏
个方面的处理功能。以Microsoft的两个产品举例:
文文档时,当编辑到行尾时,剩余的空间有时不能放下
3.1 MS Ofifce2003比较:MS Office2003本身基本不
整个藏文音节,就会出现一个音节部分显示在当前行,
支持藏文相关的处理,中标普华藏文Ofifce在此方面
剩余音节显示在下一行,这样造成了音节因显示在两
比其具有优势。
行而影响阅读,排版也不美观。即使有些嵌入的排版
3.2与MS 0mce2007比较:就MS Office2007本身来
小工具能够做到藏文的排版效果,但是也是手工的,每
说,并不是为藏语用户量身定做的版本,而是在其中加
次编辑文档都需要手工的去调用该工具来重新的对整
入了对藏文的支持(主要是在Vista系统中区域选项
个文档进行重新排版。如果需要拷贝排好版的内容,
加入了藏语,在Office2007中加入了藏文断字)。
粘贴后的文字中会包含许多排版时补充的“字分符”,
需要再次的进行重新排版。
74
维普资讯
《西藏科技))2008年9期(总第186期) 信息技术
(6)如果否,则判断该行中的剩余宽度是否大
于零;
(7)如果否,则返回步骤(3);
(8)如果是,则根据该行中的剩余宽度大小进行
藏文行尾补齐操作,并返回步骤(3)。
其中,扫描文档中的藏文段落字符信息包括以下
步骤:
(1)系统获取藏文段落包含的文字串信息;
(2)系统扫描该文字串信息,并记录每个字符的
宽度。
计算确定当前行的开始藏文字符、能够排下的藏
文字符数和行末的藏文字符包括以下步骤:
(1)计算当前行的宽度;
(2)如果当前行为是第一行,则将该藏文段落文
字串的第一个藏文字符作为当前行的开始藏文字符;
如果当前行不是第一行,则将上一行的行末藏文字符
的下一个字符作为当前行的开始藏文字符;
(3)根据当前行的宽度,计算当前行能够排下的
从当前行的开始藏文字符的字符数;
(4)若行末的藏文字符为字分符、语句结束符或
者该藏文段落的最后字符,保持该行末的藏文字符;
(5)否则,从该行末的藏文字符向前扫描,直至遇
到藏文字分符或藏文语句结束符为止,并将该藏文字
分符或藏文语句结束符记录为该行末的藏文字符。
藏文行尾补齐操作包括以下步骤,如图5所示。
董 ’季 ‘罨“ 萼书秆妻 嚣=’ s《 ’《誊£ 季 ≤ 耄 墓 ≈蔷嚣 霉最
蓦 鼍 鲁摹 毒 鬻享 ‘a ’囊 宣’《≮ 聋 # 辑镬 ‘ ’号 摹 鼍 } ‘蔗§
帮 ’罨鼍享撞并‘≈箍’ 蕃 罨矗 鑫港套 ’蘑 。美盎‘ c ,{
& 农 藿蠢 《毒 ’毒’罨 毒 都每弼‘璎’∞
毳‘: ‘誊 君 害 毒‘鬻
亳=.’ 毫《
图3非藏文版Offiee藏文排版的效果图
总之,现有技术中存在如下缺陷:
写藏文文档到行尾换行时,需要手工断字分行,手
工补足字分符;修改已写好的文档时,需要再次对修改
处后面的所有行进行手工断字分行,添加或删除行尾
的字分符;拷贝一段多行的文字粘贴后,又需要删除手
工的删除拷贝文字中的多余字分符,并再次手工进行
段落的排版。
由于存在以上各种缺陷,在办公软件中编辑藏文
文档非常的费时费力,文档格式的正确性大为降低,造
成了编辑藏文文档的效率非常低,给编辑藏文文档带
来了很大不便,阻碍了藏文的信息化进程。
为了克服上述现有技术中的缺点,需要研制一种
适合于藏文自动化排版、运行性能稳定可靠、系统处理
效率较高、适用范围较为广泛的计算机文档中实现藏
文自动排版的方法。本方法流程如图4所示,主要包
括以下步骤:
(1)系统进行初始化操作;
(2)扫描文档中的藏文段落字符信息;
图4新的藏文自动排版解决方案流程图
(3)以藏文字分符或者语句结束符对该藏文段落
字符信息进行断字,并根据断字的结果计算确定当前
行的开始藏文字符、能够排下的藏文字符数和行末的
藏文字符;
图5藏文行尾补齐操作流程图
(4)判断该行末的藏文字符是否为段落结束
字符;
(5)如果是,则结束本藏文段落的排版;
(1)获取该行末的藏文字符的宽度;
(2)根据该行的剩余宽度计算出该行需要补足的
字分符的个数;
(3)采用虚拟插入方式将这些需要补足的字分符
75
维普资讯
信息技术
插入到该行的行末位置。
采用了上述方法的计算机文档中可以实现藏文自
动排版,由于使用者在书写藏文文档到行尾换行时,系
统能够自动断字分行,并补足字分符至行的宽度为止,
完全不用手工干预。同时修改已写好的文档时,自动对
从修改处到本段落的段尾进行排版,自动的增加或删除
字分符,使每一行都保持对齐;而且在拷贝一段多行的
文字时,由于插入字分符采用的是虚拟插入技术,这些
《西藏科技 ̄2oo8年9期(总第186期)
是计算机相关的术语,目前还没有国家标准,甚至在藏
语流行地区也没有达成统一的认识或者标准。因此对
于产品中的某些描述,在某些地域,还不能达到共识。
这些都是尚需各方努力来解决的现实问题。
5.2市场环境尚待进一步培育
目前,藏族地区还有很多用户受到经济、文化等各
个方面发展的限制,对于藏文的信息化还不够重视或
者还不能够解决这个方面的问题,这些都在影响着本
字分符可以显示、打印,拷贝时不会放入粘贴板中,粘贴
时不会在文档的非行末处插人多余的字分符,粘贴后再
自动地对自粘贴处到段尾进行排版,从而很好地解决了
藏文信息处理中的藏文断字和分行的问题,而且这些操
作无需人工干预,能够做到完全的自动处理,同时使得
做出来的文档非常美观大方。不仅如此,该方法的运行
性能稳定可靠,系统处理效率较高,适用范围较为广泛,
不仅适合于藏文,而且还适合于其它类型的采用字分符
进行文字分割的语言,为计算机信息化文档技术的广泛
应用奠定了坚实的基础。(见图6、7)
叮 静 蘑鑫 妻
濑 商篷’鬻鱼 誓≮鼍 £ 晕 零 亳奄或 鼍 雷雹i 搿 j 专叠
是 枣 ’ 。 ‘善
截 鼍 可 ≮季 。季 q ‘ 可E麓≮妻搿 鬟 ’ 承 号麓 q
’
蘑8 辩 ’察’ 《{ ’每嗣 《 誊 …。‘
守 号 霉 嘭 毒 耳 妻 誊 强 霉 。ffic
套 宫 委 麓 《 可难 ‘五 ’耍 ‘ = 囊蠢‘5≤ ’幢娶 …
《 3 簧 热’
图6字符排版效果
守r檬 妻可 誓 。萋最 q毒 妻 雪
最’ ’ 鬈 霉《 是搿 隶
嚣1 可 嚣 截 R 葺
藿 季 ’甍 枣 ≮i ’疆芦 鸯 噎i 瓣 夏l’ 鼍 {
枣 瑟 鼍嚣‘ 跫气’馨气 妻 《霉 ’a ≤蕊‘季 粼 ‘
专譬 气’二!。 净 每 {呈 耄 。毒 垂麓 霹黾 。ffice睦麓
銎 萤 谯鸯 奄 ‘ 辩 枣’ r蘑 ’ 差轰 ‘《 粼 盛 ≈’
韵
图7字距排版效果
5存在的问题
5.1藏文相关标准尚需规范
目前与藏文有关的国家标准主要是藏文键盘的分
布标准和藏文字符编码标准;但是对于藏文术语,特别
76
产品今后的产业化发展步伐,市场环境尚待进一步培
育和规范。只有在国家有关部门的积极引导下,市场
环境才能够得到良好地培育。
5.3 Office本身需要进一步完善
需要根据用户反馈,开发并完善藏文特色的功能,
突出西藏文化,包括藏文特色排版、具有藏文特点的模
板、图库和实用工具等;需要完善藏语界面,推动藏文
计算机术语的规范;需要配合藏区办公自动化对藏文
办公软件进行接口封装,提供ActiveX、JavaBean和
Plug—in等多种插件方式,便于与OA系统无缝集成。
6 总结
从上述论述中可以得出,中标普华藏文办公软件可
以很好地支持藏文处理的需求:不仅实现了藏文排版和
汉藏英文的混排功能,而且还实现了图文混排、行末补
字处理等功能;不仅提供了汉藏界面的转换功能,界面
可随用户的需要切换成全藏文或全汉文,还提供了全藏
文的在线帮助、用户手册、高级帮助。实现了项目符号
和编号、藏文数字等藏文本地化支持,是目前功能齐全、
稳定和丰富的藏文办公软件,并具有明显优势。
参考文献
[1] 国家质量技术监督局.GB16959—1997信息技
术一信息交换用藏文编码字符集一基本集[M].北
京:中国标准出版社,1998—05
[2] 林河水,程伟,等.一种ISO14651语义的藏文排
序实现方法[J].中文信息学报,2000,18(5):36—41
(3] 陈玉忠,俞士汶.藏文信息处理技术的研究现
状与展望[J].中国藏学,2003(04)
[4] 贾彦民,吴建,等.藏文支持在OpenOffice.org
办公软件中的实现[J].中文信息学报,2005,20(3):
49—54
[5] 郭伟军,吴建,孙玉芳.基于OpenOfifce.org的
民文办公套件的实现.计算机工程与设计,2006,27
(7):1137—1139
[6] 国家质量技术监督局.GB/T20542—2006.信息
技术一信息交换用藏文编码字符集一扩充集A[M].
北京:中国标准出版社,2007—03
编校陈庆芝
版权声明:本文标题:藏文自动排版技术在藏文办公软件中的实现 内容由热心网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:https://m.elefans.com/xitong/1720629668a834767.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论