admin管理员组

文章数量:1540645

2024年6月22日发(作者:)

(19)中华人民共和国国家知识产权局

(12)发明专利说明书

(21)申请号 CN2.7

(22)申请日 2009.04.28

(71)申请人 鼎生科技(北京)有限公司

地址 100084 北京市海淀区清华大学学研大厦A1010室

(72)发明人 马斌 王靖波 韩国恺 夏红伟

(74)专利代理机构 北京海虹嘉诚知识产权代理有限公司

代理人 闫强

(51)

G06F3/023

权利要求说明书 说明书 幅图

(10)申请公布号 CN 101526857 A

(43)申请公布日 2009.09.09

(54)发明名称

方法

(57)摘要

为了能够在信息处理设备上方便地

一种在信息处理设备上输入汉字的

输入生僻字,本发明提供了一种在信息处

理设备上输入汉字的方法,包括:显示通

过所述信息处理设备的输入装置输入的对

目标汉字的描述;从所述描述中提取目标

汉字的组成部分;在信息处理设备的显示

装置上显示包含所述组成部分的汉字;根

据来自信息处理设备输入装置的选择信

号,从所述显示的汉字中选择目标汉字。

本发明可以广泛应用于在信息处理设备上

输入生僻汉字。

法律状态

法律状态公告日

法律状态信息

法律状态

权 利 要 求 说 明 书

1、一种在信息处理设备上输入汉字的方法,其特征在于包括如下步骤:

A、显示通过所述信息处理设备的输入装置输入的对目标汉字的描述;

B、从步骤A所述描述中提取目标汉字的组成部分;

C、在信息处理设备的显示装置上显示包含步骤B所述组成部分的汉字;

D、根据来自信息处理设备输入装置的选择信号,从步骤C所述显示的汉字中选择

目标汉字。

2、根据权利要求1所述在信息处理设备上输入汉字的方法,其特征在于步骤A所

述对目标汉字的描述为一段语句,步骤B通过以下步骤实现:

B1、解析步骤A所述描述的语句结构,并将解析得到的语句结构类型与预存的语

句结构类型比较;

B2、从与预存的语句结构类型一致的步骤A所述描述中提取目标汉字的组成部分。

3、根据权利要求2所述在信息处理设备上输入汉字的方法,其特征在于所述语句

中包括如下一个或多个符号:逻辑加、逻辑减、逻辑乘、通配符;其中

逻辑加符号表示连接逻辑加符号两边的汉字的组成部分,目标汉字包括全部所述若

干组成部分;

逻辑减符号表示连接逻辑减符号两边的汉字的组成部分,目标汉字包括逻辑减符号

左侧连接的汉字组成部分,且不包括逻辑减符号右侧连接的汉字组成部分;

逻辑乘符号表示连接逻辑乘符号左侧的汉字的组成部分和右侧的数字,目标汉字包

括右侧数字个左侧的汉字组成部分;

通配符表示单个任意汉字组成部分,和其他汉字组成部分组合被识别为对目标汉字

的描述。

4、根据权利要求1所述在信息处理设备上输入汉字的方法,其特征在于步骤A所

述对目标汉字的描述通过以下步骤实现:

A1、在信息处理设备的显示装置上显示可选择的汉字的组成部分,及可选择的连

接汉字组成部分的逻辑符号;

A2、通过信息处理设备的输入装置选取的所述组成部分或所述组成部分与所述逻

辑符号的组合被识别为对目标汉字的描述。

5、根据权利要求4所述在信息处理设备上输入汉字的方法,其特征在于所述逻辑

符号包括如下一个或多个符号:逻辑加、逻辑减、逻辑乘、通配符;其中

逻辑加符号表示连接逻辑加符号两边的汉字的组成部分,目标汉字包括全部所述若

干组成部分;

逻辑减符号表示连接逻辑减符号两边的汉字的组成部分,目标汉字包括逻辑减符号

左侧连接的汉字组成部分,且不包括逻辑减符号右侧连接的汉字组成部分;

逻辑乘符号表示连接逻辑乘符号左侧的汉字的组成部分和右侧的数字,目标汉字包

括右侧数字个左侧的汉字组成部分。

6、根据权利要求4或5所述在信息处理设备上输入汉字的方法,其特征在于还包

括如下步骤:

A3、通过信息处理设备的输入装置输入的描述汉字组成部分的语句被识别;

其中,所述描述汉字组成部分的语句被识别的步骤如下:

解析所述语句的语句结构,并将解析得到的语句结构类型与预存的语句结构类型比

较;

从与预存的语句结构类型一致的所述语句中提取汉字组成部分。

7、根据权利要求6所述在信息处理设备上输入汉字的方法,其特征在于步骤A3

中所述语句中包括通配符,通配符表示单个任意汉字组成部分,和其他汉字组成部

分组合被识别为对目标汉字的描述。

说 明 书

技术领域

本发明涉及一种输入汉字的方法,特别是在具有输入装置和显示装置的信息处理设

备上输入汉字的方法。

背景技术

汉字的数量非常大,仅GB18030字符集中就有两万多个汉字。但是人们日常使用

的汉字却只有几千个,其余不常使用的汉字对大多数人来说都属于生僻字,往往不

知道该字的发音。

随着电子信息技术的发展,各种信息处理设备已被广泛使用,如个人电脑、移动电

话、电子词典等。在这些信息处理设备上输入汉字时,如果仅知道上述生僻字的字

形而需要输入,一般来说有两种办法:一是人工查询字典识别该字后再用拼音输入

法进行输入操作;或直接采用基于字形的输入法(如五笔字型输入法)输入该生僻字。

上述两种方法都有不方便之处,查字典费时费力,且很多情况下人们没有随身携带

厚重字典的习惯;基于字形的输入法并不为多数人使用,大多数人还是使用拼音输

入法,因此第二种方法对于很多人来说并不可行。

发明内容

为了能够在信息处理设备上方便地输入生僻字,本发明提供了一种在信息处理设备

上输入汉字的方法,该方法基于现有的汉字输入法在信息处理设备上输入对目标汉

字的描述,信息处理设备从该描述中提取目标汉字的组成部分,显示包含所述组成

部分的汉字供选择输入。

本发明的技术方案如下:

一种在信息处理设备上输入汉字的方法,包括如下步骤:

A、显示通过所述信息处理设备的输入装置输入的对目标汉字的描述;

B、从步骤A所述描述中提取目标汉字的组成部分;

C、在信息处理设备的显示装置上显示包含步骤B所述组成部分的汉字;

D、根据来自信息处理设备输入装置的选择信号,从步骤C所述显示的汉字中选择

目标汉字。

步骤A所述对目标汉字的描述为一段语句,步骤B通过以下步骤实现:

B1、解析步骤A所述描述的语句结构,并将解析得到的语句结构类型与预存的语

句结构类型比较;

B2、从与预存的语句结构类型一致的步骤A所述描述中提取目标汉字的组成部分。

所述语句中可以包括如下一个或多个符号:逻辑加、逻辑减、逻辑乘、通配符;其

逻辑加符号表示连接逻辑加符号两边的汉字的组成部分,目标汉字包括全部所述若

干组成部分;

逻辑减符号表示连接逻辑减符号两边的汉字的组成部分,目标汉字包括逻辑减符号

左侧连接的汉字组成部分,且不包括逻辑减符号右侧连接的汉字组成部分;

逻辑乘符号表示连接逻辑乘符号左侧的汉字的组成部分和右侧的数字,目标汉字包

括右侧数字个左侧的汉字组成部分;

通配符表示单个任意汉字组成部分,和其他汉字组成部分组合被识别为对目标汉字

的描述。

步骤A所述对目标汉字的描述还可以通过以下步骤实现:

A1、在信息处理设备的显示装置上显示可选择的汉字的组成部分,及可选择的连

接汉字组成部分的逻辑符号;

A2、通过信息处理设备的输入装置选取的所述组成部分或所述组成部分与所述逻

辑符号的组合被识别为对目标汉字的描述。

所述逻辑符号包括如下一个或多个符号:逻辑加、逻辑减、逻辑乘、通配符;其中

逻辑加符号表示连接逻辑加符号两边的汉字的组成部分,目标汉字包括全部所述若

干组成部分;

逻辑减符号表示连接逻辑减符号两边的汉字的组成部分,目标汉字包括逻辑减符号

左侧连接的汉字组成部分,且不包括逻辑减符号右侧连接的汉字组成部分;

逻辑乘符号表示连接逻辑乘符号左侧的汉字的组成部分和右侧的数字,目标汉字包

括右侧数字个左侧的汉字组成部分。

前述在信息处理设备上输入汉字的方法,还包括如下步骤:

A3、通过信息处理设备的输入装置输入的描述汉字组成部分的语句被识别;

其中,所述描述汉字组成部分的语句被识别的步骤如下:

解析所述语句的语句结构,并将解析得到的语句结构类型与预存的语句结构类型比

较;

从与预存的语句结构类型一致的所述语句中提取汉字组成部分。

步骤A3中所述语句中包括通配符,通配符表示单个任意汉字组成部分,和其他汉

字组成部分组合被识别为对目标汉字的描述。

本发明的技术效果:

本发明的技术方案实现了对目标汉字描述的识别,从描述中提取目标汉字的组成部

分,获得目标汉字组成部分后可以显示出包含这些组成部分的汉字,操作者可以选

择显示的汉字中的特定汉字进行输入,实现了在信息处理设备上对生僻汉字的输入。

本发明进一步利用自然语言识别技术对描述目标汉字的语句进行解析,解析结果与

预存的语句结构类型进行对比,对比一致的描述语句可以从中提取目标汉字的组成

部分。

附图说明

图1为本发明输入汉字方法的流程图。

图2为当对目标汉字的描述为一语句时处理方法的流程图。

图3为对描述一个汉字的语句进行解析的结果。

图4为对目标汉字描述的一个实例。

具体实施方式

在本部分对本发明的技术方案通过实例进行详细说明。

图1显示了本发明的主要步骤,对各步骤说明如下:

显示对目标汉字的描述,是指在信息处理设备的显示装置(如液晶显示屏)上显示对

目标汉字的描述。对目标汉字的描述通过信息处理设备的输入装置输入,如利用现

有的拼音输入法输入对目标汉字描述的语句。对目标汉字的描述的形式可以有多种,

例如本发明提及的用自然语言的语句作为描述的方式,或者如图4所示的描述形式。

提取目标汉字的组成部分,是指从上述显示的对目标汉字的描述中提取目标汉字的

组成部分,本发明中所说的汉字组成部分是指汉字的偏旁部首等一个汉字中相对独

立的部分。提取目标汉字的方法根据对目标汉字的描述不同而不同,最简单的方法

就是列出汉字的组成部分,被选中的汉字组成部分被直接提取出来;比较复杂的是

用一句话描述目标汉字的情况,具体的处理方法会在对图2和图3的说明中阐述。

显示包含所述组成部分的汉字,是指提取到目标汉字的组成部分后,从字库中选取

包含提取到的汉字组成部分的汉字并在信息处理设备的显示装置上显示。当然,这

一字库需要对每个汉字包含的组成部分建立索引,以利于在字库中检索,这可以利

用现有技术实现,在这里不进行详细说明。

选择目标汉字,上一步骤显示的汉字是所有包含有提取到的汉字组成部分的汉字,

其中会包括目标汉字(操作者希望选择实现输入的汉字),这些汉字在显示的同时被

赋予一个选择标记,在信息处理设备的输入装置上的一个操作与选择标记之间通过

软件设置建立对应关系,这样可以在操作信息处理设备的输入装置上操作选择希望

得到的汉字,实现对生僻汉字的输入。

图2具体说明了当对目标汉字的描述为一句话时提取目标汉字的组成部分的步骤。

以下对各步骤进行详细说明。

解析描述的语句结构,对描述目标汉字的这一语句进行解析,得到这一语句的结构

类型。图3显示了一个对语句进行解析的实例,需要解析的一句话是“三个牛是什

么字?”,对这句话进行分解,分解成单个字或词,根据字、词进行逐步的分析,

具体分析的过程如图3所示。“三个”是“牛”字的数量限定词,“是什么字”属于疑问

短语而不是真正要查询的字的成分描述。这种类型的语句可以从语法规则上总结为

“重复结构+可选的疑问短语”,使用上下文无关文法可以描述这种语言规则。上下

文无关文法是计算机处理自然语言中早已被广泛使用的一种技术,是一种形式语言

的描述方法。大多数程序设计语言的语法都是通过上下文无关文法来定义的。

本发明中描述目标汉字组成部分的语句中可以包括逻辑符号和通配符,以简化描述

语句,提高效率。具体说明如下:

逻辑加符号表示连接逻辑加符号两边的汉字的组成部分,目标汉字包括全部所述若

干组成部分;

逻辑减符号表示连接逻辑减符号两边的汉字的组成部分,目标汉字包括逻辑减符号

左侧连接的汉字组成部分,且不包括逻辑减符号右侧连接的汉字组成部分;

逻辑乘符号表示连接逻辑乘符号左侧的汉字的组成部分和右侧的数字,目标汉字包

括右侧数字个左侧的汉字组成部分;

通配符表示单个任意汉字组成部分,和其他汉字组成部分组合被识别为对目标汉字

的描述。

以下用+代表逻辑加符号,用-代表逻辑减符号,×代表逻辑乘符号。

对上述语句类型举例说明:

口+口,描述的是吕字或包含吕字的汉字。

牛×3,描述的是犇字。

主-丶,描述的是王字。

设“?”为通配符,辛+?+辛表示“辨,辩,辮,辯,辬”等字。

解析得到的语句结构类型与预存的语句结构类型比较。通过对可能的表述汉字查询

的语句进行总结,就可以得到语句结构类型库,将语句结构类型库作为预存的语句

结构类型,对应语句结构类型库中的每个语句结构类型设定对应的提取汉字组成部

分的规则。将图3解析得到的语句结构与预存的语句结构类型进行对比,如果找到

一致的语句结构类型,则利用该语句结构类型对应的提取汉字组成部分的规则提取

目标汉字的组成部分,如“牛”、“牛”和“牛”。然后可以接续到图1所示的“显示包

含所述组成部分的汉字”步骤完成对生僻汉字的输入。如果对一句话解析得到的语

句结构类型没有在预存的语句结构类型找到一致的对象,则这一句话不被作为输入

汉字的依据。

以下例举一些常用的表述汉字查询的语句,用于构建语句结构类型库:

●左面是提手旁,右面是温的右边,这是什么字?【揾】

●左边是个女字,右边的上边是口,下边是月,是什么字?【娟】

●上面是竹字头,下面是一个双人旁和走字怎么读?【簁】

●三个牛是什么字?【犇】

●骨字右边一个各是什么字?【骼】

●门字里面两个口念什么?【闾】

●左右(三点水,生)【泩】

●上下(左右(声,没的右边),耳)【聲】

●三横一竖【丰】

●卷字外面是国的外边,是什么字?【圈】

●口里面一个玉,是啥字?【国】

●广字下面一个林【麻】

语句结构类型库可以根据自然语言的发展进行扩充,以方便使用者在输入汉字描述

时具有更大的自由度。

图4显示了对目标汉字描述的一个实例。图4是通过软件实现在信息处理设备的显

示装置上显示的一个图形界面,类似于计算器。图形界面上的按键中有部分代表可

选择的汉字的组成部分,还有代表多个汉字的组成部分之间关系的符号按键,如代

表逻辑加符号的“+”。通过信息处理设备的输入装置对图形界面上的按键进行点选

操作,操作得到的表达目标汉字有两种形式:如果只点选了一个单一代表汉字组成

部分的按键,即表明该组成部分本身就是一个需要输入的汉字或需要显示出所有包

括这一组成部分的汉字供选择进行输入;另一种形式是汉字组成部分与“+”结合,

代表目标汉字包括两个或两个以上组成部分。上述描述方式对于提取汉字组成部分

来说比较容易实现,只要直接提取除“+”外的所有内容作为目标汉字组成部分即可。

除了“+”外,还可以使用上述的“-”、“×”和通配符。

图4所示的描述方式还可以直接利用图2所示的方法对语句进行解析并提取汉字组

成部分。

本文标签: 语句输入目标描述设备