黑马公司

 黑马编校系统

首页|新闻中心|公司简介|软件产品|购买方法|重点方案|校对服务|典型用户|技术支持|代理方正|下载中心|人物与著述|交流|论坛

拼音整句输入的研究热点

北京黑马飞腾科技有限公司

 

摘要:拼音整句输入正在逐渐成为市场主流,其核心是语料库技术。众多的研究者在以往的工作中,注重了提高音字转换准确率,忽略了使用者本身对拼音掌握的情况。对拼音字串进行多元语法分析,针对性结合使用者容易拼错的拼音进行处理,可以显著地自动纠正大部分错拼的情况。采用前相关技术提供拼音修改候选,可以明显减少拼音候选字的翻页。

作者认为,完全使用声母输入中文的系统将逐渐实用。

 

Abstract:

Pinyin to Chinese sentence input method is becoming the main stream of market, its kernel is based on corpus technology. Many researchers focus on accurate of Pinyin to Chinese, but ignore the probable spelling errors of ordinary users. Multi-ground grammar process of Pinyin consecutive characters may correct more than half of common error spelling Pinyin . Providing candidate Chinese depending on the front one char do better than ever. Author predict, Chinese input software that only use the first Pinyin will become popular at soon future.

 

关键词:拼音流,智能型汉字输入,语句输入

Keywords:Pinyin flows, intelligent Chinese input, sentence input

 

 

在西方人设计的键盘上,中文输入比较字母输入无论在速度上、易学性、易操作性上,均逊人一筹。二十年来,中国的科学工作者为此付出了无数心血。

一般认为[1],中文输入经历了三个阶段,(1)整字输入(2)拆字编码(3)拼音转换。

句式输入是拼音转换的一种较高级的形式,当前的研究热点在于:

(1)解决拼音不好的问题;

(2)提高修改效率;

(3)提高转换准确率。

 

降低对拼音的要求

1. 中国人掌握拼音的现状

据叶斌等研究[2],中国人拼音准确率平均81%,其中较好的在90%以上的有:长春,辽宁,北京,天津等,较差的在70%以下的有:浙江,上海,福建等。

无论是南方人还是北方人,ch-c,sh-s,zh-z, an-ang,en-eng, in-ing等,都是容易拼错的拼音。

多数人不喜欢使用拼音的音调。

2. 解决方法一,只使用声母

如果声母不需要区分c-ch,s-sh,z-zh,那么使用者对声母掌握的准确度比要求使用全拼或双拼高多了。

这种办法,在以往的各种输入法软件里都有采用,但是效果不大。因为,如果使用者整句话都使用声母的话,转换准确率不会太高,

场上目前最流行的两种句式输入,经我初步测试,在只输入声母且不加任何人工干预的情况下:

 

只输声母目前句式转换的准确性

系统

报纸头版文章

散文

流行句式A

62.5

30.5

流行句式B

23.1

11.8%

在输入法产品方面,一般认为,转换准确率至少要在90%以上,才会有正面的反馈。

因此,目前各系统都建议用户选择常用词组使用声母输入。

完全使用拼音声母来输入中文,需要更强大的计算机处理能力和更先进的软件支持。

3. 解决方法二,系统容错

容错的结果,在按单字或词组输入时,方便了用户选择,并没有带来明显的弊端。

比如用户输入:shuan:,,,,,,,,...

将一些拼音与“shuan”接近的汉字也提供用户选择。

但是,当我们在按整句输入文字时,容错会降低系统转换的准确性。

假设一个使用者,他输入的拼音完全正确,但由于系统考虑了拼音容错的转换处理,因此增加了转换结果的可能性,转换的结果当然不如没考虑容错的准确性高了。

 

容错技术带来转换准确率的下降

流行句式B

转换准确率

使用“南方音模糊”

79.86

不使用“南方音模糊”

84.56

因此,在句式输入法中,简单地接受容错音,会明显地降低音字转换准确率,可高达5%之多。

 

4. 解决方法三,自动纠错

句式输入有一个很好的优势,就是可以容易地取到拼音的上下文。

采用拼音字间多元语法纠错模型,可以有效地纠正拼音常见错误。

 具体做法:

(1) 我们对6亿汉字进行了拼音的填写

采用自动填写和人工填写相结合。

(2) 定义拼音易错表

形式如:zong-zhong,min-ming130多个音对。

(3) 提取高频拼音字串

提取频率在1000次以上的拼音字串

(4) 生成纠错对照表

纠错对照表

拼音长度

纠错对数目

例子:纠错对 误纠率

2

7,487

ce+sang->che+shang 0.001

3

 98,314

can+ping+tong->chan+pin+tong 0.0005

4

170,169

zhong+guo+ren+ming->zhong+guo+ren+min 0.0004

5

 29,416

bao+hu+zi+si+can->bao+hu+zhi+shi+chan 0.0001

6

 32,065

cai+qu+duo+zong+xin+si->cai+qu+duo+zhong+xing+shi 0.0001

7

7,636

bu+yi+luo+shi+ai+li+shi->bu+yi+nuo+si+ai+li+si 0.0001

合计

345,087

 

(5)纠错效果

流行句式A

报纸头版文章(纠错率)

散文

在错误定义表内的拼音

74.3

65.2

占使用者整个拼错的

51.8

47.9%

从实际纠错效果来看,纠错率是较高的,平均起来会影响到3-5%的转换效果。如果今后进一步加大错误定义表的范围,纠错效果会有更明显的提高。

6)误纠率的控制

zhong+guo+ren+ming -> zhong+guo+ren+min0.0004

中国人中国人民

从统计角度看,有0.04%的误纠可能性,但比较目前整句输入本身的转换准确率,

我们认为把误纠率定在0.1%是较为合适的,所造成的误纠的情况基本上可以忽略不计。

当然,软件也采用容许用户选择,并提供误纠后的修改功能为弥补手段。

 

智能修改技术

拼音整句输入的准确性再高,也不能达到100%,因此,研究一些有效的提高用户修改的技术手段就是有益的。

(1) 光标定位

当拼音到汉字的转换结束后,将光标自动停留在可能转换有错误的汉字上,

方便用户修改。系统在设计时,拼音转换汉字使用的词组或搭配数据保留有牢度信息,因此,可以首先定位在转换牢度最小的汉字上。

(2) 相关候选

当光标停留在一个汉字下面,一般来说,大多数软件会根据这个汉字的拼音提供候选汉字或词组,并采用高频先见和动态调频的技术。

而我们则增加利用了前一个汉字的相关性,比较明显地改进了候选汉字的效率。

如:

原文, 我的名字叫王wodemingzijiaowangqiang

转换结 我的名字叫王强

(使用前相关的前10强墙抢嫱樯锵,枪腔羟

(未使用前相关的前10强墙抢枪腔呛羌

 

测试结果:

a. 99.5%的可能性,在前10个提供候选,即不需要翻页;

b. 98%的可能性,在前5个字提供候选,即用户只用盯着前面几个字;

 

(3) 自动调整

当用户做过修改以后,系统将根据新的信息进行局部重新运算,结果可能是引起这个被修改汉字以后的字串相应被修改。

在大多数情况下,自动调整的结果会使用户只需修改一个汉字就改正了两三个字,提高了修改效率。

例如:

 qingbashoujuqilai!

第一次转请把收据起来 修改“收”为“手”

第二次转 请把手起来“据”自动调整为“举”

 

提高转换准确率

目前市面的智能型输入产品的转换准确率已经提高到了一个前所未有的高度,经我初步测试:

市面句式输入产品不带音调测试

输入法

报纸

散文

流行句式A

94.12

82.60

流行句式B

92.02

78.13%

 

(1) 加大基础词库和相关知识库

纯粹的加大基础词库,是不会对提高音字转换准确率有什么影响的,但是,同时加大相关词组及其搭配关系,会对转换准确性有一定的影响。

(2) 加挂专业词库或相关知识库

允许用户自己添加词库,是解决转换专业性文章的一个办法。

(3) 自学习

当用户进行修改后,系统可以取得被修改处的有关字串关系,

例如:潜力群是个有激情的老教授,

理群是个有激情的老教授

qian+li+qun=钱理群

qian+li+qun+shi=钱理群是

qian+li+qun+shi+ge=钱理群是个

 

经过一定的频率统计,系统就积累了一些自学习词条。

合遗忘机制,自学习的条目对用户特有风格的文章有提高转换准确率的作用。

 

展望

随着PC机处理能力的提高,中文语料库建设的发展,智能输入技术的强化和细化,未来几年,我们预见:

1将会有只需输入拼音声母的系统达到实用化程度(90%以上转换准确率);

2无声调的拼音句式输入系统转换准确率达到未采用智能技术形码的水平;

因此,输入效率接近传统形码;

3形码采用智能技术,主要致力于降低输入错误率。

 

 参考文献:

[1] 利用汉字的内在规律,改进中文的输入技术 周有光《计算机时代的汉语和汉字研究》(清华大学出版社)

[2] 容错性拼音汉字转换系统---一些调查及基本方叶斌等 《语言工程》(清华大学出版社)

 

 

关于黑马|联系我们|工作机会|本站导航             北京黑马飞腾科技有限公司 版权所有 © 1993-2006

 

地址:北京市西直门北大街45号时代之光2号楼1904室   邮编:100044

电话:(010)62258145、62221795、13701208084   传真:(010)62258145

电子邮件:support@bjhm.com.cnshengsu@publicb.bta.net.cn

QQ: 654709091、178766458