自定义重点词监控(XXXX报定制开发)
---黑马校对软件取得重大技术突破
王励
北京黑马飞腾科技有限公司
一、项目开发背景
报纸几经扩版、版面的数量不断增多、出报周期缩短,出错概率也相应增大了许多,报社随时面临着发生较大的政治性差错、重大编校差错的危险,特别是2005年南昌晚报连续发生两次重大编校错误事件,给报社领导、采编、质检和校对工作人员很大压力。
对于这些差错,已有的人工质量检查流程由于十分依赖于分散的个人知识、经验和精神状态,因此在专职校对员校对时间非常紧张的情况下,人工发挥的不稳定性难免会造成一时疏忽,致使见报错误难以杜绝。
因此,在黑马校对原有校对功能的基础上定制开发了重点词监控功能,使得报社在原有的人工质检流程基础上,增加一道防线,协助人工进行检查,将分散的个人知识和经验积累起来,最大限度地杜绝报纸中的硬差错,特别是政治性差错和重大编校差错,是十分必要的。
这将使得黑马电脑自动校对不仅限于常用错别字的检查,而是在报社用户最重视的重大差错上严格把关,真正满足客户需要。
二、定制开发目标
应黑马校对用户XXXX报所提出的需求,我们确定重点词监控的目标是:
可以由用户自定义和修改,这一点非常重要,它使得校对功能可以得到很大的扩展和增强。用户只需要给出正确词汇,如:“喻宝才总经理”,软件就能自动实现相关错误检查:
例错:“喻保才总理”、“喻保才经理”、“余保才总经理”、“喻宝才总经理”、“喻保财总经理”等错误都将会被检查出来,并且给出正确的建议。
重点词语库的建立可包含:
a.各级领导人名字、职务;
b.各级机构部门的名称;
c.主要单位名等。
只要维护好重点词语库,这项功能就可以大大减小出现重大编校差错的可能。
图为实际工作界面网站上发现的错误实例:

三、技术难点及独具领先技术
重点词监控,是黑马校对最新研究成功的关键模块之一。
关键技术1:专词识别的触发训练成果(这对控制误报、提高检查准确性和速度非常重要)
例:用户在重点检查词语库中增加词条“李鸿忠”和“李利民”;
市委书记、市人大常委会主任李红忠率领深圳市代表团,圆满结束对英国为期4天的访问,带着丰硕的出访成果……
李立民院长和班子一班人将华东设计院的现状定位于在“夹缝中”求生存。
删除线是前触发关键词,下划线是后触发关键词,夹在前后触发关键词之间的字符将被识别为可能与某些重点词语具有相同属性的词汇,这就触发了黑马重点词监控功能。
我们针对“人名”、“地名”、“职务”、“单位名”这些重点词语做了大量的统计训练,使用了黑马所拥有的国内外最大的海量中文语料库的300亿汉字各类语言材料,并针对特定用户做了专业语料的强化训练,获得了99.8%的覆盖率。
关键技术2:专词的相似度计算
比较李红忠与李鸿忠是否相似?李立民与李利民是否相似?黑马研究建立的相似度数学模型,具有极高的准确性,准确性的高低会极大地影响重点词监控的结果。
四、XXXX报重点词库的建立

我们设计了“喻宝才+总经理+1300”这样的格式,这个格式可以同时检查“喻宝才总经理”和“总经理喻宝才”两个重点词条。后面的数字是统计的重点词语见报频率,它可以帮助我们分析处理消除误报(下图具体资料由XXXX报提供)。

五、维护
1.过期的电子文档
需要用户提供尽量多的过期的见报电子文档,用来做针对性训练,这一点也是很重要的。比如:我们在重点词语库中有一条这样的定义:“法律事务部总经理郭进平”,而下例句子中会出现误报:
王福成副总裁把任务落实到法律事务部郭进平总经理头上。
原因是法律事务部郭进平总经理与法律事务部总经理郭进平十分相似,但是在我们的库中没有“法律事务部郭进平总经理”这样的内容。在实际的文章中,类似的情况千变万化,我们很难一一想到,这就需要用户提供电子文档,交给我们集中收集,做好“磨合”工作。
2.重点词语库的修改
\APR\Keyword1.txt这个文档,原则上可以随时修改。
实际工作中,我们可以采用发现误报以后,再来修正的办法;也可以在领导改选等事件之后,集中修改一次。需要注意的是,大的修正之后,需要重新“磨合”。