递推联想拼音输入法——一种轻松高效的汉语字词编码输入方法
递推联想拼音输入法技术网站

首字第一词表的选词原则

首字第一词表既要解决中文字、词的拼音编码输入问题,又要作为集中快速识字(或扩大识字范围)的强有力工具,其意义将是广泛和深远的,因此其中每个词的选择都值得斟酌推敲,力求在某种意义上是最好的,力求能够相对持久不变,从而使广大学习者和使用者达到一劳永逸的目的。

确定一套行之有效的选词原则将起着双重作用,一方面可以作为选择首字第一词的依据,在多项选择中作为判定的条件;另一方面可以作为掌握或识别首字第一词的指导思想,用于揭示首字第一词区别于其他词的某种特征。

选词原则不可能凭空产生,即不可能事先确定一种选词原则,然后再去确定首字第一词表;选词原则只能从大量的首字第一词的实例中逐步总结出来,然后再用于指导首字第一词表的进一步选择和优化,这就是从实践中来再到实践中去的过程。选词原则不可能绝对适用,即不可能对所有词都一定如此,只能对大量词都尽量如此;目前尚不能提出一条适用于每个词的绝对原则,但还是可以确定出几条优先级别不同、适用范围不同、作用大小不同的相对原则。

词的使用频度(当然越高越好)是容易想到的一条选词原则,一般来说,最常用的词对于大多数人而言也就是最熟悉的词,应该也就最容易想到,而词的使用频度可以通过对语料库的统计处理得出,实际上已有频率词典和更新的统计资料,但遗憾的是,人对于词的使用频度并没有敏锐的区分能力,或者说人并不能显著地区分“最常用”的词与“次常用”的词,另外,使用频度统计结果可能因为语料库的不同(特别是不同历史时期)而不尽相同,而且只能反映书面语言,不能反映口头语言。因此,词的使用频度只作为一条次要的辅助的选词原则。

与词的使用频度相比,人对于词的意义有着更为敏锐的区分能力,我们掌握和使用词语,本质上是掌握和使用词语的意义,词语搭配稍有不妥(意义不通顺),我们就会感到“别扭”;而且,字与词的意义更加具有长期的稳定性,特别是“基本词汇”作为语言的核心内容,几乎是千百年沿用不变的。因此,基于词的意义的选词原则可以作为首要的优先的原则。

基于词的意义的原则的不利之处在于不象使用频度那样可以利用计算机自动处理,由于自然语言的复杂性以及中文信息化的进展缓慢,基于词的意义的原则在过去、现在以及相当长时间的未来都只有依靠人的理解、分析、比较、判断的方法进行应用和处理,当然包括参考现有的字典、词典和其他资料。

基于词的意义的原则之下可以想到的是意义单纯的原则,即词的意义越单纯越好。实际上,世界上人为的事情(工作)都应该遵循一条原则,就是在达到同样目的的前提下,是越简单越好,而不是越复杂越好,如果增加了复杂性,就应该得到明显的更多的好处。意义单纯的原则虽然还是比较概括或笼统的原则,但可以避免不必要的复杂性,同时得到一种有效的约束条件。

意义单纯的原则之下进一步可以得到的是意义首字相同的原则,即词的意义与首字的意义基本相同。由于一个字无论作为单字词,还是作为语素,一般都具有某种意义,在构词过程中,字的意义通常是不会丢失的(这里也不希望丢失),而是会在词的意义中反映出来,因而使词的意义与首字的意义保持基本相同,不要引入别的新的意义,不但符合意义单纯的原则,而且更加明确,更加具体,可以认为是最理想的原则。

对于不能适用意义首字相同的原则的情况,可以引入下面一些相对次要的原则:意义首字相近的原则,即使不得不增加或改变的意义尽量少一些;意义首字相关的原则,即使不得不增加的新的意义与首字的意义密切相关;意义首字同类的原则,即使词的意义与首字的意义落在意义分类的同一类别(小类)之中。

可见首字的意义十分重要,为了明确,可以对字作一些“预处理”:对于多音字,不同的读音可以看作不同的字,通常都有不同的意义;对于多义字,如果意义是彼此相关的,尽量取其原始的或主要的意义,如果意义是截然不同的,可以看作不同的字,对应不同的意义,即所谓的同形字。

在选词过程中,可以首先抓住首字的意义,尽量保持这种意义,尽量使词的意义的重心落在首字的意义上面,如果词的意义是平均分配在两个字的意义上面的,这也无妨,但是尽量避免使词的意义的重心落在尾字的意义上面。

由于人对于词的意义的辨别是敏锐的,由于词的意义是可以比较的,由于词的意义在语言实践中是广泛应用的,因此上面一些基于词的意义的原则是可以实际应用、具体操作的。下面结合举例进一步说明一些有关方法和具体形式。

(待续)

 

选词原则 中国福州