《和码输入法》3.2版升级说明

欧阳贵林 www.HeZi.net

2006年12月23日

各位和码用户,和码3.2版对字根表与单字取码方法又做了一次较大的改动,这将对您的已形成的输入习惯会产生一些影响,我深感抱歉。

和码输入法没有做到一次到位(尽管我总是这样希望),并且总是在完成一个新版之后,才会发现新的可改动之处,因为和码的改进不是可以从别处学得到的,都是在编码实践中,认识发现问题,再去寻求解决方法。每次有了肯定的改进之后,又总是想及早地告诉用户,以尽量减少用户的损失。

如各位用户朋友所看到的,和码的编码方向是正确的,和码的每次改动都是在这正确的方向上又前进一步,希望得到和码用户的理解与支持。

2006年12月23日,和码3.2版发布。从3.1版到3.2版,有以下改进:

1、组合字根的改进

引起这一次改动的原因是对‘酸殊编释’等几个字编码的思考。在3.1及以前的版本中,这几个字的前三码是:

释:丿又一(411421),字根‘釆’只取到‘丿’;
殊:一丿木(114125),字根‘歹’只取到‘一’;
篇:⺮丶冂(455132),字根‘户’只取到‘丶’;
酸:一厶⺈(114344),字根‘酉’只取到‘一’。

尽管这种编码方便取码与输入,但汉字形码不仅是一个输入方法,还应该是对汉字字形的描述(解释)方法,是一种有助于汉字教与学的方法。

按照这个要求,和码现有的编码就有不足,因为这些字的前三码,没有最大地提取到单字的字形字义信息。把‘释’解释成‘丿又一’,不如解释成‘米又十’。

对这个问题的思考发现,有许多字根是在字形或字义上是同源的,如:米→釆;⺈→歹;尸→户等等,用‘釆歹户酉’中的‘米⺈彐囗’来描述这些字根,比用第一个单笔画要好很多。进一步的分析发现汉字字根的衍生现象:

日→白(丿日);目→自(丿目);木→禾(丿木);厂→广(丶厂);冂→门(丶冂);王→主(丶王)、木→耒(一一木)等等。每对中的第二个字根都是在第一个简单字根(主根或主码)的前面,加上一种简单笔画(修饰笔画或修饰码)衍变而成的,延用和码的组合字根概念,称其为前沿组合字根。

推而广之:十→丰;冂巾→门帀而;儿→兀;尸→户;土七→壬乇;口→‘一口’;氵→爫水;大→天夭夫;廾→开井;勹→万歹;王→主;厂→广;王→主;木→未耒禾;日目→白自;贝→页;火→灭;米→釆,等等。

这些衍生字根都有一个共同点是,第一笔是单笔画。如果在单字取码时,每次都是第一笔画优先,就使得较多的有衍生字根的字,只取到这些衍生字根的修饰笔画(修饰码),而遗失了字根的主干信息(主码)。这就是上述几个字编码不足的原因。

3.2版认识并重视汉字字根的衍生现象,对和码字根表与单字取码方法做了如下调整。

①、前沿组合字根是在和码简单字根的前面,加上一种简单笔画组合而成的字根,在字形或字义上,和码的简单字根是这个字根的主干成份(主码),简单笔画是修饰成份(修饰码)。如:

序号 衍生字根 修饰笔画
(修饰码)
主干部分
(主码)
例字
1 丿 鼻魄邀皈皋皑皎皓原绵棉牌脾愧
槐碑锦煌碧愿魄貌皆源谐揩楷藐魏
2 丿

科乘积秧秩称透梨犁移稍稀税愁稳
稻黎稿稼穗诱绣揪锈矮锹菌秦酥榛

3 广

库序店庙府底废度庭席座唐麻廊
康鹿廉遮俯脏渡裤塘缠糖糠镰

4 丿

受乳爱彩遥俘浮授菜援谣缓
摇睬暖滔溪踩稻蹈嚼

5 一一

耗耘耠籍藕藉

6 ‘一口’ 副融豌鬲逼逗豉隔厨龛盒嗝匐
富幅蝠辐福拿凳登痘短感颌给
喊减桐铜筒答恰洞词拾哈壹
7 乛く 盥淼剥颍踏犀逯泰浆绿碌暴氯腺
漾荥傣禄墀滕樨黍脲渌泶

②、前沿组合字根不再作为和码的简单字根,即去掉了3.1版字根表中的‘白自禾门主广’等十个字根。这样就进一步减少了和码的简单字根个数,许多码上的字根数减少,使每个码代表更简单明确的字形与字义(码45有明显改变),更具有汉字字形字母的特点。

前沿组合字根因有很规则的组成方式,容易辨识,如‘白自禾门主广爫水未耒夫’,也就不列在字根表中。

与前沿组合字根概念相对应的是后沿组合字根,即是3.1版里的组合字根。3.2版规定了相交有条件地分块,以及单笔画不成块,因而减少了很多组合字根,如‘纟鱼鸟月’等。现在列在字根表中的组合字根,只是对编码有特别调节作用的字根。

③、在单字取码时,前沿组合字根的主码优先于修饰码。即依照单字取码方法,如果单字的前三个码,只包含了前沿组合字根的修饰码(没有包括主干码),则用其主干码替换修饰码。如果单字的三个主码包含了前沿组合字根的二个码(修饰码与主码),那就没有替换的问题。如:

序号 前沿
组合字根
单字

3.1版编码
(单字主码)

3.2版编码
(单字主码)
解释
1 丿米心 丿米心 不变(因单字的前三码包含了
衍生字根的修饰码与主码)
2 丿又一 米又十 替换(因为单字前三码中
只含衍生字根的一个码)
3 一⺈戋 一⺈戋 不变
4 一丿木 ⺈木 替换
5 扌丶尸 扌丶尸 不变
6 ⺮丶冂 ⺮尸冂 替换
7 一木卄 一木卄 不变
8 艹一日 艹木日 替换
9 丿氵女 丿氵女 不变
10 丿冖又 氵冖又 替换
11 乛水凵 乛水凵 不变
12 氵乛凵 氵水凵 替换
13 艹乛灬 艹水灬 替换
14 宀一乑 宀一乑 不变
15 一一火 乑乑火 替换
16 ‘一口’ 一口丷 一口丷 不变
17 ‘一口’ 一丷工 口丷工 替换
18 亅水日 亅水日 不变
19 亅亅亅 水水水 替换
 

新的单字取码方法,是在原有的单字取码方法上,增加了一个前沿组合字根的主码优先的替换过程。即如果单字的前三码,只包含组合字根的一个码时,那么应优先取组合字根的主码。

从上面的分析可以看到,前沿组合字根主码优先的取码方法,能使单字的三个主码更大地提取字形与字义信息。

新的取码过程难度增加了,但不是很大,一是前沿组合字根的概念反映了汉字字根的固有特点,易于接受理解,二是因前沿组合字根而影响编码的汉字总数约为10%,数目不大。且这些字的取码结果好了许多,因为编码取到了单字的主要字形字义信息,如果不这样取,许多字就只取到组合字根的修饰码,而遗失主干信息,反而会感受不自然。

前沿组合字根主码的码值比其修饰码的码值大得越多,主码优先取的过程就会感到越合理自然。

在所有的前沿组合字根中,只有简单字根‘十’与单笔画的组合需要特别说明一下。因‘十’码值是简单字根中最小的,其在前沿组合字根中的主干作用不明显,用它去替代单笔画字根,就不是很自然。如:

干:盂顸舍舒岸赶得碍罕捍悍啥焊酐猞锝鼾。3.2版把‘干’定为单笔画组合字根放在码11中,‘于于’的第一码是11了。

丰:艳慧契挈恝彗陆逢害割蚌楔豁揳葜滟禊锲瘛译奉择泽举峰捧棒锋释蜂瞎绎辖峄怿驿铎俸唪烽榉。丰是‘十’的前沿组合字根。

千:乱乖刮适敌甜辞舔舐鸹歃憩舔话括活插恬钎栝聒蛞跹锸阔。其中许多字是‘舌’字偏旁,‘十’在‘舌’中难被认定为主干字根。于是特别把‘千’被定为单笔画组合字根放在码41中。

子:孩逊孢孺吼乳教猛郭敦锰荪郛狲菰孰孱鹑蜢艋亸芤存季享学厚俘浮哮孛孚孥孪莩孬桴殍脬悸稃孳孱蜉潺骣孵。‘子’也不被看着是‘十’的衍生字根,因为‘乛’与‘十’的码值相邻,在‘子’字中两个字根的重要性难分主次,因此不做替换。 

因此‘十’的前沿组合字根只有“丰‘一十’”。

2、单字分块时,相交结构有条件地分

3.1版以前,都规定在单字分块时,相交不分块,3.2版改为‘相交有条件地分’,与相接的结构完全相同平等地看待。

和码对字块做如下定义:

把汉字看成由最多三个字块组成,每个字块是由单笔画与和码简单字根组成,一般每个字块包含2个或多于2个单笔画。

如偏旁部首中的分离单笔画,都不分块,如‘马纟鱼鸟彡巛二三’都是一个字块。

但分离的单笔画有时也可作为一个字块看待,如:‘虱’字中的‘⺄’;‘担丝’中的‘一’;‘断’中的‘乚’都被作为一个块看待。

分块的条件是:

由相接或相交的部件分出来的两个字块,每块都应含有和码简单字根

相交有条件地分块的好处:

1、能正确地反应许多汉字的结构特点

束(木囗);刺(木冂刂);吏(丈囗);乘(禾北);秉(禾彐);垂(千艹二);重(千曰二)。

以前‘束’字不分块,取码时只能取为‘一囗小’,这种取法虽然与字的书写顺序一致,但却误解了汉字的字形字义,没有反映出‘束’是由‘木囗’组成的关系。这个例子说明:

①、相交结构的汉字书写顺序,往往是依据相交后的结构安排的,只是为了书写的方便,不是按组成部分来写的,写‘束’字时,不是先写‘木’再写‘囗’。依照书写顺序对相交结构取码,往往得到的是对汉字字形字义的错误理解。

因此,对于相交结构的字块,书写顺序往往不能反映字形字义特点,也就不能成为相交结构分块取码的依据。

②、对于相交结构的字或字块,也是由简单的字根组成,如‘曹果农’,在汉字字形字义上,应该与相离相接的结构同等看待,应该允许有条件地分块,且分块时书写顺序不连在一起的,也可以作为一块,如:束(木囗)曹(卄曰日)屯(七凵)。 

2、能把更多的汉字分为三个字块,这样就有了三个取码点,方便取码。

果(日木);禺(曰禸);央(冂大);农(冖‘亻入’);丙(‘一冂’人);西(兀囗);曹(卄曰日);曲(囗卄);典(冂卄八);事(十囗彐);甫(十冂);由(囗十);夷(大弓);妻(十彐女);屯(七凵);惠(十曰心)等

3、字根表的改变

前沿字根概念的引入,去掉了字根表中的10个字根,也改变了单字等取码方法,这使得汉字在各个码上的分布情况也发生了一些改变,为此3.2版对和码字根表做了较大的改变,主要如下:

序号 更新内容 更新后字根 原因
1 码15去掉‘石页’ 简单化码15
2 码14增加‘石’ 减少重码
3 码23去掉‘’  去掉衍生字根
4 码24去掉‘井’ 去掉衍生字根
5 码42去掉‘气’ 简单化
6 码45去掉‘白自禾’ 去掉衍生字根
7 码52去掉‘门’ 去掉衍生字根
8 码55去掉‘主广’ 去掉衍生字根
9 码23中‘比’的前半移到码31 规范、易记
10 码51的‘礻衤’移到55 减少重码、改变‘礻衤’的码值
11 码11增加组合字根‘干’ ‘干’不按前沿组合字根取码
12 码41的‘幺’移到45 ‘幺’的码值应该定为45
13 码33去掉‘足’ 相交结构可以分块带来的好处
14 码41中增加‘千’ ‘千’不按前沿组合字根取码

4、几个字根取码要求的改变

①、3.1及以前的版本规定码42中的‘’,以及码45中的各个字根是不与其它笔画相交的。配合‘相交有条件地分’的新规定,3.2版去掉了这些规定,即这些字根与其它字根相交时,也可以取这个码。如:东(21 41 54),兼(52 13 54)。

②、羊52 11 22,样25 52 22。 

5、改动的统计

3.2版暂时只对GB2312字库做了改动,在3.1版基础上,3.2版编码改动的字数统计如下:

前沿组合字根
(大概数)(%)
字根(石幺礻衤等)
变位(大概数)(%)
总改变数
(精确数)(%)
第一码 458(6.8) 368(5.5) 826(12.3)
第二码 816(12.1) 132(2.0) 948(14.1)
第三码 620(9.2) 88(1.3) 708(10.5)

编码对汉字的分散性有一点点提高,如二码字为630个比3.1版增加了3个,三码字为4477比3.1版增加了3个。 

6、3.2版总结

3.2以单字的前三码,最大地提取汉字字形字义信息为主题,花了一个月的时间,引入前沿组合字根的概念,对和码中的字块,相交可分,相接相交分块的条件等做了全面细致的分析,做出了更具体合理的改进。具体如下:

①、字根表更简洁了,去掉了十个简单字根,去掉了大部分前沿组合字根,字根表的基础理论更丰富牢固了。

②、3.2去掉了许多组合字根,一定程度上使部分单字的分块取码简单了。

③、前沿组合字根的引入,以及单字取码时,组合字根主码优先的考虑,一定程度上增加了取码的难度,但总的来说难度增加不大,好的结果是,单字的前三个码更大地提取了汉字的字形字义信息。

④、和码不仅是好的单字输入方法,也是好的对汉字的描述与解释方法,可以应用了汉字的教与学。

⑤、与3.1版比较,3.2版的一码字25个(不变),二码字三码字略有增加,因此速度也会略有增加。

和码3.2版的入门学习难度增加了一些,3.1版用户转到3.2,需要改变已形成的习惯,大概要1个星期的时间,请通过这篇升级说明,以及帮助文件的第三四五三章,了解改动的内容,并通过“和码练习软件 ”进行适应性练习。

欢迎各位朋友的反馈意见。

Merry Christmas and Happy New Year!  

和码作者:欧阳贵林
Email: g_ouyang@hotmail.com
和字(码)网址:www.HeZi.net

 
相关文章链接:

1、“横竖撇点折”之误
http://www.hezi.net/He/HeMa/HtML_Page/TheBigMistake.htm

2、和码是最好最终的汉字形码
http://www.hezi.net/He/HeMa/HtML_Page/Best_Forever.htm

3、用《和码》改进对外汉语教学方法
http://www.hezi.net/He/HeMa/HtML_Page/Reform_Chinese_Teaching_Method.htm

4、和码的重大深远意义
http://www.hezi.net/He/HeMa/HtML_Page/What_HeMa_Means.htm