等级: Administration
组: Administrators
注册时间: 2012/2/4(UTC) 帖子数量: 233
|
关于汉字字形编码的确定性问题,我在以下文章做了一些说明:
《和码是最好最终的汉字形码》
借和码5.0版的编码过程,总结一些编码问题,做个记录吧。
一、对汉字字形编码,丢掉一些字形信息在所难免
汉字有简单的如:
三汉主茹染始吩算莫保咽染美夹菊姿姜梦楼像焰敢 汉字也复杂的如:
韱肈糮糅龔襷虠裫癟褫癛殛夔馕蠻聽偽鸝竊欞 龘𪚥亖𦜻𠽺𢸀𧅩𦏯朤𠾅𦪤𦼒𨆬𪈼鱻𧭛𨰻𠔻𤛭𢨋
汉字字形信息有两个方面,字根信息,与顺序信息。
字形编码如要包含单字的所有字根与笔画,与顺序信息。就要在字根表中放更多的字根,或使单字的编码个数增加。
用固定个数的编码,又要保持字根表的简单,字形信息的丢失就不可避免。
在给一些单字编码时,为了多保留一些字形信息,想尽了办法,如增加字根(以保留字根信息),修改编码规则(以保留顺序信息),这往往使编码复杂化。但即便如此,也无法保留所有汉字的所有字形信息。
字形编码没有包含所有的汉字字形信息,往往会遭致批评与指责,这是很不合理的。
要进行汉字字形编码,就要对汉字的字形信息进行取舍,就要接受汉字字形信息的丢失。
如果反对或拒绝字形信息的取舍,那就只有书写方法,就不要用键盘输入法。
汉字字形编码,是在对汉字进行字形分析后,提取汉字字形信息,编码用于汉字字形输入(或检索,或线性化),编码不等于汉字,编码区别于汉字。
汉字字形编码不可能保留全部汉字的全部字形信息,但在编码中尽量多地保留字形信息,应该是字形编码的目标之一。
Edited by user 2014年3月18日 7:32:34(UTC)
| Reason: Not specified
|
|
|
|
等级: Administration
组: Administrators
注册时间: 2012/2/4(UTC) 帖子数量: 233
|
|
|
|
|
等级: Administration
组: Administrators
注册时间: 2012/2/4(UTC) 帖子数量: 233
|
2014年03月17日
3月3日开始,用了10天时间,完成简体6763,繁体5997个单字编码的修改。又用了两天时间给简体字排序,一天半用于繁体字排序。
昨天完成了,和码5.0的码表,用已有的程序半个小时就做成了单字与词组的码本,现在Windows上可以使用了,这是第一次使用和码5.0输入的。
今天用了一天时间才做好以下这个图。
最基本的笔画应该是:横(一)竖(丨)撇(丿)捺(丶),也许左孤“(",右孤")",圈“〇”,以及上孤,下孤也是,如英文中的Cae, DBRP, O, mn, UV就有各种孤线。
中文也有:
左孤"(",C,如左框:匚; 右孤”)“,DBPR, 如右框:彐; 圈“〇”,OQ,如:口; 下孤,nm, 如:冖冂几; 上孤,UVW,如:凵山;
只不过,中文是用”横竖撇捺“来描述这些孤笔画的。
和码把汉字的基本笔画归结为 横(一)竖(丨)撇(丿)捺(丶),以此为出发点,解释汉字字形的组成与变化。
和码5.0字根表
Edited by user 2014年3月18日 7:47:29(UTC)
| Reason: Not specified
|
|
|
|
等级: Administration
组: Administrators
注册时间: 2012/2/4(UTC) 帖子数量: 233
|
|
|
|
|
论坛跳转
您 不可以 发表新话题.
您 不可以 回复话题.
您 不可以 删除自己的发言.
您 不可以 编辑自己的发言.
您 可以 发表投票.
您 不可以 投票.