
1、王选院士与汉字编码。
2、如何输入先秦古字,win7 的造字程序——丰富的中华文化。

出现ASCII之前,计算机中西文编码方式有60多种,IBM的设备中就使用了9种。电脑之间的信息无法进行信息交换,这就如同鸡同鸭讲、各说各话。

(1)西文字符集:由拉丁字母、数字、标点符号及一些特殊符号组成。
(2)字符编码:字符集中每一个字符各有一个代码,即字符的二进制表示,称为该字符的编码。
(3)字符代码表:字符集中不同字符的编码互相区别,构成该字符集的代码表。
(4)ASCII字符集与ASCII码:1963年,ASCII之父,IBM的鲍勃 ∙ 比默尔制定了ASCII,1968年成为美国标准,即美国标准信息交换码(American Standard Code for Information Interchange),它是现今最通用的单字节编码系统。它使用7个二进位对字符进行编码(叫做标准ASCII码),称为ISO-646标准。
● 基本的ASCII字符集共有128个字符,96个可打印字符(常用字母、数字、标点符号等)32个控制字符,特殊字符的ASCII码空格(32)、A(65)、a(97)、0(48)
● 数字,字母的ASCII码是连续的,对应大小写字母ASCII码相差32。
● 不同类型的ASCII码的十进制数值由小到大:数字、大写字母、小写字母

这种最简单的文本格式成了电脑之间可能进行交流的共同语言。直到今天,我们在电子邮件中使用的所有字符都是ASCII码,Web网页上的HTML文件字符也同样是ASCII字符。它是至今仍保持活力的几种基本计算机技术之一,比默尔因此获得“ASCII之父”的称号,甚至他的汽车牌照也被冠以“德克萨斯ASCII”的标志。

在汉字计算机编码标准中,目前最大的汉字编码是台湾的标准CNS11643,目前(4.0)共收录可考证之繁简、日、韩语汉字共76,067个,但并不普及,只有在户政系统等少数环境使用。台港民间通用的大五码收录繁体汉字13053个。GB18030是中华人民共和国现时最新的内码字集,GBK收录简体、繁体及日语、韩语汉字20912个,而早期的GB2312收录简体汉字6763个。而Unicode的中日韩统一表意文字基本字集则收录汉字20902个,另有两个扩展区,总数亦高达七万多字。
《信息交换用汉字编码字符集》是由中国国家标准总局1980年发布,1981年5月1日开始实施的一套国家标准,标准号是GB 2312—1980,简称国际交换码、国际码,国标码,是我国应用最广泛的汉字编码字符集。
● 第一部分:字母、数字和各种符号,包括拉丁字母、俄文、日文平假名与片假名、希腊字母、汉语拼音等共682个(统称为GB2312图形符号)
● 第二部分:一级常用汉字,共3755个,按汉语拼音排列
● 第三部分:二级常用字,共3008个,按偏旁部首排列
① 区位码:GB2312国标字符集构成一个二维平面,它分成94行、94列,行号称为区号,列号称为位号。每一个汉字或符号在码表中都有各自的位置,字符的位置用它所在的区号(行号)及位号(列号)来表示。每个汉字的区号和位号分别用1个字节来表示。如:“大”字的区号20,位号83,区位码是20 83,用2个字节表示为:00010100 01010011。
问题:信息通信中,汉字的区位码与通信使用的控制码(00H~1FH)发生冲突。

② 国标码:
为了解决上述问题,避免汉字区位码与通信控制码的冲突,ISO2022规定,每个汉字的区号和位号必须分别加上32(20H)得到国标码。即:
国标码 = 区位码 + 3232(2020H)
问题:文本中的汉字与西文字符经常是混合在一起使用的,汉字信息如不予以特别的标识,它与单字节的标准ASCII码就会混淆不清。
③ 机内码:
为了解决上述问题,把一个汉字看作两个扩展ASCII码,使表示GB2312汉字的两个字节的最高位都置为“1”。这种高位为 1 的双字节(16位)汉字编码就称为GB2312汉字的“机内码”,又称内码。(如:“大”字的内码是:10110100 11110011 (B4F3))。即:
机内码 = 国标码 + 8080H

④ 字形码:
同一个汉字,它们的内码是相同的。
数字编码:使用一串数字来表示汉字的编码方法。例如电报码、区位码等。缺点:难以记忆,不易推广。
字音编码:一种基于汉语拼音的编码方法,简单易学,适合于非专业人员。缺点:同音字引起的重码多,需增加选择操作。
字形编码:将汉字的字形分解归类而给出的编码方法,重码少、输入速度较快,如五笔字形法和表形码。缺点:编码规则不易掌握。
形音编码:吸取了字音编码和字形编码的优点,使编码规则适当简化、重码减少。缺点:不易掌握。
联机手写(汉字识别笔输入)
