1.2.1 数据与信息
数据:数据是对客观事物的符号表示。
如,数值、文字、语言、图形、图像等都是不同形式的数据。
信息:信息是既是对客观事物变化和特征的反映,又是事物之间相互作用、相互联系的表征。
信息必须数字化编码,才能用计算机进行传送、存储和处理。
信息具有针对性和时效性。
数据与信息的区别:数据是信息的载体,信息是数据处理之后产生的结果。信息有意义,而数据没有。
例如:数据2、4、8、16、32是一组数据,本身是没有意义的,我们从中可以分析出是一组等比数列,很清楚的得到后面的数字,便赋予了意义,这就是信息。是有用的数据。
1.2.2 计算机中的数据
ENIAC采用十进制 。不是冯·诺伊曼设计的,并非使用冯·诺伊曼结构(发表1945年6月),也不是存储式结构(世界上第一台投入运行的具有存储程序控制的计算机是英国人设计并制造的EDSAC)。
冯·诺依曼研制IAS时,提出了二进制的表示方法。
二进制的优点:物理上容易实现,信息的存储更加容易,可靠性强,运算简单,通用性强。
1.2.3 计算机中数据的单位
1. 位(bit)
位(bit)是度量数据的最小单位。在计算机技术中用二进制表示数据,1位数据只能表示0和1两种代码。
2. 字节(Byte)
一个字节(Byte)由8位(bit)二进制数字组成。
存储器容量通常以字节为单位(Byte, B)来描述:
千字节 1KB = 1024B = 210B
兆字节 1MB = 1024KB = 220B
吉字节 1GB = 1024MB = 230B
太字节 1TB = 1024GB = 240B
3. 字长
字长是指计算机一次能够同时处理的二进制位数,即CPU在一个机器周期中最多能够并行处理的二进制位数。
字长是计算机(CPU)的一个重要指标,直接反映一台计算机的计算能力和运算精度。字长越长,计算机的处理能力通常越强。
计算机字长常常是字节的整倍数,如8位、16位、32位,发展到今天微型机的64位,大型机/巨型机已达128位。
1.2.4 进位计数制及其转换
B表示二进制,O表示八进制,D表示十进制,H表示十六进制。
1.进位计数制
多位数码中每一位构成方法以及从低位到高位的进位规则称为进位计数制(简称数制)。
如果采用R个基本符号(0,1,…,R-1)表示数值,则称R数制,R称为该数制的基数(Radix)。
例如,十进制采用10个基本符号0,1,…,9表示数值,十进制的基数是10。
任何一个R进制数D都可以展开为:

其中,R为计数的基数;
ki为第i位的系数,可以为0, 1, …, R-1中的任意1个;
Ri称为第i位的权
表1-2 计算机中常用的几种进位计数制的表示

2. R进制转换为十进制:按权展开
将R进制数按前述展开式展开求和即可得到相应的十进制数。例如:

3. 十进制转换为R进制:
将十进制数转换为R进制数时,可将此数分为整数和小数两部分分别进行转换,然后再拼接起来即可。
一种常见的十进制数转换为R进制数的方法是:
整数部分用“除R取余”;
小数部分用“乘R取整”。
【例1-1】将十进制数225.8125转换成二进制数。

4. 八进制转换为十六进制
二进制数虽然非常适合计算机内部的数据表示,但是书写起来位数比较长,很不方便,也不直观。
因此,在书写程序和数据用到二进制数的地方。往往采用八进制数或十六进制数的形式。
1位八进制数相当于3位二进制数;1位十六进制数相当于4位二进制数;
根据这种对应关系,二进制数转换为八进制数/十六进制数时,以小数点为中心,向左右两边分组,每3/4位 为一组,两头不足3/4位补0即可。
表1-5 八进制数、十六进制数与二进制数的对应关系

1.2.5 字符的编码
1.西文字符的编码
计算机中最常用的字符编码是ASCII(American Standard Code for Information Interchange,美国信息交换标准交换代码),为国际标准。
国际通用的ASCII码是7位ASCII码,用7位二进制数表示一个字符的编码,共有27=128个不同的编码值,相应可以表示128个不同字符的编码。
计算机用一个字节(8个二进制位)存放一个7位ASCII码,最高位置为0。标准ASCII码是用7位二进制数表示1个字符的编码,因而一个字符的标准ASCII码的长度是7 bit。
7位ASCII代码表


控制字符:0~32,127; 普通字符:94个。
例:“a”字符的编码为 1100001,十进制数是 97
ASCII码的排列:
有大小之分:控制符<空格 < 数字 < 大写字母 < 小写字母
2. 汉字的编码
①国标码(GB2312-80)
一级汉字:3755个,按汉语拼音排列
二级汉字:3008个,按偏旁部首排列
②区位码
由94个区号和94个位号构成
每个汉字占两个字节
区位码是利用国标码作为汉字编码,每个国标码对应一个汉字或一个符号,没有重码。
③区位码转换为国标码
国标码=区、位分别加32D(十进制)
国标码=区位码+2020H(十六进制)
例:“中”区位码(5448)转换为国标码
(5448)D + 区、位分别加32 =(8680)D
十六进制形式(3630)H +(2020)H =(5650)H
3. 汉字的处理过程

通过键盘输入汉字的输入码
将输入码转换为相应国标码,再转换为机内码。 就可以在计算机内存储和处理了。
输出汉字时,将汉字的机内码通过简单的对应关系转换为相应的汉字地址码;通过汉字地址码对汉字库进行访问,从字库中提取汉字的字形码,最后根据字形数据显示和打印出汉字。
1) 汉字输入码
为将汉字输入计算机,利用计算机标准键盘上按键的不同排列组合来对汉字的输入进行编码。
音码类:全拼、双拼、微软拼音、智能ABC等
形码类:五笔字型法、郑码输入法等
其它:语音、手写输入或扫描输入等
2) 汉字内码
汉字在计算机内部进行存储、处理的代码
汉字内码:2个字节存储,每个字节最高位置“1”( 目地:区分于ASCII码)。
机内码=国标码+8080H(十六进制)
例:“中”字的国标码转换为汉字内码:
国标码 (5650)H+(8080)H=(D6D0)H
4. 汉字字形码
汉字字形码 —— 汉字字形点阵的代码

例:计算16×16点阵显示汉字,需要多少存储空间?
解答:16×16/8 = 32字节
用于汉字在显示屏或打印机输出。通常有两种表示方式:点阵和矢量表示方式。
5. 汉字地址码
汉字库中存储汉字字形信息的逻辑地址码。输出设备输出汉字时,必须通过地址码。字形信息是按一定顺序连续存放在存储介质上,所以汉字地址码大多是连续有序的,与汉字内码间有简单的对应关系,以简化汉字内码到汉字地址码的转换。
6. 其他汉字内码
GBK:扩充汉字内码规范
UCS:通用多八位编码字符集
Unicode:国际编码标准
BIG5:繁体汉字编码标准