1. 字符串和编码
Python 3中使用str表示字符串数据类型,所谓字符串,顾名思义,就是由许多字符组成在一起、连接而成的一个串。字符串对象用于存储文本,字符串就是字符的序列。
生活中,字符(character)一个信息单位,它是各种文字和符号的统称,比如一个英文字母、汉字、标点符号等。计算机只识别由0、1组成的数字,为了将平常生活中用到的字符在计算机中显示和存储,就需要对字符编码(character encoding)表示,将字符集中的字符(char)映射为字节(byte)流,也就是为字符集中每个字符指定一个数字编号(字符码),常见的字符编码方案有ASCII编码、GBK编码、UTF-8编码等。
编码(encoding)的过程是将字符转换成字节流,解码(decoding)的过程是将字节流解析为字符。不同的编码方案规定的字符的个数不同,能表示的字符数也不同,也即字符集(character set)大小不同。比如ASCII字符集总共有128个字符,主要包含了西文字符系统,而用于汉字编码的GB2312(GB/T2312-1980,信息交换用汉字编码字符集-基本集)字符集定义了7445个字符,其中汉字6763个。
2022年新修订发布的《信息技术中文编码字符集》强制性国家标准,共收录汉字87887个,包括《通用规范汉字表》全部汉字和多种少数民族文字,覆盖我国绝大部分生僻字以及专业领域用字。该标准实施后将规范字编码方式,确保传输的文字信息在收发双方显示一致,并有效解决生僻字信息系统的录入传输交换问题。

2.转义字符
转义字符(escape character)是字符串中以“\”开头的特殊字符,Python将用作其他用途。例如:\n表示换行,\t表示一个水平制表符(tab),Python中常用的部分转义符如下表所示。

3.字符串的索引与切片操作
字符串(string)是由多个字符(character)组成的集合,就好像是许多的字符按顺序排成了一队,可以使用索引(indexed)操作从一组字符中截取一个或一段字符。Python使用带下标数字的中括号[index]作为字符串的索引(或者称之为下标,subscripted)操作,从左至右,第一个字符的索引下标为0,最后一个字符的下标为字符串长度减去1。因为获取字符串的长度可以使用函数len(str),因此,字符串索引下标的最大值为len(str)-1。索引也可以从右至左的方向进行,因为-0和0相等,所以,从右边开始计数时序号从-1开始。我们可以下面的示例中理解其含义:

4.format( )函数格式化
str.format( )格式化字符串更容易阅读,它避免了以前技术的许多缺点和限制。format( )函数格式化字符串方法类似于提前准备好一个模板,在这个模板字符串中,需要引用其它值(比如某个变量)的地方就设置一个可替换的字段(一对大括号{ }括起来的替换域),可替换字段以外的字符串照原样输出,可替换字段换成相应的值。如果要设置多个可替换字段,用[0,1,2,...]的序列索引表示。format( )格式化大多数情况下与旧式的%格式化类似,基本上就是用{ }和:来取代%。常用的格式规范如表所示。
