当前位置：移动技术网 > IT编程>脚本编程>Python > 字符编码学习笔记

字符编码学习笔记

2019年04月19日 | 移动技术网IT编程 | 我要评论

石家庄会议,上海浦东发展银行信用卡,月夜茶会画集

一、常见编码

ascii：ascii码即美国标准信息交换码(american standard code for information interchange)。由于计算机内部所有信息最终都是一个二进制值，而每一个二进制位（bit）有0和1两种状态，因此八个二进制位就可以组合出256种状态，这被称为一个字节（byte）。标准ascii 码一共规定了128个字符的编码，这是因为只使用了后面七位，最前面的一位统一规定为0。之后ibm制定了128个扩充字符，这些字符并非标准的ascii码，而是用来表示框线、音标和其它欧洲非英语系的字母。

英语用128个符号编码就够了，但是用来表示其他语言，128个符号是不够的，而且不同的国家使用不同的字母，有的国家使用的字符也远远超过256个，显然ascii已经无法解决问题了。那么有没有一种统一且唯一的编码方式呢？答案就是unicode。

unicode：unicode是计算机科学领域里的一项业界标准，unicode 是为了解决传统的字符编码方案的局限而产生的，它为每种语言中的每个字符设定了统一并且唯一的二进制编码，以满足跨语言、跨平台进行文本转换、处理的要求。

但是unicode也是有问题的，比如“中”字的unicode编码是十六进制的4e2d，即二进制的100111000101101占15位，也就是说表示这个符号至少需要两个字节，那么怎么知道这两个字节是表示一个字符而不是分别表示两个字符呢？也就是如何区分unicode和ascii？

utf-8：utf是“unicode transformation format”的缩写，可以翻译成unicode字符集转换格式。utf-8 就是在互联网上使用最广的一种unicode的实现方式，其他实现方式还包括utf-16（字符用两个字节或四个字节表示）和utf-32（字符用四个字节表示）。utf-8最大的一个特点，就是它是一种变长的编码方式。它可以使用1~6个字节表示一个符号，根据不同的符号而变化字节长度。对于某一个字符的utf-8编码，如果只有一个字节则其最高二进制位为0；如果是多字节，其第一个字节从最高位开始，连续的二进制位值为1的个数决定了其编码的位数，其余各字节均以10开头。

字节数 | utf-8编码（二进制）

　1 | 0xxxxxxx

　2 | 110xxxxx 10xxxxxx

3 | 1110xxxx 10xxxxxx 10xxxxxx

4 | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

5 | 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

6 | 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

很明显对于“中”字使用utf-8编码需要使用三个字节，因此从“中”字的最后一个二进制位开始，依次从后向前填入格式中的x，多出的位补0。这样就得到了“中”字的utf-8编码，结果为：11100100 10111000 10101101，即十六进制的e4b8ad。

二、python3编码

python中的编码问题困扰了我挺久的，尤其是python2和python3中还有区别，不过这里我只讨论python3中的编码问题。

python3最重要的新特性大概要算是对文本和二进制数据作了更为清晰的区分，文本总是unicode，由str类型表示，二进制数据则由bytes类型表示，而两者之间的转换由编码（encode）和解码（decode）实现。这里可以看一下python的官方文档：

str.encode(encoding="utf-8", errors="strict")

　　return an encoded version of the string as a bytes object. default encoding is 'utf-8'. errors may be given to set a different error handling scheme. the default for errors is 'strict', meaning that encoding errors raise a unicodeerror. other possible values are 'ignore', 'replace', 'xmlcharrefreplace', 'backslashreplace' and any other name registered via codecs.register_error(), see section error handlers. for a list of possible encodings, see section stardard encodings.

bytes.decode(encoding="utf-8", errors="strict")

　　return a string decoded from the given bytes. default encoding is 'utf-8'. errors may be given to set a different error handling scheme. the default for errors is 'strict', meaning that encoding errors raise a unicodeerror. other possible values are 'ignore', 'replace' and any other name registered via codecs.register_error(), see section error handlers. for a list of possible encodings, see section stardard encodings.

可以看到str是没有decode方法的，因为本身就是unicode编码的，而bytes是没有encode方法的，而且无论是encode还是decode默认都是使用utf-8编码的，当然我们还可以使用其他方式进行编码和解码，比如：

s = "博客园"
print(s.encode())
print(s.encode("utf-16"))
print(s.encode("gbk"))

# b'\xe5\x8d\x9a\xe5\xae\xa2\xe5\x9b\xad'
# b'\xff\xfezs\xa2[\xedv'
# b'\xb2\xa9\xbf\xcd\xd4\xb0'

那么对于某个数据来说，如果我们不知道它的编码格式，要怎么办呢？在python3中可以使用chardet模块里的detect方法查看：

import chardet
print(chardet.detect(b'\xe5\x8d\x9a\xe5\xae\xa2\xe5\x9b\xad'))
print(chardet.detect(b'\xff\xfezs\xa2[\xedv'))

{'encoding': 'utf-8', 'confidence': 0.87625, 'language': ''}
{'encoding': 'utf-16', 'confidence': 1.0, 'language': ''}

detect方法会返回一个字典，包含编码方式、检测得到的概率和语言信息。可见，用chardet检测编码，使用简单，获取到编码后，再转换为str，就可以方便后续处理。

三、文本编码

首先新建一个文本文档“test.txt”，内容为：“博客园blogs”，然后选择“另存为”，可以看到默认使用的是ansi编码：

那么这个ansi编码是什么呢？不同的国家和地区制定了不同的标准，由此产生了gb2312、gbk、big5、shift_jis等各自的编码标准。这些使用1至4个字节来代表一个字符的各种汉字延伸编码方式，称为ansi编码。而在简体中文windows操作系统中，ansi编码就代表gbk编码。那么假如我们使用了默认的ansi编码即gbk编码，在读取文本的时候会出现什么情况呢？

with open("test.txt", 'r') as f:
    print(f.read())
# 博客园blogs
with open("test.txt", 'r', encoding="gbk") as f:
    print(f.read())
# 博客园blogs
with open("test.txt", 'r', encoding="utf-8") as f:
    print(f.read())
unicodedecodeerror: 'utf-8' codec can't decode byte 0xb2 in position 0: invalid start byte

可以看到使用utf-8编码打开的时候报错了，原因是有无法解码的字符。那么如果我们保存的时候使用utf-8编码呢？

with open("test.txt", 'r') as f:
    print(f.read())
# 锘垮崥瀹㈠洯blogs
with open("test.txt", 'r', encoding="gbk") as f:
    print(f.read())
# 锘垮崥瀹㈠洯blogs
with open("test.txt", 'r', encoding="utf-8") as f:
    print(f.read())
# 博客园blogs

很明显看到在使用gbk编码时出现乱码了，原因就是编码和解码的方式不一致，导致最终出现了乱码的情况。

四、url编码

url即全球统一资源定位符（uniform resource locator），一般来说，url只能使用英文字母、阿拉伯数字和某些标点符号，不能使用其他文字和符号，这是因为做出了规定。这意味着，如果url中有汉字，就必须编码后使用。但是麻烦的是，rfc1738没有规定具体的编码方法，而是交给应用程序（浏览器）自己决定。

这里我们可以任意打开一个网页，比如关于编码的百度百科，可以看到浏览器显示的链接没有什么问题：

复制一下，然后粘贴出来看一下：https://baike.baidu.com/item/%e7%bc%96%e7%a0%81/80092，可以看到“编码”两个字被浏览器自动编码成了“%e7%bc%96%e7%a0%81”。这里我们需要知道的是“编”的utf-8编码为：e7bc96，“码”的utf-8编码为：e7a081，因此“%e7%bc%96%e7%a0%81”就是在每个字节前面加上一个“%”得到的，也就是说url路径使用的是utf-8编码。

您可能感兴趣的文章:

如对本文有疑问，请在下面进行留言讨论，广大热心网友会与你互动！！点击进行留言回复

python dict乱码如何解决

定义字典并直接输出，结果输出结果中文是乱码展示d={'name':'lily','age':18,'sex':'女','no':1121}print d输出结果... [阅读全文]
如何写python的配置文件

一、创建配置文件在d盘建立一个配置文件，名字为：test.ini内容如下：[baseconf]host=127.0.0.1port=3306user=rootp... [阅读全文]
使用Python FastAPI构建Web服务的实现

fastapi 是一个使用 python 编写的 web 框架，还应用了 python asyncio 库中最新的优化。本文将会介绍如何搭建基于容器的开发环境，... [阅读全文]
Python过滤掉numpy.array中非nan数据实例

代码需要先导入pandasarr的数据类型为一维的np.arrayimport pandas as pdarr[~pd.isnull(arr)]补充知识：pyt... [阅读全文]
python求numpy中array按列非零元素的平均值案例

输入：numpy的array输出：一个一维的平均值arrayimport numpy as np def non_zero_mean(np_arr): exis... [阅读全文]
Python如何向SQLServer存储二进制图片

需求是需要用python往 sqlserver中的image类型字段中插入二进制图片核心代码，研究好几个小时的代码：安装pywin32，adodbapiimag... [阅读全文]
python numpy实现rolling滚动案例

相比较pandas，numpy并没有很直接的rolling方法，但是numpy 有一个技巧可以让numpy在c代码内部执行这种循环。这是通过添加一个与窗口大小相... [阅读全文]
python opencv 实现读取、显示、写入图像的方法

opencv是一个强大的图像处理和计算机视觉库，实现了很多实用算法，值得学习和深究下。opencv包安装·　　这里直接安装opencv-python包（非官方）... [阅读全文]
python thrift 实现单端口多服务的过程

thrift 是一种接口描述语言和二进制通信协议。以前也没接触过，最近有个项目需要建立自动化测试，这个项目之间的微服务都是通过 thrift 进行通信的，然后写... [阅读全文]
Python while true实现爬虫定时任务

记得以前的windows 任务定时是可以的正常使用的，今天试了下，发现不能正常使用了，任务计划总是挂起。接下来记录下python 爬虫定时任务的几种解决方法。今... [阅读全文]

网友评论


验证码：