当前位置: 移动技术网 > IT编程>脚本编程>Python > utf-8 下汉字为什么需要三个字节

utf-8 下汉字为什么需要三个字节

2019年05月12日  | 移动技术网IT编程  | 我要评论

lady最后的犯罪画像,摩登城市辅助工具,无双武神下载

 

unicode 十六进制码点范围    -->   utf-8 二进制0000 0000 - 0000 007f    -->   0xxxxxxx

0000 0080 - 0000 07ff    -->   110xxxxx 10xxxxxx                            
0000 0800 - 0000 ffff    -->   1110xxxx 10xxxxxx 10xxxxxx                        
0001 0000 - 0010 ffff    -->   11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
                  
                                                        
 

一个字节八个二进制位              

unicode 下汉字占用空间为0x4e00到0x9fa5    0010  1110  0000 0000--> 1001 1111 1010 0101
则转化为utf-8为:1110 0010 -10 111000-10 000000 --> 1110 1001-10 111111-10 100101    

       即:0x00e2 b880            --> 0x00e9 bfa5

utf-8只是改变了unicode的保存形式,提高传输译码效率

python 3.7.2系统使用的是utf-8,但编码转换对应的是unicode;例:ord(汉)=27721,chr(27721)=汉,'汉'对应 unicode为0x6c49,即27721,其utf-8表示为0xe6 0xb7 0x89

 

 

如对本文有疑问,请在下面进行留言讨论,广大热心网友会与你互动!! 点击进行留言回复

相关文章:

验证码:
移动技术网