在数据库当中都有字符集和排序规则的概念, 很多开发人员甚至包括有些dba都会将这个混淆,当然这个情况也有一些情有可原的原因。一来两者本来就是相辅相成,相互依赖关联; 另外一方面, 有些数据库并没有清晰的区分开两者。例如,sql server中字符集和排序规则就是合在一起的,创建一个新的数据库,只有一个collation给你选择,并没有字符集选项概念,实际上你在选择一个collatin时,就选定了数据库的字符集和排序规则,例如chinese_prc_ci_as。在mysql中,字符集和排序规则是区分开来的,你需要单独设置字符集和排序规则。当然mysql字符集和排序规则也是相关联的。除非特殊需求,只要设置其一即可。设置字符集,即设置了默认的排序规则。


我们先来搞清楚字符、字符集与字符编码的概念。相信很多人都在这些概念上犯过迷糊。什么是字符呢? 什么是字符集呢,什么有是字符编码呢?




字符集是一组抽象的字符(charcter)组合的集合。举一个例子,所有的汉字就算一个字符集合, 所有的英语字母也算一个字符集合。 注意,我这里说它们是字符集合,而且还有双引号。是因为字符集并不简单的是字符的集合, 准确概述来说,字符集是一套符号和编码的规则。 字符集需要以某种字符编码方式来表示、存储字符。我们知道,计算机内部,所有信息最终都是一个二进制值。每一个二进制位(bit)有01两种状态。而如果用不同的01组合表示不同的字符就是编码。







说了这么多,相信有些人不能区分utf8 unicode,例如我们连接mysql的字符串,这里面就会包含字符编码与字符集。


 <string value="jdbc:mysql://192.168.xxx.xxx/test?useunicode=true&amp;characterencoding=utf-8&amp;zerodatetimebehavior=converttonull"/>


那么unicodeutf-8 utf-16 utf-32是什么关系?






mysql的排序规则(collation),一般指对字符集中字符串之间的比较、排序制定的规则, myslq排序规则特征:


o    两个不同的字符集不能有相同的校对规则;

o    每个字符集有一个默认校对规则;

o    存在校对规则命名约定:以其相关的字符集名开始,中间包括一个语言名,并且以_ci(大小写不敏感)、_cs(大小写敏感)或_bin(二元)结束。



其实对于排序规则的细节问题,我们关注较少,反而对排序规则中是否涉及大小写敏感关注较多。 例如,系统使用utf8字符集,若使用utf8_bin校对规则执行sql查询时区分大小写,使用utf8_general_ci不区分大小写(默认的utf8字符集对应的校对规则是utf8_general_ci)







  mysql数据库的相关字符集设置相当灵活和复杂(灵活性太高,就会引起复杂性),要搞清、弄懂这些概念还真需要花一点时间。这个也是很多人遭遇中文乱码的真正原因。具体来说,mysql的字符集有分层的、灵活的特点。如果没有指定字段的字符集,那么就默认使用当前表的字符集,如果没有指定当前表的字符集,那么就会默认使用当前数据库的字符集....  要了解不同字符集的分类,我们先从mysql的系统变量(字符集相关的系统变量)开始



mysql> show variables like 'character_set%';
| variable_name            | value                      |
| character_set_client     | utf8                       |
| character_set_connection | utf8                       |
| character_set_database   | utf8                       |
| character_set_filesystem | binary                     |
| character_set_results    | utf8                       |
| character_set_server     | latin1                     |
| character_set_system     | utf8                       |
| character_sets_dir       | /usr/share/mysql/charsets/ |
8 rows in set (0.00 sec)



character_set_client            客户端数据使用的字符集


mysql client发送给mysqld的语句或数据使用字符集。


the character set for statements that arrive from the client. the session value of this variable is set using the character set requested by the client when the client connects to the server. (many clients support a --default-character-set option to enable this character set to be specified explicitly. see also section 10.1.4, “connection character sets and collations”.) the global value of the variable is used to set the session value in cases when the client-requested value is unknown or not available, or the server is configured to ignore client requests:


the client is from a version of mysql older than mysql 4.1, and thus does not request a character set.


the client requests a character set not known to the server. for example, a japanese-enabled client requests sjis when connecting to a server not configured with sjis support.


mysqld was started with the --skip-character-set-client-handshake option, which causes it to ignore client character set configuration. this reproduces mysql 4.0 behavior and is useful should you wish to upgrade the server without upgrading all the clients.

ucs2, utf16, utf16le, and utf32 cannot be used as a client character set, which means that they also do not work for set names or set character set.


character_set_connection   连接层字符集


其实很多人对这个字符集一脸懵逼,这个字符集与character_set_client有啥区别呢? 这个字符集用于没有introducer修饰的字符串和数字到字符串的转换。



the character set used for literals that do not have a character set introducer and for number-to-string conversion. for information about introducers, seesection, “character set introducers”.


character_set_database     数据库字符集


mysql可以给实例下不同数据库单独设置各自的字符集。这个跟sql server是类似的。



the character set used by the default database. the server sets this variable whenever the default database changes. if there is no default database, the variable has the same value as character_set_server.




the file system character set. this variable is used to interpret string literals that refer to file names, such as in the load data infile and select ... into outfile statements and the load_file() function. such file names are converted from character_set_client to character_set_filesystem before the file opening attempt occurs. the default value is binary, which means that no conversion occurs. for systems on which multibyte file names are permitted, a different value may be more appropriate. for example, if the system represents file names using utf-8, set character_set_filesystem to 'utf8'.


文件系统字符集。 该变量用于解释引用文件名的字符串文字,例如在load data infileselect ... into outfile语句和load_file()函数中。 在文件打开尝试发生之前,这样的文件名将从character_set_client转换为character_set_filesystem。 默认值为二进制,这意味着不会发生转换。 对于允许多字节文件名的系统,不同的值可能更合适。例如,如果系统使用utf-8表示文件名,则将character_set_filesystem设置为utf8



character_set_results      查询结果字符集


mysqld 在返回查询结果集或者错误信息到客户端时,使用的编码字符集


the character set used for returning query results such as result sets or error messages to the client.


character_set_server       服务器字符集,默认的字符集。


服务器级别(实例级别) 的字符集。如果创建数据库时,不指定字符集,那么就会默认使用服务器的编码字符集。


the server's default character set.


character_set_system       系统元数据字符集




the character set used by the server for storing identifiers. the value is always utf8.



另外,之前的版本还有default-character-setmysql 5.5版本开始,移除了参数default_character_set 取而代之的是参数character_set_server









mysql不同版本支持的字符集有所不同,你可以使用命令show charsetshow character set来查看当前mysql版本支持的字符集。



mysql> show charset;
| charset  | description                 | default collation   | maxlen |
| big5     | big5 traditional chinese    | big5_chinese_ci     |      2 |
| dec8     | dec west european           | dec8_swedish_ci     |      1 |
| cp850    | dos west european           | cp850_general_ci    |      1 |
| hp8      | hp west european            | hp8_english_ci      |      1 |
| koi8r    | koi8-r relcom russian       | koi8r_general_ci    |      1 |
| latin1   | cp1252 west european        | latin1_swedish_ci   |      1 |
| latin2   | iso 8859-2 central european | latin2_general_ci   |      1 |
| swe7     | 7bit swedish                | swe7_swedish_ci     |      1 |
| ascii    | us ascii                    | ascii_general_ci    |      1 |
| ujis     | euc-jp japanese             | ujis_japanese_ci    |      3 |
| sjis     | shift-jis japanese          | sjis_japanese_ci    |      2 |
| hebrew   | iso 8859-8 hebrew           | hebrew_general_ci   |      1 |
| tis620   | tis620 thai                 | tis620_thai_ci      |      1 |
| euckr    | euc-kr korean               | euckr_korean_ci     |      2 |
| koi8u    | koi8-u ukrainian            | koi8u_general_ci    |      1 |
| gb2312   | gb2312 simplified chinese   | gb2312_chinese_ci   |      2 |
| greek    | iso 8859-7 greek            | greek_general_ci    |      1 |
| cp1250   | windows central european    | cp1250_general_ci   |      1 |
| gbk      | gbk simplified chinese      | gbk_chinese_ci      |      2 |
| latin5   | iso 8859-9 turkish          | latin5_turkish_ci   |      1 |
| armscii8 | armscii-8 armenian          | armscii8_general_ci |      1 |
| utf8     | utf-8 unicode               | utf8_general_ci     |      3 |
| ucs2     | ucs-2 unicode               | ucs2_general_ci     |      2 |
| cp866    | dos russian                 | cp866_general_ci    |      1 |
| keybcs2  | dos kamenicky czech-slovak  | keybcs2_general_ci  |      1 |
| macce    | mac central european        | macce_general_ci    |      1 |
| macroman | mac west european           | macroman_general_ci |      1 |
| cp852    | dos central european        | cp852_general_ci    |      1 |
| latin7   | iso 8859-13 baltic          | latin7_general_ci   |      1 |
| utf8mb4  | utf-8 unicode               | utf8mb4_general_ci  |      4 |
| cp1251   | windows cyrillic            | cp1251_general_ci   |      1 |
| utf16    | utf-16 unicode              | utf16_general_ci    |      4 |
| utf16le  | utf-16le unicode            | utf16le_general_ci  |      4 |
| cp1256   | windows arabic              | cp1256_general_ci   |      1 |
| cp1257   | windows baltic              | cp1257_general_ci   |      1 |
| utf32    | utf-32 unicode              | utf32_general_ci    |      4 |
| binary   | binary pseudo charset       | binary              |      1 |
| geostd8  | geostd8 georgian            | geostd8_general_ci  |      1 |
| cp932    | sjis for windows japanese   | cp932_japanese_ci   |      2 |
| eucjpms  | ujis for windows japanese   | eucjpms_japanese_ci |      3 |
40 rows in set (0.00 sec)



第一列表示字符集、 第二列表示字符集描述、第三列表示默认排序规则、第四列表示字符集的一个字符占用的最大字节数。当然你也可以使用下面sql语句查询,效果是一样的。





mysql> select * from information_schema.character_sets;












可以使用show variables like '%character%'查看相关字符集。



mysql> show variables like '%character%';
| variable_name            | value                      |
| character_set_client     | utf8                       |
| character_set_connection | utf8                       |
| character_set_database   | utf8                       |
| character_set_filesystem | binary                     |
| character_set_results    | utf8                       |
| character_set_server     | latin1                     |
| character_set_system     | utf8                       |
| character_sets_dir       | /usr/share/mysql/charsets/ |
8 rows in set (0.00 sec)






mysql> show variables like '%character_set_client%';
| variable_name        | value |
| character_set_client | utf8  |
1 row in set (0.00 sec)







mysql> show variables like 'character_set_connection';
| variable_name            | value |
| character_set_connection | utf8  |
1 row in set (0.00 sec)






mysql> show variables like 'character_set_results';
| variable_name         | value |
| character_set_results | utf8  |
1 row in set (0.01 sec)






mysql> show variables like 'character_set_server';
| variable_name        | value  |
| character_set_server | latin1 |
1 row in set (0.00 sec)
mysql> status;








mysql> use yourdb;
mysql> show variables like 'character_set_database'
mysql> status;





mysql>show create database dbname  --dbname为你要查看的数据库。
mysql> show create database mydb;
| database | create database                                                 |
| mydb     | create database `mydb` /*!40100 default character set utf8mb4*/ |
1 row in set (0.00 sec)






 select schema_name,default_character_set_name,default_collation_name

 from information_schema.schemata  ;







方式1: show create table xxxx;





方式2: 查看information_schema.tables下的table_collation,从而推断表的字符集



select table_schema, table_name,table_collation from information_schema.tables;
select table_schema, table_name,table_collation 
from information_schema.tables
where table_name='test';







如下所示,如果在创建表的时候已经指定了字段使用的字符集,那么show create table xxx 就能看到字段使用字符集,如果没有显示指定字段的字符集,show create table xxx 看不到其字符集,其实,这表示字段就会默认使用表的字符集。


mysql> drop table if exists test;
query ok, 0 rows affected (0.05 sec)
mysql> create table test(name1 varchar(10) character set gbk, name2 varchar(10));
query ok, 0 rows affected (0.06 sec)
mysql> show create table test;
| table | create table                                      |
| test  | create table `test` (
  `name1` varchar(10) character set gbk default null,
  `name2` varchar(10) collate utf8_bin default null
) engine=innodb default charset=utf8 collate=utf8_bin       |
1 row in set (0.00 sec)
mysql> drop table if exists test;
query ok, 0 rows affected (0.01 sec)
mysql> create table test(name varchar(10));
query ok, 0 rows affected (0.03 sec)
mysql> show create table test;
| table | create table                                                                                   |
| test  | create table `test` (
  `name` varchar(10) default null
) engine=innodb default charset=utf8 |
1 row in set (0.00 sec)







mysql> show full columns from test;
| field | type        | collation       | null | key | default | extra | privileges                      | comment |
| name  | varchar(10) | utf8_general_ci | yes  |     | null    |       | select,insert,update,references |         |
1 row in set (0.00 sec)









修改字段的字符集语法如下所示,当然,成功的修改字符集是有限制的,具体参考10.1.7 column character set conversion,修改前最好做好备份,充分测试。


alter table xxx modify xxx varchar(50) character set utf8;                                                





mysql> create table test(name varchar(10));
query ok, 0 rows affected (0.03 sec)
mysql> show create table test;
| table | create table                                                                                                 |
| test  | create table `test` (
  `name` varchar(10) collate utf8_bin default null
) engine=innodb default charset=utf8 collate=utf8_bin |
1 row in set (0.00 sec)
mysql> alter table test charset=gbk;
query ok, 0 rows affected (0.02 sec)
records: 0  duplicates: 0  warnings: 0
mysql> alter table table_name character set xxx;







mysql> alter table table_name convert to character set xxx;




    alter database database_name character set xxx;






mysql> set character_set_database=utf8mb4;
query ok, 0 rows affected (0.00 sec)
mysql> set global character_set_database=utf8mb4;
query ok, 0 rows affected (0.00 sec)




mysql> set global character_set_server=utf8mb4;
query ok, 0 rows affected (0.00 sec)
mysql> show global variables like 'character_set_server';
| variable_name        | value   |
| character_set_server | utf8mb4 |
1 row in set (0.00 sec)




6: 修改客户端字符集(character_set_client、character_set_results、character_set_connection)。


mysql> show variables like 'character_set_client';
| variable_name        | value |
| character_set_client | utf8  |
1 row in set (0.00 sec)
mysql> set character_set_client=latin1;
query ok, 0 rows affected (0.00 sec)
mysql> show variables like 'character_set_client';
| variable_name        | value  |
| character_set_client | latin1 |
1 row in set (0.00 sec)
set character_set_client = utf8;
set character_set_results = utf8;
set character_set_connection = utf8;



另外,set names 'charset_name' [collate 'collation_name'] 相当于set character_set_client = charset_name; set character_set_results = charset_name; set character_set_connection = charset_name;


mysql> show variables like 'character_set_client';
| variable_name        | value |
| character_set_client | utf8  |
1 row in set (0.01 sec)
mysql> show variables like 'character_set_results';
| variable_name         | value |
| character_set_results | utf8  |
1 row in set (0.00 sec)
mysql> show variables like 'character_set_connection';
| variable_name            | value |
| character_set_connection | utf8  |
1 row in set (0.00 sec)
mysql> set names 'utf8mb4';
query ok, 0 rows affected (0.02 sec)
mysql> show variables like 'character_set%';
| variable_name            | value                      |
| character_set_client     | utf8mb4                    |
| character_set_connection | utf8mb4                    |
| character_set_database   | latin1                     |
| character_set_filesystem | binary                     |
| character_set_results    | utf8mb4                    |
| character_set_server     | latin1                     |
| character_set_system     | utf8                       |
| character_sets_dir       | /usr/share/mysql/charsets/ |
8 rows in set (0.00 sec)






一般而言,我们可能选择utf8mb4这个字符集,而不选择utf8. 这个是因为mysqlutf8并不是真正的utf8字符集,mysqlutf8字符编码只有三个字节,节省空间但不能表达全部的utf-8,只能支持基本多文种平面basic multilingual planebmp),而utf8mb4才是真正的支持utf8编码,网上有篇文章专门介绍这个。 一般而言,我们会选择utf8mb4,而不会选择gb2312gbk。 对于gb2312而言,有些偏僻字(例如:洺)不能保存。gbk是中文字符编码是双字节的。虽然节省空间,但是有可能带来一些其他问题。在当前环境下,相信存储空间对于绝大部分公司来说都不是什么问题。









mysql> show collation;


mysql> show variables like 'collation_%';


| variable_name        | value             |


| collation_connection | utf8_general_ci   |

| collation_database   | latin1_swedish_ci |

| collation_server     | latin1_swedish_ci |


3 rows in set (0.00 sec)









为什么会出现乱码呢? 这个是我们经常遇到的问题。要说清楚乱码产生的原因。如下图所示,我们简单的







1.  在客户端对相关数据进行编码。


2. mysql接收到请求时,它会询问客户端通过什么方式对字符编码:客户端通过character_set_client系统变量告知mysql客户端的编码方式,当mysql发现客户端的client所传输的字符集与自己的connection不一样时,它会将请求数据从character_set_client转换为character_set_connection


3. 进行内部操作前会将请求数据从character_set_connection转换为内部操作字符集:在存储的时候会判断编码是否与内部存储字符集(按照优先级判断字符集类型,如下所示)上的编码一致,如果不一致需要转换,其流程如下:


     使用每个数据字段的character set设定值;

     若上述值不存在,则使用对应数据表的default character set设定值(mysql扩展,非sql标准)

     若上述值不存在,则使用对应数据库的default character set设定值;














unicode编码:0000534e   十进制:21326

utf8编码 :e58d8e



gbk编码:  bbaa




如果字是以utf8编码存储的,值为e58d8e, 占3个字节,但是转换为latin1编码的时候(latin1编码是1个字节一个字符),就会乱码了,如下所示:


mysql> show variables like '%character%';
| variable_name            | value                      |
| character_set_client     | utf8                       |
| character_set_connection | utf8                       |
| character_set_database   | utf8                       |
| character_set_filesystem | binary                     |
| character_set_results    | utf8                       |
| character_set_server     | latin1                     |
| character_set_system     | utf8                       |
| character_sets_dir       | /usr/share/mysql/charsets/ |
8 rows in set (0.01 sec)
mysql> create database mydb default character set utf8;
query ok, 1 row affected (0.00 sec)
mysql> use mydb;
database changed
mysql> create table test(name varchar(12));
query ok, 0 rows affected (0.04 sec)
mysql> insert into test value('华');
query ok, 1 row affected (0.00 sec)
mysql> select * from test;
| name |
| 华   |
1 row in set (0.00 sec)



如果我使用客户端工具ems mysql连接数据库,如果系统变量character_set_resultslatin1,此时,你会发现字变成乱码。如下所示。














