MySQL乱码问题以及utf8mb4字符集

reblue520

14924人浏览 · 2016-09-14 20:08:33

reblue520 · 2016-09-14 20:08:33 发布

MySQL乱码问题以及utf8mb4字符集

1.乱码

推荐大家看深入MySQL字符集设置，区分检查client端、server端的编码；最简单暴力的方式，是在所有的环节都显式明确的指定相同的编码，包括ssh客户端也指定为相同编码。

比如使用python的MySQLdb连接MySQL时默认的charset是latin1，需要自己指定charset=’utf8′，即使是在服务器端的init-connect=’SET NAMES utf8′，MySQLdb也会使用latin1覆盖该选项；可以参照这篇文章；

emoji表情与utf8mb4

关于emoji表情的话mysql的utf8不支持，需要修改设置为utf8mb4才能支持。

MYSQL 5.5 之前， UTF8 编码只支持1-3个字节，只支持BMP这部分的unicode编码区， BMP是从哪到哪，到 http://en.wikipedia.org/wiki/Mapping_of_Unicode_characters 这里看，基本就是0000～FFFF这一区。从MYSQL5.5开始，可支持4个字节UTF编码utf8mb4，一个字符最多能有4字节，所以能支持更多的字符集。

utf8mb4 is a superset of utf8
utf8mb4兼容utf8，且比utf8能表示更多的字符。

2.修改方法

服务器端

修改数据库配置文件/etc/my.cnf

character-set-server=utf8mb4
collation_server=utf8mb4_unicode_ci

重启MySQL（按照官方文档，这两个选项都是可以动态设置的，但是实际的经验是Server必须重启一下）

已有的表修改编码为utf8mb4

ALTER TABLE
tbl_name
CONVERT TO CHARACTER SET
charset_name;
使用下面这个语句只是修改了表的default编码

ALTER TABLE etape_prospection CHARSET=utf8;

客户端

jdbc的连接字符串不支持utf8mb4，这个这种方式来解决的，如果服务器端设置了character_set_server=utf8mb4，则客户端会自动将传过去的utf-8视作utf8mb4。

Connector/J did not support utf8mb4 for servers 5.5.2 and newer.
Connector/J now auto-detects servers configured with character_set_server=utf8mb4 or treats the Java encoding utf-8 passed using characterEncoding=... as utf8mb4 in the SET NAMES= calls it makes when establishing the connection. (Bug #54175)

其他的client端，比如php、python需要看下client是否支持，如果不能在连接字符串中指定的话，可以在获取连接之后，执行”set names utf8mb4″来解决这个问题；

因为utf8mb4是utf8的超集，理论上即使client修改字符集为utf8mb4，也会不会对已有的utf8编码读取产生任何问题。

3.创建数据库编码为utf8mb4字符集为utf8mb4_unicode_ci的方法：

CREATE DATABASE testdb charset utf8mb4 COLLATE utf8mb4_unicode_ci;
grant select,insert,update on testdb.* to test@'%' identified by "test";

一门面向 Data 和 AI 的低代码、云原生的开源编程语言

无需安装部署，在线快速体验 Byzer

更多推荐

编译时权限控制

前言权限控制，对于 MLSQL 而言的重要程度可以说是生命线。 MLSQL 需要面对各式各样的资源访问，比如 MySQL, Oracle,HDFS，Hive，Kafka，Sorl，ElasticSearch，Redis，API，Web等等，不同用户对这些数据源（以及表，列）的权限是不一样的。传统模式是，每个用户都需要有个 proxy user，然后到每个数据源里面给这个 proxy user

Byzer 白泽

Byzer 支持 JDBC 聚合下推

聚合下推PR链接聚合下推我们知道 Byzer 支持多数据源和联邦查询，可以方便分析师在一个平台上快速的分析来自多种数据源的数据，从而进行灵活的探索式分析。使用场景和优势当前 Byzer 中加载数据的方式会拉取明细数据到 spark 中进行聚合计算，对于小数据量或者在分布式文件系统上的数据源来说是常规操作。但是对于 JDBC 数据源或者有分析能力的 OLAP 系统来说拉取明细数据可能就不是最

Byzer 白泽

Byzer 术语表

Byzer-lang Byzer ，又称为 Byzer-lang，一门面向 Data 和 AI 的低代码、云原生的开源编程语言。 Byzer 是一门结合了声明式编程和命令式编程的混合编程语言，其低代码且类 SQL 的编程逻辑配合内置算法及插件的加持，能帮助数据工作者们高效打通数据链路，完成数据的清洗转换，并快速地进行机器学习相关的训练及预测。 Byzer 希望能够提供一套语言、一个引擎，就能覆盖整