MySQL乱码问题如何排查

发表于:2022-1-29 09:16

字体: | 上一篇 | 下一篇 | 我要投稿

 作者:数据和云    来源:Java进阶学习交流

#
MySQL
分享:
  MySQL客户端和服务器是怎么通信的?
  1.首先请求会被MySQL客户端编码为字节序列之后通过网络传输到服务器。
  对于MySQL自带的客户端来说,这个编码过程使用的字符集和我们使用的操作系统的默认字符集是一样的,类Unix系统的默认字符集就是utf8,Windows系统的默认字符集就是gbk。
  启动MySQL客户端时,MySQL客户端就会检测到这个操作系统使用的是utf8字符集,并将客户端默认字符集设置为utf8。如果MySQL不支持自动检测到的操作系统当前正在使用的字符集,或者在某些情况下不允许自动检测的话,MySQL会使用它自己的内建的默认字符集作为客户端默认字符集。这个内建的默认字符集在MySQL 5.7以及之前的版本中是latin1,在MySQL 8.0中修改为了utf8mb4。
  如果我们在启动MySQL客户端是使用了default-character-set启动参数,那么客户端的默认字符集将不再检测操作系统当前正在使用的字符集,而是直接使用启动参数default-character-set所指定的值。比方说我们使用如下命令来启动客户端:
  mysql --default-character-set=utf8

  那么不论我们使用什么操作系统,操作系统目前使用的字符集是什么,我们都将会以utf8作为MySQL客户端的默认字符集。
  2.服务器收到字节序列请求之后,会认为该字节串是按照character_set_client系统变量编码的,之后将其从character_set_client转换到character_set_connection,再进行更深入的处理。
  3.最后将响应发送至客户端时,又会按照character_set_results进行编码。
  4.客户端收到响应字节串之后,按照本客户端规定的字符集进行解码。
  对于MySQL自带的客户端来说,这个解码过程使用的字符集和我们使用的操作系统的默认字符集是一样的,类Unix系统的默认字符集就是utf8,Windows系统的默认字符集就是gbk。
  从通信转码流程来看,要保证没有乱码出现:
  character_set_client、character_set_connection和character_set_result这三个系统变量应该和客户端的默认字符集相同即可。
  SET names命令可以一次性修改这三个系统变量。
  实验验证
  数据库字符集:
  1.客户端发送请求时会将字符'我'按照utf8进行编码,也就是:0xE68891。
  2.服务器收到请求后发现有前缀_gbk,则不会将其后边的字节0xE68891进行从character_set_client到character_set_connection的转换,而是直接把0xE68891认为是某个字符串由gbk编码后得到的字节序列。
  3.再把上述0xE68891从gbk转换为character_set_results,也就是utf8。0xE688在gbk中代表汉字'鎴',而0x91无法解码(我们可以看到上述查询结果中有1个warning)。
  结论
  解决乱码问题,要从客户端到服务器通信流程中的字符集编码、转码、解码来分析是哪一步的问题。
  一般情况下,保证:
  ·character_set_client
  · character_set_results
  · character_set_connection
  · 客户端的字符集编码
  当其一致时就可解决乱码问题。

  本文内容不用于商业目的,如涉及知识产权问题,请权利人联系51Testing小编(021-64471599-8017),我们将立即处理
《2023软件测试行业现状调查报告》独家发布~

关注51Testing

联系我们

快捷面板 站点地图 联系我们 广告服务 关于我们 站长统计 发展历程

法律顾问:上海兰迪律师事务所 项棋律师
版权所有 上海博为峰软件技术股份有限公司 Copyright©51testing.com 2003-2024
投诉及意见反馈:webmaster@51testing.com; 业务联系:service@51testing.com 021-64471599-8017

沪ICP备05003035号

沪公网安备 31010102002173号