Java编码及网络传输中的编码问题

发表于:2012-1-17 09:22

字体: | 上一篇 | 下一篇 | 我要投稿

 作者:cherishLC    来源:51Testing软件测试网采编

分享:

  3、乱码了还能恢复?

  问题如下:

  貌似图中的utf-8改成iso8859-1是可以的,utf-8在字符串中有中文时不行(但英文部分仍可正确解析)!!!毕竟GBK的字节流对于utf-8可能是无效的,碰到无效的字符怎么解析,是否可逆那可不好说啊。

  测试代码如下:

  1. package tests;  
  2.  
  3. import java.io.UnsupportedEncodingException;  
  4. import java.net.URLEncoder;  
  5.  
  6. /**  
  7.  * @author LC  
  8.  * @version: 2012_01_12  
  9.  */ 
  10. public class TestEncoding {  
  11.     static String utf8 = "utf-8";  
  12.     static String iso = "iso-8859-1";  
  13.     static String gbk = "GBK";  
  14.  
  15.     public static void main(String[] args) throws UnsupportedEncodingException {  
  16.         String str = "hi好啊me";  
  17.         //      System.out.println("?的十六进制为:3F");  
  18.         //      System.err  
  19.         //              .println("出现中文时,如果编码方案不支持中文,每个字符都会被替换为?的对应编码!(如在iso-8859-1中)");  
  20.         System.out.println("原始字符串:\t\t\t\t\t\t" + str);  
  21.         String utf8_encoded = URLEncoder.encode(str, "utf-8");  
  22.         System.out.println("用URLEncoder.encode()方法,并用UTF-8编码后:\t\t" + utf8_encoded);  
  23.         String gbk_encoded = URLEncoder.encode(str, "GBK");  
  24.         System.out.println("用URLEncoder.encode()方法,并用GBK编码后:\t\t" + gbk_encoded);  
  25.         testEncoding(str, utf8, gbk);  
  26.         testEncoding(str, gbk, utf8);  
  27.         testEncoding(str, gbk, iso);  
  28.         printBytesInDifferentEncoding(str);  
  29.         printBytesInDifferentEncoding(utf8_encoded);  
  30.         printBytesInDifferentEncoding(gbk_encoded);  
  31.     }  
  32.  
  33.     /**  
  34.      * 测试用错误的编码方案解码后再编码,是否对原始数据有影响  
  35.      *   
  36.      * @param str  
  37.      *            输入字符串,Java的String类型即可  
  38.      * @param encodingTrue  
  39.      *            编码方案1,用于模拟原始数据的编码  
  40.      * @param encondingMidian  
  41.      *            编码方案2,用于模拟中间的编码方案  
  42.      * @throws UnsupportedEncodingException  
  43.      */ 
  44.     public static void testEncoding(String str, String encodingTrue,  
  45.             String encondingMidian) throws UnsupportedEncodingException {  
  46.         System.out.println();  
  47.         System.out  
  48.                 .printf("%s编码的字节数据->用%s解码并转为Unicode编码的JavaString->用%s解码变为字节流->读入Java(用%s解码)后变为Java的String\n",  
  49.                         encodingTrue, encondingMidian, encondingMidian,  
  50.                         encodingTrue);  
  51.         System.out.println("原始字符串:\t\t" + str);  
  52.         byte[] trueEncodingBytes = str.getBytes(encodingTrue);  
  53.         System.out.println("原始字节流:\t\t" + bytesToHexString(trueEncodingBytes)  
  54.                 + "\t\t//即用" + encodingTrue + "编码后的字节流");  
  55.         String encodeUseMedianEncoding = new String(trueEncodingBytes,  
  56.                 encondingMidian);  
  57.         System.out.println("中间字符串:\t\t" + encodeUseMedianEncoding + "\t\t//即用" 
  58.                 + encondingMidian + "解码原始字节流后的字符串");  
  59.         byte[] midianBytes = encodeUseMedianEncoding.getBytes("Unicode");  
  60.         System.out.println("中间字节流:\t\t" + bytesToHexString(midianBytes)  
  61.                 + "\t\t//即中间字符串对应的Unicode字节流(和Java内存数据一致)");  
  62.         byte[] redecodedBytes = encodeUseMedianEncoding  
  63.                 .getBytes(encondingMidian);  
  64.         System.out.println("解码字节流:\t\t" + bytesToHexString(redecodedBytes)  
  65.                 + "\t\t//即用" + encodingTrue + "解码中间字符串(流)后的字符串");  
  66.         String restored = new String(redecodedBytes, encodingTrue);  
  67.         System.out.println("解码字符串:\t\t" + restored + "\t\t和原始数据相同?  " 
  68.                 + restored.endsWith(str));  
  69.     }  
  70.  
  71.     /**  
  72.      * 将字符串分别编码为GBK、UTF-8、iso-8859-1的字节流并输出  
  73.      *   
  74.      * @param str  
  75.      * @throws UnsupportedEncodingException  
  76.      */ 
  77.     public static void printBytesInDifferentEncoding(String str)  
  78.             throws UnsupportedEncodingException {  
  79.         System.out.println("");  
  80.         System.out.println("原始String:\t\t" + str + "\t\t长度为:" + str.length());  
  81.         String unicodeBytes = bytesToHexString(str.getBytes("unicode"));  
  82.         System.out.println("Unicode bytes:\t\t" + unicodeBytes);  
  83.         String gbkBytes = bytesToHexString(str.getBytes("GBK"));  
  84.         System.out.println("GBK bytes:\t\t" + gbkBytes);  
  85.         String utf8Bytes = bytesToHexString(str.getBytes("utf-8"));  
  86.         System.out.println("UTF-8 bytes:\t\t" + utf8Bytes);  
  87.         String iso8859Bytes = bytesToHexString(str.getBytes("iso-8859-1"));  
  88.         System.out.println("iso8859-1 bytes:\t" + iso8859Bytes + "\t\t长度为:" 
  89.                 + iso8859Bytes.length() / 3);  
  90.         System.out.println("可见Unicode在之前加了两个字节FE FF,之后则每个字符两字节");  
  91.     }  
  92.  
  93.     /**  
  94.      * 将该数组转的每个byte转为两位的16进制字符,中间用空格隔开  
  95.      *   
  96.      * @param bytes  
  97.      *            要转换的byte序列  
  98.      * @return 转换后的字符串  
  99.      */ 
  100.     public static final String bytesToHexString(byte[] bytes) {  
  101.         StringBuilder sb = new StringBuilder(bytes.length * 2);  
  102.         for (int i = 0; i < bytes.length; i++) {  
  103.             String hex = Integer.toHexString(bytes[i] & 0xff);// &0xff是byte小于0时会高位补1,要改回0  
  104.             if (hex.length() == 1)  
  105.                 sb.append('0');  
  106.             sb.append(hex);  
  107.             sb.append(" ");  
  108.         }  
  109.         return sb.toString().toUpperCase();  
  110.     }  
  111. }

22/2<12
价值398元的测试课程免费赠送,填问卷领取吧!

关注51Testing

联系我们

快捷面板 站点地图 联系我们 广告服务 关于我们 站长统计

法律顾问:上海漕溪律师事务所 项棋律师
版权所有 上海博为峰软件技术股份有限公司 Copyright©51testing.com 2003-2022
投诉及意见反馈:webmaster@51testing.com; 业务联系:service@51testing.com 021-64471599-8017

沪ICP备05003035号

沪公网安备 31010102002173号