使用C#处理基于比特流的数据

您的位置：
门户
>> 文章精选
>> 软件开发专栏
>> .net
>> 查看资讯

发表于：2016-10-14 09:49

作者：durow 来源：51Testing软件测试网采编

　　0x03 7比特字符编码

　　我们常用的ASCII字符是使用8bit编码的，但其中真正常用的那些字符只有7bit，最高位为0，所以对于一篇英文文章，我们可以使用7bit重新编码而不损失信息。编码的过程就是把文章字符依次取出，并用BitWriter按照7bit写入，最后获取新编码的byte[]。为了能够正确读取，我们规定当读到8bit数据为2时代表数据开始，接下来16bit数据为后面字符个数。代码如下：

public byte[] Encode(string text)

{

var len = text.Length * 7 + 24;

var writer = new BitWriter(len);

writer.WriteByte(2);

writer.WriteInt(text.Length, 16);

for (int i = 0; i < text.Length; i++)

{

var b = Convert.ToByte(text[i]);

writer.WriteByte(b, 7);

}

return writer.GetBytes();

}

　　同样读取数据的时候，我们先寻找开始标识符，然后读出字符个数，根据字符个数依次读取字符，代码如下：

public string Decode(byte[] data)

{

var reader = new BitReader(data);

while (reader.Remain > 8)

{

var start = reader.ReadByte();

if (start == 2)

break;

}

var len = reader.ReadInt(16);

var result = new StringBuilder(len);

for (int i = 0; i < len; i++)

{

var b = reader.ReadInt(7);

var ch = Convert.ToChar(b);

result.Append(ch);

}

return result.ToString();

}

　　由于数据头的存在，当编码几个字符时编码后数据反而更长了

　　不过随着字符越多，编码后节省的越多。

　　0x04 6比特字符编码

　　从节省数据量的角度，如果允许损失部分信息，例如损失掉字母大小写，是可以进一步减少编码所需比特数的。26个字母+10个数字+符号，可以用6bit（64）进行编码。不过使用这种编码方式就不能用ASCII的映射方式了，我们可以自定义映射，例如0-10映射为十个数字等等，也可以使用自定义的字典，也就是传说中的密码本。经常看国产谍战片的应该都知道密码本吧，密码本就是一个字典，把字符进行重新映射获取明文，算是简单的单码替代，加密强度很小，在获取足量数据样本后基于统计很容易就能破解。下面我们就尝试基于自定义字典用6bit重新编码。

　　编码过程：

　　仍然像7bit编码那样写入消息头，然后依次取出文本中的字符，从字典中找到对应的数字，把数字按照6bit长度写入到BitWriter

public byte[] Encode(string text)

{

text = text.ToUpper();

var len = text.Length * 6 + 24;

var writer = new BitWriter(len);

writer.WriteByte(2);

writer.WriteInt(text.Length, 16);

for (int i = 0; i < text.Length; i++)

{

var index = GetChar6Index(text[i]);

writer.WriteInt(index, 6);

}

return writer.GetBytes();

}

private int GetChar6Index(char c)

{

for (int i = 0; i < 64; i++)

{

if (Dict.Custom[i] == c)

return i;

}

return 10; //return *

}

　　解码过程：

　　解码也很简单，找到消息头，依次按照6bit读取数据，并从字典中找到对应的字符：

public string Decode(byte[] data)

{

var reader = new BitReader(data);

while(reader.Remain > 8)

{

var start = reader.ReadByte();

if (start == 2)

break;

}

var len = reader.ReadInt(16);

var result = new StringBuilder(len);

for (int i = 0; i < len; i++)

{

var index = reader.ReadInt(6);

var ch = Dict.Custom[index];

result.Append(ch);

}

return result.ToString();

}

　　同样一段文本用6bit自定义字典编码后数据长度更短了，不过损失了大小写和换行等格式。

　　如果从加密的角度考虑，可以设置N个自定义字典（假设10个），在消息头中用M bit（例如4bit）表示所用的字典。这样在每次编码时随机选择一个字典编码，解码时根据4bit数据选择相应字典解码，并且定时更换字典可以增大破解难度。感兴趣的园友可以自行尝试。

　　0x05 写在最后

　　以上是我处理比特流数据的一点心得，仅仅是我自己能想到的一种方法，满足了我的需求。如果有更效率的更合理的方法，希望赐教。另外编码和解码的两个例子是出于有趣写着玩的，在实际中估计也用不到。毕竟现在带宽这么富裕，数据加密也有N种可靠的多的方式。

22/2<12

重磅发布，2022软件测试行业现状调查报告~

搜索风云榜

测试技术了解

性能测试成长之路

挣点稿费

走进神秘的银行测试

文章资料精选