Base64 编码原理及代码实现

  • A+
所属分类:信息安全
Base64 编码原理及代码实现

所谓 base64 编码就是从 ASCII 码表中选取64个可打印字符(A-Za-z0-9+/)作为基本字符集对其它字符进行编码转换。加上作为填充的 “=” 实际上是 65 个字符。

Base64 产生的原因

要想了解 base64 就得先了解下 ASCII 码表, ASCII 码表是由以英语为母语的美国制定。英语用128个符号编码就够了,但是用来表示其他语言,128个符号是不够的。比如,在法语中,字母上方有注音符号,它就无法用 ASCII 码表示。于是,一些欧洲国家就决定,利用字节中闲置的最高位编入新的符号。比如,法语中的é的编码为130(二进制10000010)。这样一来,这些欧洲国家使用的编码体系,可以表示最多256个符号。

但是,这里又出现了新的问题。不同的国家有不同的字母,因此,哪怕它们都使用256个符号的编码方式,代表的字母却不一样。比如,130在法语编码中代表了é,在希伯来语编码中却代表了字母Gimel (ג),在俄语编码中又会代表另一个符号。但是不管怎样,所有这些编码方式中,0--127表示的符号是一样的,不一样的只是128--255的这一段。

至于亚洲国家的文字,使用的符号就更多了,汉字就多达10万左右。一个字节只能表示256种符号,肯定是不够的,就必须使用多个字节表达一个符号。比如,简体中文常见的编码方式是 GB2312,使用两个字节表示一个汉字,所以理论上最多可以表示 256 * 256 = 65536 个符号。

而在网络上交换数据时,比如说从A地传到B地,往往要经过多个路由设备,由于不同的设备对字符的处理方式有一些不同,这样那些不可见字符就有可能被处理错误,这是不利于传输的。所以就先把数据先做一个 Base64 编码,统统变成可见字符,这样出错的可能性就大降低了。

为什么是 Base64?

为什么是 base64 而不是 base128、base256 呢?其实原因很简单,因为在 ASCII 码表中的可打印字符只有 95 个,所以选取 64 个可打印字符是最为合理的。既然如此,那是不是也有 base32、base16 呢?对,当然可以有。只是目前大多用到的还是 base64 编码。

Base64 编码的理论实现

前面根据 A-Za-z0-9+/ 字符集可以得到一张索引表:

索引对应字符索引对应字符索引对应字符索引对应字符
0A17R34i51z
1B18S35j520
2C19T36k531
3D20U37l542
4E21V38m553
5F22W39n564
6G23X40o575
7H24Y41p586
8I25Z42q597
9J26a43r608
10K27b44s619
11L28c45t62+
12M29d46u63/
13N30e47v
14O31f48w
15P32g49x
16Q33h50y

Base64 具体编码转换步骤如下:

  1. 将待转换的字符串以每 3 个字节分为一组,1byte = 8bit,每一组正好 24 个二进制位。
  2. 将上面的 24 个二进制位划分为每 6 位一组,形成 4 组。
  3. 每组前面加两个 0,形成 8 位一组,即 4 个字节。
  4. 根据上面 Base64 对照表获取对应的值,形成 Base64 编码。

举个例子:下面表格是以字符串 "Man" 作为原始字符串进行 Base64 编码的过程。

文本Man
ASCII7797110
二进制010011010110000101101110
分组00 01001100 01011000 00010100 101110
索引1922546
Base64编码TWFu

那么你可能会问,如果我原始字符串少于 3 个字节怎么办呢?

如果输入原始字符串长度不能被 3 整除的话,我们需要用 "=" 对其 Base64 编码进行填充。为什么需要 "=" 填充呢?因为 Base64 解码是以 4 位字符一划分的,如果你不对其进行填充就会导致解码失败。

当原始字符串的二进制位不是 6 的倍数的时候,我们依然会将其划分为 6 位一组,然后将最后一组用 0 填充至 6 位(在末尾填充)。

举个例子:下面是对字符串 "AB" 的编码过程,其编码结果为 "QUI="。

文本AB
ASCII6566
二进制0100000101000010
分组00 01000000 010100 00 001000
索引16208
Base64编码QUI=

注意:中文字符有很多的编码,如 UTF-8、GBK、GB2312 等,不同的编码都会对 Base64 编码产生影响。

源代码

base64.h

base64.c

main.c

编译运行:

Reference

http://www.ruanyifeng.com/blog/2007/10/ascii_unicode_and_utf-8.html

https://blog.csdn.net/wo541075754/article/details/81734770

ultravires

发表评论

您必须才能发表评论!