CPU 向内存保存数据的方式有 222 种,这意味着 CPU 解析数据的方式也分为 222 种:
例如,对于整数 0x123456780x123456780x12345678 来说,0x120x120x12 是最高位字节,0x780x780x78 是最低位字节。假设在 0x200x200x20 号开始的地址中保存 444 字节 int 类型数 0x123456780x123456780x12345678。
大端序 CPU 保存方式如下图所示:
小端序 CPU 保存方式如下图所示:
从以上分析可以看出,每种 CPU 的数据保存方式均不同。因此,代表 CPU 数据保存方式的主机字节序(Host Byte Order)在不同 CPU 中也各不相同。目前主流的 Intel 系列 CPU 以小端序方式保存数据。
接下来分析 222 台字节序不同的计算机之间数据传递过程中可能出现的问题,如下图所示。
在上图中,大端序系统传输数据 0x12340x12340x1234 时未考虑字节序问题,而直接以 0x120x120x12、0x340x340x34 的顺序发送。结果接收端以小端序方式保存数据,因此小端序接收的数据变成 0x34120x34120x3412,而非 0x12340x12340x1234。
正因如此,在通过网络传输数据时约定统一方式,这种约定称为网络字节序(Network Byte Order),非常简单:统一为大端序,即先把数据数组转化成大端序格式再进行网络传输。因此,所有计算机接收数据时应识别该数据是网络字节序格式,小端序系统传输数据时应转化为大端序排列方式。
相信大家已经理解了 HelloWorld 服务器端和客户端为何要在填充 sockaddr_in
结构体前将数据转换成网络字节序。
接下来介绍帮助转换字节序的函数。
unsigned short htons(unsigned short);
unsigned short ntohs(unsigned short);
unsigned long htonl(unsigned long);
unsigned long ntohl(unsigned long);
通过函数名应该能掌握其功能,只需了解以下细节。
h
代表主机(host)字节序n
代表网络(network)字节序s
指的是 short,l
指的是 long(Linux中long类型占用4个字节,这很关键)因此,htons 是 h、to、n、s 的组合,可以解释为“把short型数据从主机字节序转化为网络字节序”。再举个例子,ntohs 可以解释为“把short型数据从网络字节序转化为主机字节序”。
通常,以 s
作为后缀的函数中,s
代表 222 个字节 short,因此用于端口号转换;以 l
作为后缀的函数中,l
代表 444 个字节,因此用于IP地址转换。
下面通过示例代码 endian_conv.c 说明以上函数的调用过程:
#include
#include int main(int argc, char *argv[])
{// 各保存2个字节、4个字节的数据。当然,若运行程序的CPU不同,则保存的字节序也不同。unsigned short host_port = 0x1234;unsigned short net_port;unsigned long host_addr = 0x12345678;unsigned long net_addr;// 变量host_port和host_addr中的数据转化为网络字节序。若运行环境为小端序CPU,则按改变之后的字节序保存。net_port = htons(host_port);net_addr = htonl(host_addr);printf("Host ordered port: %#x\n", host_port);printf("Network ordered port: %#x\n", net_port);printf("Host ordered address: %#lx\n", host_addr);printf("Network ordered address: %#lx\n", net_addr);return 0;
}
编译运行:
gcc endian_conv.c -o conv
./conv
输出结果:
Host ordered port: 0x1234
Network ordered port: 0x3412
Host ordered address: 0x12345678
Network ordered address: 0x78563412
这就是在小端序 CPU 中运行的结果。如果在大端序 CPU 中运行,则变量值不会改变。大部分朋友都会得到类似的运行结果,因为 Intel 和 AMD 系列的 CPU 都采用小端序标准。
问:数据在传输之前都要经过转换吗?
答:也许有读者认为“既然数据传输采用网络字节序,那在传输前应直接把数据转换成网络字节序,接收的数据也需要转换成主机字节序再保存”。如果数据收发过程中没有自动转换机制,那当然需要程序员手动转换。这光想想就让人觉得可怕,难道真要强求程序员做这些事情吗?实际上没必要,这个过程是自动的。除了向 sockaddr_in
结构体变量填充数据外,其他情况无需考虑字节序问题。
问:我的系统是大端序的,为 sockaddr_in
结构体变量赋值前就不需要转换字节序了吧?
答:这么说也不能算错。但有必要编写与大端序无关的统一代码。这样,即使在大端序系统中,最好也经过主机字节序转换为网络字节序的过程。当然,此时主机字节序与网络字节序相同,不会有任何变化。