在ANSI C的任何一种实现中,存在两个不同的环境。
第1种是翻译环境,在这个环境中源代码被转换为可执行的机器指令。
第2种是执行环境,它用于实际执行代码
平时我们写的程序都是一个个的源文件,那么这些文件是怎么生成
.exe
可执行文件的呢?这就是接下来我们要详细研究的内容
笼统的来讲,大致过程可以用下图来表示:
组成一个程序的每个源文件通过编译过程分别转换成目标代码(object code)。
每个目标文件由链接器(linker)捆绑在一起,形成一个单一而完整的可执行程序。
链接器同时也会引入标准C函数库中任何被该程序所用到的函数,而且它可以搜索程序员个人的程序库,将其需要的函数也链接到程序中。
编译,其实严格来说应该叫做翻译,因为翻译其实还分多个步骤,分别为预处理,编译,汇编。在VS中每一步骤是观察不到的,所以我们使用GCC编译器来观察现象,研究清楚每个步骤都是做什么的。
可以看到我这里有一个
test.c
文件,里面写了这样一段代码,这时候我们来看一下对它进行编译的第1步预处理,究竟做了些什么事情,我们用GCC来执行下面的指令:gcc test.c -E > test.i
这句指令意思就是将编译
test.c
到预处理那步就停下来,并将所编译的信息重定向到test.i
中,然后我们打开test.i
看一下,实际上已经不存在什么定义的宏了,而是直接被替换,另外还值得注意的是原本只有十几行的代码,经过预处理之后变成了850行,可以看到预处理做的事情其实还是蛮多的,但是重点我们就是来观察一下现象,知道预处理这步到底做了些什么就可以了,所谓预处理就是对一些文本进行操作,
总结如下:
1.#include 头文件的包含,
2.#define 宏替换
3.删除注释
都是一些对文本的操作
有了第一步的经验,我们可以来看一下编译的步骤,指令如下:
gcc test.i -S > test.s
可以发现,我们的代码变成了汇编语言,这就是一个重要的步骤,其实翻译成汇编语言之外,还有语义分析,语法分析等等,你的一些语法错误等等就是这一步检查出来的,另外还有一个很重要的步骤是进行符号汇总,为什么说它重要呢,其实是为下一步生成符号表做准备。下一步再说,总结编译步骤:
编译:
1.语法分析
2.语义分析
3.符号汇总
4.翻译成汇编语言
等等
同样的操作:
gcc test.s -c > test.o
好的,这下彻底看不懂了,实际上这是因为,编译之后的目标文件其实是二进制文件,是无法识别的,但是这种类型的文件有它自己的格式叫做
elf
,有个工具readelf
是可以看这种类型的文件的具体内容的,这种文件内容实际上也是有特点,都是一段一段的,每一段放不同的信息。我们先说汇编这步做了一些什么事情,汇编:
1.翻译成二进制
2.生成符号表
我们用
readelf
这个工具要看关注的也就是这个符号表,来了解一下:可以看到是有一堆选项,我们要用的就是-s,这个选项来看这个符号表
这个就是我们汇编这步生成的符号表,这个符号表存储了文件中符号的信息,之前我们的示意图中已经说了,我们的源文件是有多个的,每个文件里面的函数变量当然也是多个的,那最后我们链接起来怎么找到这些符号呢?靠的就是这个符号表,它会记录下每个符号的信息,函数,变量,它们的地址等等,在后面的链接这步中按照这个符号表来寻找。
我相信很多人可能早就听过,链接就是将本地多个源文件组合起来,并且引入一些外部的库等等,但是对它到底这个步骤是怎么实现的并不清楚,
今天就来研究清楚,先说链接这个步骤到底做了什么,
链接:
1.合并段表
2.符号表的合并和重定位
段表这个今天先暂时不讨论,到后期才能彻底理解,
段表概念:在分段式存储管理系统中,每个进程或程序都有一个或多个逻辑段,为使程序或称进程能正常运行,亦即,能从物理内存中找出每个逻辑段所对应的位置,在系统中为每个进程建立一张段映射表,简称段表,段表记录了进程中每一个段在内存中的起始地址(又称为 “基址” )、段号和段的长度。
重点还是上面的符号表,符号表合并和重定位是什么意思呢?
举个例子:
像是这个例子就能简单的描述一下,符号表的问题,我们知道每个文件最后都会生成一个目标文件,所以每个源文件的目标文件中都有一张符号表,我们就需要信息合并,当
test.c
文件中安装符号表去找Add函数时,发现找不到(其实这时候Add的地址是个无效地址),所以就会报出了错误,LNK的错误一定是链接时发生的错误,无法解析的外部符号就是根据符号表中的信息去找Add这个符号找不到。如果
add.c
中将函数名改成正确的Add,在链接时符号表合并,就会将add.c
中Add函数的地址重定向到合并之后的符号表中,这样才能够顺序执行。如果当我们把
test.c
中的声明去掉,代码也是可以很好的跑起来的,编译器仅仅是报个警告,为什么呢?我想应该就很容易理解了,即使你没有声明,但是在最后符号表合并的时候依旧是很好的进行了合并。所以最后的结果是没有一点问题的。
程序执行的过程:
程序必须载入内存中。在有操作系统的环境中:一般这个由操作系统完成。在独立的环境中,程序的载入必须由手工安排,也可能是通过可执行代码置入只读内存来完成。
程序的执行便开始。接着便调用main函数。
开始执行程序代码。这个时候程序将使用一个运行时堆栈(stack),存储函数的局部变量和返回地址。程序同时也可以使用静态(static)内存,存储于静态内存中的变量在程序的整个执行过程一直保留他们的值。
终止程序。正常终止main函数;也有可能是意外终止。