GCC源代码阅读(三)

学习GCC源代码,离不开各种参考资料,如论文、wiki、手册和散落在邮件列表里面的讨论。

如果没有理论背景知识,想从GCC源代码里看出它想要做什么,以及在做什么,是很困难的。因此,学习GCC实现的过程,必然伴随着不断地阅读论文。如果注释里面提到了参考论文(或书籍)的名字,不妨直接找来看看。另外一个非常重要的内容就是gcc summit,论文下载地址为http://gcc.gnu.org/wiki#GCC_Summit_Proceedings,包括从2003年至今的所有论文。

gcc summit的论文不涉及太多的细节,所以看起来不像其它论文那么头疼,但是要学习具体的算法和实现,还是要找来相应的论文,啃硬骨头。论文看多了,如何管理也是个问题,不然看了等于白看,一会儿就还给作者了。尝试了两个网站CiteULikeConnotea,都不理想,似乎更像是社会化书签服务,对于我一地的PDF毫无帮助。最后还是用orgmode记录,以后再把RefTex集成进来

要了解GCC的实现细节,还要看手册,Ubuntu下的安装方式如下:

sudo apt-get install gcc-doc

其中包括两个手册——使用手册和内部实现手册,查看方式分别为:

info gcc
info gccint

手册不适合从头到尾看下来,需要的时候查找相应内容学习就可以了,最多粗读一遍获得大概的印象,依我的经验,基本就是看了后面忘了前面,反而是遇到问题再来查找更有针对性、更容易理解。由于gccint始终处于不完整状态,所以也不要期望太多,看代码是必不可少了。

手册的在线地址为http://gcc.gnu.org/onlinedocs/

最后的信息源就是gcc wiki邮件列表了,由于时效性的问题,上面的内容是否还适用,需要个人自行判断。邮件列表有多个,我个人关注的是gcc和gcc-patches,

GCC源代码阅读(二)

下载gcc源代码,编译通过,测试hello world之后,就可以开始认真阅读它的实现了。

通常我们阅读的源代码,是开发过程中某一时刻的快照,在特定情况下,我们不仅需要理解它的当前实现方式,还要了解它的发展过程和原因。这时,我们可以借助版本管理工具、ChangeLog文件和邮件列表,来了解开发历史。

取决于获取源代码的方式,可以使用的版本管理工具有subversion和git,熟练使用命令行工具或者图形化客户端是必须的,如果能和开发环境无缝结合就更完美了。Emacs默认的VC软件包支持多种版本管理工具,包括subversion和git。VC的操作对象是文件,如果想要了解整个项目的情况,可以安装psvn和magit。

ChangeLog是个很有趣的东西,我一度对它的作用不太理解。有了版本控制工具,还要ChangeLog做啥?!而且ChangeLog的内容也很枯燥,它只记录了源代码的物理变化,比如增加了一个变量,并在哪个函数里使用;删除一个宏;或者改变函数调用关系等等。它并不记录做出这些改变的目的或原因。后来经jzhang918介绍,终于明白它对于版本管理工具的补充作用。通常,版本工具的操作对象是文件,因此,如果想知道某个函数(或者某个变量)发生了哪些变化,则相当棘手,ChangeLog的作用便在于此。

仅有历史版本和ChangeLog还是不够的,它们缺少了一项非常重要的信息——为什么要做这样的修改。一般来说,最好能在提交日志上说明,但很少有gcc的开发者这么做,所以,就要靠邮件列表来帮忙了。通常来讲,在提交修改之前,都需要把patch发到gcc开发者所用的邮件列表上,供maintainer检查,通过后才能提交。在邮件里,作者会讲一点来龙去脉,不然maintainer一头雾水,patch就无法通过了。