一、Linux进程虚拟地址空间
Fig. 1
二、进程地址空间如何管理
Linux系统为每个进程维护一个单独的地址空间,同时为每个进程维护一个结构体,其中包含虚拟内存相关信息。
Linux内核使用vm_area_struct结构来表示一个独立的虚拟内存区域,由于每个不同质的虚拟内存区域功能和内部机制都不同,因此一个进程使用多个vm_area_struct结构来分别表示不同类型的虚拟内存区域。各个vm_area_struct结构使用链表或者树形结构链接,方便进程快速访问,如图Fig.2:
Fig. 2
三、mmap内存映射
Linux系统将虚拟内存和一个磁盘对象关联起来,以初始化虚拟内存区域的内容,称为内存映射。有两种类型的内存映射:
1)映射到Linux文件系统中的普通文件;
2)映射到匿名文件,匿名文件是由内核创建的全是二进制0的文件,CPU第一次使用该虚拟页面时,内核就选择一个物理页面进行覆盖(整个过程没有跟磁盘发生数据交互)。
Fig. 3
一个对象映射到虚拟内存中,要么以共享对象存在,要么以私有对象存在。不论哪一种模式,在物理内存中只有一份副本。共享对象一个进程的写操作,其他进程都可见,并且能反映到磁盘上。私有对象一个进程的写操作,其他进程不可见,并且不能反映到磁盘上。
Fig. 4
对于多个进程内存映射到私有区域时,物理内存只有一份副本,此时采用一种"写时复制"策略。即进程在写时,复制修改的部分到内存其他区域。这样对其他进程来说,对象没有修改过。
四、mmap映射的底层实现
mmap内存映射的实现过程,总的来说可以分为三个阶段:
1)进程启动映射过程,并在虚拟地址空间中为映射创建虚拟映射区域
a、进程在用户空间调用库函数mmap,原型:void *mmap(void *start, size_t length, int prot, int flags, int fd, off_t offset);
b、在当前进程的虚拟地址空间中,寻找一段空闲的满足要求的连续的虚拟地址
c、为此虚拟区分配一个vm_area_struct结构,接着对这个结构的各个域进行了初始化
d、将新建的虚拟区结构(vm_area_struct)插入进程的虚拟地址区域链表或树中
2)调用内核空间的系统调用函数mmap(不同于用户空间函数),实现文件物理地址和进程虚拟地址的一一映射关系
e、为映射分配了新的虚拟地址区域后,通过待映射的文件指针,在文件描述符表中找到对应的文件描述符,通过文件描述符,链接到内核“已打开文件集”中该文件的文件结构体(struct file),每个文件结构体维护着和这个已打开文件相关各项信息。
f、通过该文件的文件结构体,链接到file_operations模块,调用内核函数mmap,其原型为:int mmap(struct file *filp, struct vm_area_struct *vma),不同于用户空间库函数。
g、内核mmap函数通过虚拟文件系统inode模块定位到文件磁盘物理地址。
h、通过remap_pfn_range函数建立页表,即实现了文件地址和虚拟地址区域的映射关系。此时,这片虚拟地址并没有任何数据关联到主存中。
3)进程发起对这片映射空间的访问,引发缺页异常,实现文件内容到物理内存(主存)的拷贝
注:前两个阶段仅在于创建虚拟区间并完成地址映射,但是并没有将任何文件数据的拷贝至主存。真正的文件读取是当进程发起读或写操作时。
i、进程的读或写操作访问虚拟地址空间这一段映射地址,通过查询页表,发现这一段地址并不在物理页面上。因为目前只建立了地址映射,真正的硬盘数据还没有拷贝到内存中,因此引发缺页异常。
j、缺页异常进行一系列判断,确定无非法操作后,内核发起请求调页过程。
k、调页过程先在交换缓存空间(swap cache)中寻找需要访问的内存页,如果没有则调用nopage函数把所缺的页从磁盘装入到主存中。
l、之后进程即可对这片主存进行读或者写的操作,如果写操作改变了其内容,一定时间后系统会自动回写脏页面到对应磁盘地址,也即完成了写入到文件的过程。
注:修改过的脏页面并不会立即更新回文件中,而是有一段时间的延迟,可以调用msync()来强制同步, 这样所写的内容就能立即保存到文件里了。
什么是inode:
inode译成中文就是索引节点。每个存储设备或存储设备的分区(存储设备是硬盘、软盘、U盘...)被格式化为文件系统后,应该有两部份,一部份是inode,另一部份是Block,Block是用来存储数据用的。而inode呢,就是用来存储这些数据的信息,这些信息包括文件大小、属主、归属的用户组、读写权限等。inode为每个文件进行信息索引,所以就有了inode的数值。操作系统根据指令,能通过inode值最快的找到相对应的文件。
做个比喻,比如一本书,存储设备或分区就相当于这本书,Block相当于书中的每一页,inode 就相当于这本书前面的目录,一本书有很多的内容,如果想查找某部份的内容,我们可以先查目录,通过目录能最快的找到我们想要看的内容。
当我们用ls 查看某个目录或文件时,如果加上-i 参数,就可以看到inode节点了;比如ls -li file,最前面的数值就是inode信息.
五、mmap和常规文件操作的区别
对linux文件系统不了解的朋友,请参阅《》,我们首先简单的回顾一下常规文件系统操作(调用read/fread等类函数)中,函数的调用过程:
1)进程发起读文件请求。
2)内核通过查找进程文件符表,定位到内核已打开文件集上的文件信息,从而找到此文件的inode。
3)inode在address_space上查找要请求的文件页是否已经缓存在页缓存中。如果存在,则直接返回这片文件页的内容。
4)如果不存在,则通过inode定位到文件磁盘地址,将数据从磁盘复制到页缓存。之后再次发起读页面过程,进而将页缓存中的数据发给用户进程。
总结来说,常规文件操作为了提高读写效率和保护磁盘,使用了页缓存机制。这样造成读文件时需要先将文件页从磁盘拷贝到页缓存中,由于页缓存处在内核空间,不能被用户进程直接寻址,所以还需要将页缓存中数据页再次拷贝到内存对应的用户空间中。这样,通过了两次数据拷贝过程,才能完成进程对文件内容的获取任务。写操作也是一样,待写入的buffer在内核空间不能直接访问,必须要先拷贝至内核空间对应的主存,再写回磁盘中(延迟写回),也是需要两次数据拷贝。
而使用mmap操作文件中,创建新的虚拟内存区域和建立文件磁盘地址和虚拟内存区域映射这两步,没有任何文件拷贝操作。而之后访问数据时发现内存中并无数据而发起的缺页异常过程,可以通过已经建立好的映射关系,只使用一次数据拷贝,就从磁盘中将数据传入内存的用户空间中,供进程使用。
总而言之,常规文件操作需要从磁盘到页缓存再到用户主存的两次数据拷贝。而mmap操控文件,只需要从磁盘到用户主存的一次数据拷贝过程。说白了,mmap的关键点是实现了用户空间和内核空间的数据直接交互而省去了空间不同数据不通的繁琐过程。因此mmap效率更高。
六、mmap优点
由上文讨论可知,mmap优点共有一下几点:
1)对文件的读取操作跨过了页缓存,减少了数据的拷贝次数,用内存读写取代I/O读写,提高了文件读取效率。
2)实现了用户空间和内核空间的高效交互方式。两空间的各自修改操作可以直接反映在映射的区域内,从而被对方空间及时捕捉。
3)提供进程间共享内存及相互通信的方式。不管是父子进程还是无亲缘关系的进程,都可以将自身用户空间映射到同一个文件或匿名映射到同一片区域。从而通过各自对映射区域的改动,达到进程间通信和进程间共享的目的。
同时,如果进程A和进程B都映射了区域C,当A第一次读取C时通过缺页从磁盘复制文件页到内存中;但当B再读C的相同页面时,虽然也会产生缺页异常,但是不再需要从磁盘中复制文件过来,而可直接使用已经保存在内存中的文件数据。
4、可用于实现高效的大规模数据传输。内存空间不足,是制约大数据操作的一个方面,解决方案往往是借助硬盘空间协助操作,补充内存的不足。但是进一步会造成大量的文件I/O操作,极大影响效率。这个问题可以通过mmap映射很好的解决。换句话说,但凡是需要用磁盘空间代替内存的时候,mmap都可以发挥其功效。
七、利用mmap可以实现哪些功能
1、内存映射文件及不同进程间文件共享和通信
mmap是一种内存映射文件的方法,即将一个文件或者其它对象映射到进程的地址空间,实现文件磁盘地址和进程虚拟地址空间中一段虚拟地址的一一对映关系。实现这样的映射关系后,进程就可以采用指针的方式读写操作这一段内存,而系统会自动回写脏页面到对应的文件磁盘上,即完成了对文件的操作而不必再调用read,write等系统调用函数。相反,内核空间对这段区域的修改也直接反映用户空间,从而可以实现不同进程间的文件共享。
2、分配进程虚拟地址空间
Linux进程分配内存的方式,简单来说,当我们调用分配内存的函数时(如malloc),底层通过调用brk()或mmap()实现。当遇到小于128KB的内存时,调用brk()函数将数据段堆的_edata地址往高地址推(即Fig.1中brk指向的指针,此时只分配虚拟内存,没有物理内存。当产生缺页中断时,才调用物理内存)。当申请内存大于128KB时,调用mmap()在堆栈之间的共享区域分配内存(此部分内存可以单独释放)。
3、进程间通信
1)任意两进程打开同一文件,并分别将文件映射到各自的虚拟内存空间,通过读写该内存空间,实现通信。
2)对于父子进程,可以用mmap的匿名映射(不需要映射具体文件)实现通信。