内存文件映射

摘要:
我对内存映射文件的概念一直很模糊。我不知道它和虚拟内存有什么区别,单词映射也非常令人困惑。我今天终于弄明白了……在内存映射的过程中,没有实际的数据拷贝,文件不会加载到内存中,而是逻辑地放入内存中。具体来说,代码创建并初始化相关的数据结构。这个过程是由调用mmap()的系统实现的,因此内存映射的效率非常高。此过程与内存映射无关。因此,内存映射比读/写更有效。

一直都对内存映射文件这个概念很模糊,不知道它和虚拟内存有什么区别,而且映射这个词也很让人迷茫,今天终于搞清楚了。。。下面,我先解释一下我对映射这个词的理解,再区分一下几个容易混淆的概念,之后,什么是内存映射就很明朗了。

原理
首先,“映射”这个词,就和数学课上说的“一一映射”是一个意思,就是建立一种一一对应关系,在这里主要是只 硬盘上文件 的位置与进程 逻辑地址空间 中一块大小相同的区域之间的一一对应,如图1中过程1所示。这种对应关系纯属是逻辑上的概念,物理上是不存在的,原因是进程的逻辑地址空间本身就是不存在的。在内存映射的过程中,并没有实际的数据拷贝,文件没有被载入内存,只是逻辑上被放入了内存,具体到代码,就是建立并初始化了相关的数据结构(struct address_space),这个过程有系统调用mmap()实现,所以建立内存映射的效率很高。

图1.内存映射原理  


 

既然建立内存映射没有进行实际的数据拷贝,那么进程又怎么能最终直接通过内存操作访问到硬盘上的文件呢?那就要看内存映射之后的几个相关的过程了。

mmap()会返回一个指针ptr,它指向进程逻辑地址空间中的一个地址,这样以后,进程无需再调用read或write对文件进行读写,而只需要通过ptr就能够操作文件。但是ptr所指向的是一个逻辑地址,要操作其中的数据,必须通过MMU将逻辑地址转换成物理地址,如图1中过程2所示。这个过程与内存映射无关。

前面讲过,建立内存映射并没有实际拷贝数据,这时,MMU在地址映射表中是无法找到与ptr相对应的物理地址的,也就是MMU失败,将产生一个缺页中断,缺页中断的中断响应函数会在swap中寻找相对应的页面,如果找不到(也就是该文件从来没有被读入内存的情况),则会通过mmap()建立的映射关系,从硬盘上将文件读取到物理内存中,如图1中过程3所示。这个过程与内存映射无关。

如果在拷贝数据时,发现物理内存不够用,则会通过虚拟内存机制(swap)将暂时不用的物理页面交换到硬盘上,如图1中过程4所示。这个过程也与内存映射无关。

效率
 
从代码层面上看,从硬盘上将文件读入内存,都要经过文件系统进行数据拷贝,并且数据拷贝操作是由文件系统和硬件驱动实现的,理论上来说,拷贝数据的效率是一样的。但是通过内存映射的方法访问硬盘上的文件,效率要比read和write系统调用高,这是为什么呢?原因是read()是系统调用,其中进行了数据拷贝,它首先将文件内容从硬盘拷贝到内核空间的一个缓冲区,如图2中过程1,然后再将这些数据拷贝到用户空间,如图2中过程2,在这个过程中,实际上完成了 两次数据拷贝 ;而mmap()也是系统调用,如前所述,mmap()中没有进行数据拷贝,真正的数据拷贝是在缺页中断处理时进行的,由于mmap()将文件直接映射到用户空间,所以中断处理函数根据这个映射关系,直接将文件从硬盘拷贝到用户空间,只进行了 一次数据拷贝 。因此,内存映射的效率要比read/write效率高。

图2.read系统调用原理
 

下面这个程序,通过read和mmap两种方法分别对硬盘上一个名为“mmap_test”的文件进行操作,文件中存有10000个整数,程序两次使用不同的方法将它们读出,加1,再写回硬盘。通过对比可以看出,read消耗的时间将近是mmap的两到三倍。

#include<unistd.h>

#include<stdio.h>

#include<stdlib.h>

#include<string.h>

#include<sys/types.h>

#include<sys/stat.h>

#include<sys/time.h>

#include<fcntl.h>

#include<sys/mman.h>

#define MAX 10000

int main()

{

int i=0;

int count=0, fd=0;

struct timeval tv1, tv2;

int *array = (int *)malloc( sizeof(int)*MAX );

/*read*/

gettimeofday( &tv1, NULL );

fd = open( "mmap_test", O_RDWR );

if( sizeof(int)*MAX != read( fd, (void *)array, sizeof(int)*MAX ) )

{

printf( "Reading data failed.../n" );

return -1;

}

for( i=0; i<MAX; ++i )

++array[ i ];

if( sizeof(int)*MAX != write( fd, (void *)array, sizeof(int)*MAX ) )

{

printf( "Writing data failed.../n" );

return -1;

}

free( array );

close( fd );

gettimeofday( &tv2, NULL );

printf( "Time of read/write: %dms/n", tv2.tv_usec-tv1.tv_usec );

/*mmap*/

gettimeofday( &tv1, NULL );

fd = open( "mmap_test", O_RDWR );

array = mmap( NULL, sizeof(int)*MAX, PROT_READ|PROT_WRITE, MAP_SHARED, fd, 0 );

for( i=0; i<MAX; ++i )

++array[ i ];

munmap( array, sizeof(int)*MAX );

msync( array, sizeof(int)*MAX, MS_SYNC );

free( array );

close( fd );

gettimeofday( &tv2, NULL );

printf( "Time of mmap: %dms/n", tv2.tv_usec-tv1.tv_usec );

return 0;

}

输出结果:

Time of read/write: 154ms

Time of mmap: 68ms
---------------------
作者:mg0832058
来源:CSDN
原文:https://blog.csdn.net/mg0832058/article/details/5890688
版权声明:本文为博主原创文章,转载请附上博文链接!

免责声明:文章转载自《内存文件映射》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇iOS开发之JSON转PLIST(把存储json格式的文件转换成plist文件)【转】Git详解之四 服务器上的Git下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

linux磁盘管理

计算机硬盘简介 硬盘是计算机主要存储媒介之一,linux系统中硬件设备相关配置文件存放在/dev下,IDE硬盘接口在Linux中设备名为/dev/hda,  SAS,SCSI,SATA硬盘接口在linux中设备名为sda,高效云盘硬盘接口会识别为/dev/vda等 文件存储在硬盘上,硬盘的最小存储单位叫做sector(扇区),每个sector存储512字节...

python中浅拷贝和深拷贝的区别

浅拷贝调用copy模块下的copy()方法-----> b = copy.copy(a) #a为初始对象,b为浅拷贝对象 深拷贝调用copy模块下的deepcopy()方法------> b = copy.deepcopy(a) #a为初始对象,b为深拷贝对象 import copy list1 = [[1,2],'abc'] list2 =...

设置VMWare虚拟机使拷贝虚拟机后固定原有的IP地址

VMWare中已经安装并设置好的虚拟机在拷贝给别人后,再次打开该虚拟机时原有自动获取的IP地址将会变化,那么原有根据该IP地址进行的设置均将失效,还需要重新设置,比较麻烦,经过百度查询原来可以将虚拟机的IP固定,设置固定IP地址后的虚拟机拷贝给别人后只需要简单设置VMWare的网络配置即可使用原有的IP地址配置,而不会改变IP地址,特此记录。 操作环境:W...

linux系统下获取cpu、硬盘、内存使用率

1.linux上安装snmp服务 第一步:在公司192.168.100.171 Linux虚拟机上安装snmp服务。 第二步:通过HOST-RESOURCES-MIB库中的节点获取对应的值。 第三步:只能通过:1.3.6.1.2.1.25.1.1.0节点对象获取到系统运行时间,无法获取到其他节点的值。 第四步:修改/etc/snmp/snmpd.conf文...

Winhex镜像硬盘与镜像中恢复数据图文 武胜

WinHex镜像硬盘和Ghost备份是完全不同的,Ghost只能克隆或者镜像分区内正常的数据,删除的数据他是不会克隆的,所以在数据恢复应用 中,Ghost对我们来讲作用就不大了,而使用WinHex备份(镜像)硬盘数据就不同了,WinHex会对每一个扇区数据拷贝,下边我们分别对 WinHex的硬盘镜像成img文件和硬盘克隆做一个图文教程; 打开WinHex...

Python读取大文件的"坑“与内存占用检测

Python高级教程- Python进阶|Scrapy教程|Python高级|Python深入 (pythontab.com) python读写文件的api都很简单,一不留神就容易踩”坑“。笔者记录一次踩坑历程,并且给了一些总结,希望到大家在使用python的过程之中,能够避免一些可能产生隐患的代码。 1.read()与readlines()随手搜索pyt...