Kmalloc内部实现：挖掘Linux内核内存分配（一）

为什么写这篇文章：最近我在几个linux设备上发现整数溢出，以致我开始用kmalloc重写内存分配。注意：理解这篇文章需要知道点linux内核。有时候我肯能用熟知的一些函数名。如果你不知道他们的意义，可以快速google。我提到的所有关于cache的函数都能在/usr/src/linux/mm/slab.c找到。一些数字是在IA-32架构上给出的。我努力加粗函数名和数据类型。在一些

xiaolomg

3968人浏览 · 2014-04-06 23:45:25

xiaolomg · 2014-04-06 23:45:25 发布

为什么写这篇文章：
最近我在几个linux设备上发现整数溢出，以致我开始用kmalloc重写内存分配。

注意：

理解这篇文章需要知道点linux内核。有时候我肯能用熟知的一些函数名。如果你不知道他们的意义，可以快速google。我提到的所有关于cache的函数都能在/usr/src/linux/mm/slab.c找到。一些数字是在IA-32架构上给出的。我努力加粗函数名和数据类型。在一些代码中我删除了调试代码。我忽略了SMP（多核）代码，因为我没有多核系统。我是个偷懒的人。你准备读了吗？

整体浏览：

任何操作系统需要一个方式来管理物理内存。设备驱动和内核的其他部分能够分配内存块去存储数据。这些内存来自系统RAM，当我们谈到系统RAM，它常指代Page_size块。在一些架构上是4k。然而，当一些驱动或者其他内核函数需要动态分配内存，他们经常不需要整页。因此，需要一些实体来管理RAM，处理不同大小内存卡的请求。这样一个分配器需要仔细平衡两个目标：速度和最小化碎片大小，在块上分配但没用到的内存。后者尤为重要，因为任何碎片化内存将会浪费RAM。这个工作有kmalloc函数来执行，它的相对函数是kfree。

Kmalloc 做的不多：

事实上，kmalloc只是一个实际内存管理器的接口。因此为了理解kmalloc，非常需要首先理解缓存分配机制。这将使这次讨论的焦点。理解之后，你将会发现kmalloc只是缓存分配服务的一个使用者。

缓存概述:

缓存分配器背后的想法很简单：将内存划分为对象池，每个对象池包含同样大小的对象，并且不同的池包含不同的大小。因此，当有人请求一个给定大小的内存块，找到第一个能够足够大的块的内存池，分配给他完事。这就是所有要做的事情。下面内容将会复杂点。需要考虑一些事情：每个池多大为好？如果我们用完一个池的对象，我们如何创建更多的池？我们如何追踪池子的对象是free的或者在使用中？我们应该有多少池？池大小之间的gap多大为好？

正如之前所说，内存被分为包含对象的池。每个池被认为是一个缓存，内核中有许多这样的缓存池。这些池的关键数据结构是：kmem_cache_t。它用来处理池用到的所有信息，比如每个对象的大小以及每个池中对象数目。驱动能够通过kmem_cache_create函数创建它选定大小的内存池。这个函数创建调用者给定大小的内存，然后将它插入已创建的全局内存池cache_cache。cache_cache是一个静态kem_cache_t对象，用来管理所有系统级缓存。你可以通过/proc/slabinfo看到所有缓存大小。除了全局缓存池，我们也有通用缓存池。通用缓存池是一个缓存数组，每个元素后一个是前一个的2指数幂倍。在IA-32中以32开始，一直到131072*2.对于每个大小，有两个cache，一个为普通内存，一个为DMA。在IA-32，DMA内存必须是16位可寻址的。这就是kmalloc如何工作的。当kmalloc被调用，他搜索通用缓存知道找到一个合适的缓存块。然后调用__kem_cache_alloc来从缓存获取对象并返回给调用者。同样的，kfree只是通过调用__kem_cache_free来返回对象到他的缓存池。
Caches 和 slabs:

关键的数据结构是kem_cache_t。它有多个成员，下面是一些重要的：

    struct list_head    slabs_full;
struct list_head    slabs_partial;
    struct list_head    slabs_free;
       这些链表是为这个缓存的slab的。解释在下面。

    unsigned int        objsize;

缓存中每个对象的大小。

unsigned int flags;

缓存的标志位。决定某些操作，并且存储对象追踪信息。

    unsigned int        num;
       在每个slab上存储的对象大小。

    spinlock_t      spinlock;
多CPU中保护并发访问的结构。

     unsigned int        gfporder;
每个slab中分配2^gfporder个页。

     unsigned int        gfpflags;
        MA内存需要。

     char            name[CACHE_NAMELEN];
chache的名字。

     struct list_head    next;
        When this cache is user created and belongs to the global cache_cache list, this sews it into the list.

     void (*ctor)(void *, kmem_cache_t *, unsigned long);
   void (*dtor)(void *, kmem_cache_t *, unsigned long);
        由创建者传来的构造和析构函数，在Create/Free时调用。


这里还有一些其他用来统计的数据，与SMP数据意义，会在之后看到。

为了在每个缓存里组织对象，内核依赖slabs。一个slab持有一些对象和控制信息。一个缓存包含多个slab，每个slab包含多个对象。一slab只是由get_free_pages分配的几个内存页。为了组织所有的slab，一个缓存用标准内核链表管理三个单独的slab链表，一个是是没有对象的slabs的free_list，一个是全满的full_list，一个是部分满的partial_list，每个slab有slab_t类型指定，包含一个链表指针指向其他slabs。也就是说一个slab将会在三个链表之一。

Linux

更多推荐

网卡速率和双工模式的配置

http://linux.chinaitlab.com/system/792187.html1、mii-tool 配置网络设备协商方式的工具； 1.1 mii-tool 介绍； mii-tool - view, manipulate media-independent interface status （mii-tool 是查看，管理介质的网络接口的状态）

Linux

Linux虚拟文件系统之文件系统卸载（sys_umount())

Linux中卸载文件系统由umount系统调用实现，入口函数为sys_umount()。较于文件系统的安装较为简单，下面是具体的实现。1. /*sys_umont系统调用*/2. SYSCALL_DEFINE2(umount, char __user *, name, int, flags)3. {4.struct path path;

Linux

Linux系统下超级终端Minicom的使用方法（例如：连接交换机，路由器等）转http://baike.baidu.com/view/2911642.htm?fr=ala0_1

Linux系统下超级终端Minicom的使用方法 　　Linux下的Minicom的功能与下的超级终端功能相似，适于在通过超级终端对设备的管理以及对嵌入操作系统的升级，现写出Minicom的使用手册： 　　1．启动minicom 　　以root权限登录系统 　　使用命令 　　minicom –s 则minicom启动，屏

Linux

所有评论(0)

查看更多评论

xiaolomg

@boyhailong

已为社区贡献2条内容