前言

记录一下Faiss在项目使用中的一些优化,对OMP_NUM_THREADS 环境变量参数的测试验证~

   OMP_NUM_THREADS 用于控制线程并发数.

   测试条件:单个循环请求,持续时间大于15m;
   基础数据:200w
   软件环境:docker; ubuntu 16.04 ;python2.7; faiss:1.4.0-cpu
   检索服务功能: (汉明距离计算 + 欧式距离计算 )

结论:

    测试总结如下:
        * CPU=1 & OMP_NUM_THREADS=1时,
         - 1m,5m,15m load average 分布为 31.54,41.16,43.43;
         - CPUs(%) 用户空间占比:32.1;内核空间占比:2.4;空闲占比:65.2;
         - faiss 检索耗时大约在5-6ms左右;
         - 检索服务整体响应时间较平稳,大部分在12ms左右;
    * CPU=3 & OMP_NUM_THREADS=1时,
         - 1m,5m,15m load average 分布为 49.17,48.70,50.54;
         - CPUs(%) 用户空间占比:39.5;内核空间占比:4.2;空闲占比:30.3;
         - faiss 检索耗时大约在5-7ms左右;
         - 检索服务整体响应时间较平稳,大部分耗时在12ms左右;
    * CPU=3 & OMP_NUM_THREADS=10时,
         - 1m,5m,15m load average 分布为 41.33,43.90,55.87;
         - CPUs(%) 用户空间占比:20.7;内核空间占比:2.3;空闲占比:58.0;
         - faiss 检索耗时不稳定,抖动较大, 大约在10-90ms左右;
         - 检索服务整体响应时间存在抖动,大约在14-92ms左右;
    * CPU=1 & OMP_NUM_THREADS=10时,
         - 1m,5m,15m load average 分布为 67.77,61.89,61.07;
         - CPUs(%) 用户空间占比:20.6;内核空间占比:2.9;空闲占比:18.2;
         - faiss 检索耗时不稳定,抖动较大, 大约在5-80ms左右;
         - 检索服务整体响应时间存在抖动,大约在13-99ms左右;

    最终结论:
           a: OMP_NUM_THREADS=1时,faiss检索耗时较稳定;
        b: OMP_NUM_THREADS=10时,faiss检索耗时不稳定,抖动较大;
        b: OMP_NUM_THREADS=1时, 多核CPU相较于单核CPU,负载略高,利用率略高,空闲占比较低;
        c: OMP_NUM_THREADS=10时, 多核CPU相较于单核CPU,负载较低,利用率较低,空闲占比较高;
        d: 优化方向:OMP_NUM_THREADS=1 + 多进程

测试结果统计:

* CPU=1 & OMP_NUM_THREADS=1

CPU=1 & OMP_NUM_THREADS=1 内存情况
CPU=1 & OMP_NUM_THREADS=1 faiss 检索时间
CPU=1 & OMP_NUM_THREADS=1 检索服务整体响应时间

* CPU=3 & OMP_NUM_THREADS=1

CPU=3 & OMP_NUM_THREADS=1 内存情况
CPU=3 & OMP_NUM_THREADS=1 faiss 检索时间
CPU=3 & OMP_NUM_THREADS=1 检索服务整体响应时间

* CPU=3 & OMP_NUM_THREADS=10

CPU=3 & OMP_NUM_THREADS=10 内存情况
CPU=3 & OMP_NUM_THREADS=10 faiss 检索时间
CPU=3 & OMP_NUM_THREADS=10 检索服务整体响应时间

* CPU=1 & OMP_NUM_THREADS=10

CPU=1 & OMP_NUM_THREADS=10 内存情况
CPU=1 & OMP_NUM_THREADS=10 faiss 检索时间
CPU=1 & OMP_NUM_THREADS=10 检索服务整体响应时间

Logo

权威|前沿|技术|干货|国内首个API全生命周期开发者社区

更多推荐