logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

GPU Direct RDMA调研

贯穿整个GDR技术演进的核心挑战始终如一:如何安全、高效地将应用程序层面使用的GPU虚拟地址,转换为一组RDMA网卡DMA引擎能够理解并直接使用的物理地址(或总线地址)。无论的回调机制,还是dma-buf的操作,本质上都是在解决这一关键的地址翻译问题,因此,GPU驱动中如何高效组织和管理进程使用设备内存是需要好好考量的要点。

#GPU
【NCCL】transport建立(一)

参考NCCL版本 v2.25.1-1NCCL transport建立主要在函数中实现。先简单概括一下ncclTransportP2pSetup函数做了哪些事,方便理解代码流程。总的来说,ncclTransportP2pSetup就是看看两张GPU卡直接可以通过什么方式连接(如p2p、net、shm等),根据连接类型调用setup、connect等接口,完成数据buff分配以及在两侧进行导入导出操作

yocto(三)——yocto任务与语法

任务空任务​如果不想使用某个任务可以在配方文件将任务定义为空,比如将do_install任务定义为空:do_install() {}禁用任务​如果不想使用某个任务且也不想在配方文件将任务定义为空,则可以使用下面的语句,比如将禁用do_install任务:do_install[noexec] = "1"​如果想确保一个任务一定执行(某个任务可能在bb配方设置了noexec标志),那可以在bbappe

#linux
yocto(二)——bitbake工作流程

本文参考yocto官方手册,如有理解不当之处,欢迎留言指出。项目概述和概念手册:https://docs.yoctoproject.org/overview-manual/index.html项目参考手册:https://docs.yoctoproject.org/ref-manual/index.htmlyocto项目的厨师——bitbake​bitbake是OpenEmbedded构建系统的引

#linux
NUMA架构

(Symmetric Multi-Processing)即对称多处理架构,在这种系统架构中,所有处理器共享同样的内存访问地址空间和总线结构,因此从管理的角度来看,它们是“对称”的,即无主从之分,工作负载可以均匀地分配到所有可用处理器上,从而显著提高整个系统的数据处理能力,因此SMP也被称为。SMP架构示意图如下。,通过单一总线访问内存,导致随着处理器核心数量的增加,总线争用和内存访问延迟显著上升。

#架构
yocto(四)——添加程序和脚本

前部分文章讲解了Bitbake工作流程及yocto配方语法,但对于大部分未接触过yocto的朋友来说,还是难以理解的,正如yocto官方手册所说,yocto学习曲线无疑是十分陡峭。记得刚学编程时,就由编写运行一个“hello world!”程序入门,那么这篇文章同样由“hello world!”模块开启我们的学习之旅~~~本文参考https://docs.yoctoproject.org/dev-

yocto(七)——添加layer、添加内核模块、修改源码、制作补丁

yocto添加模块、修改源码、制作补丁、创建层(layer)

linux程序运行时间精确计算(转载)

写程序时,程序的运行效率很重要,其往往是评价程序优劣性的直接标准。程序运行效率的最简单方法就是计算程序的运行时间。为了提高程序效率,使用适当的方法对程序的各个部分进行运行时间的计算是很有必要的。在 Linux/Unix 环境下,计算 C 程序运行时间可以通过以下三个函数来实现:clock()、time()、gettimeofday()。clock() 函数clock()函数是 ANSI C 的标准

#linux
DMA、链式DMA、RDMA(精华讲解)

DMA、PCIe DMA、链式DMA、RDMA

#linux
到底了