logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

LightGBM 从入门到精通 (来自deepseek)

LightGBM(Light Gradient Boosting Machine)是微软开发的一款基于决策树算法的梯度提升框架,专为高效和可扩展的机器学习任务设计。基于直方图的决策树算法:将连续特征离散化为k个整数,减少内存占用和计算复杂度Leaf-wise(按叶子)生长策略:相比传统的Level-wise策略,减少更多损失,获得更好的精度单边梯度采样(GOSS):保留大梯度的样本,对小梯度样本进

#python
NCCL中的IB网络是指?(来自deepseek)

IB 网络在 NCCL 中指的是InfiniBand 网络,它是一种高性能、低延迟的网络技术。NCCL 利用 InfiniBand 的 RDMA 和高带宽特性,优化了分布式深度学习训练中的通信效率。启用 InfiniBand 支持需要正确的硬件、软件配置以及环境变量设置。

NCCL中QP和Channel是什么关系(来自deepseek)

是 RDMA 的底层队列,负责“干活”(执行数据传输)。

#c++
nccl中的proxy是指什么 (来自deepseek)

将通信任务(如数据搬运、同步)交给专门的代理线程(Proxy Thread)处理,允许计算线程(如 CUDA Kernel)继续执行。,以优化多 GPU 或多节点间的集体通信(如 AllReduce、Broadcast)的性能和资源利用率。在复杂的多 GPU 通信场景(如多线程调用 NCCL)中,Proxy 统一管理通信顺序,防止资源竞争。在非全连接的 GPU 拓扑(如多机多卡)中,Proxy 协

mpi 和nccl 之间是什么关系 (来自deepseek)

MPI 和 NCCL 各有侧重,MPI 适用于通用并行计算,NCCL 专注于 GPU 通信。在深度学习中,两者常结合使用以提升性能。

NCCL Reduce-Scatter 操作详解 (来自deepseek)

将所有进程的数据按元素进行某种操作(如求和、求最大值等):将结果数据分散到各个进程中换句话说,Reduce-Scatter 首先对所有输入缓冲区进行逐元素的 Reduce 操作,然后将结果均匀地分散到所有输出缓冲区中。

#算法
nccl中的LL、 LL128和Simple是指什么 (来自deepseek)

用于优化 GPU 之间的集体通信(如 AllReduce、Broadcast、ReduceScatter 等)。export NCCL_ALGO=Simple# 强制使用Simple。export NCCL_ALGO=LL,LL128,Simple# 按优先级选择。中等规模的参数同步(如大模型的梯度聚合)。,如模型梯度更新(小batch训练)。:最小化通信延迟(Latency)。使用更小的数据块(

#AIGC
mpirun的运行原理 (来自deepseek)

组件角色类比mpirun总司令公司的CEO,制定总体战略(命令行参数)。orted经理层公司的中层经理(本地和远程)。他们听从CEO,管理基层员工。MPI 进程工作者公司的基层员工,负责具体工作(执行计算)。他们只和直属经理打交道。管理网络内部管理通道经理之间的电话会议/内部邮件系统。数据网络工作协作通道员工之间为了完成项目而进行的直接沟通和文件传输。PMI工作流程接口员工向经理汇报工作和获取资源

#AIGC
    共 56 条
  • 1
  • 2
  • 3
  • 6
  • 请选择