logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

AI Infra 硬件体系与编程模型:15. CUDA编程基础:混合精度计算

CUDA混合精度计算指南摘要 本文系统介绍了CUDA混合精度计算的核心原理与工程实践。混合精度通过非关键路径使用低精度(FP16/BF16)提升性能,关键路径保留高精度(FP32)确保准确性,可带来16倍算力提升、显存减半和带宽效率倍增三重收益。 文章详细解析了四种主流浮点格式(FP32、FP16、BF16、TF32)的位结构、动态范围和适用场景,指出BF16是训练首选、FP16适合推理、TF32

文章图片
#人工智能
AI Infra 硬件体系与编程模型:14. CUDA编程基础:事件与精确性能测量

本文介绍了使用CUDA事件精确测量GPU操作性能的方法。重点指出不应使用CPU计时函数测量核函数执行时间,因为CUDA核函数是异步执行的,CPU计时会包含额外开销且不准确。CUDA事件基于GPU硬件时间戳,提供纳秒级精度。文章详细讲解了CUDA事件的使用流程和关键API,包括创建事件(cudaEventCreate)、记录事件(cudaEventRecord)和计算时间差(cudaEventEla

文章图片
#人工智能
AI Infra 硬件体系与编程模型:13. CUDA编程基础:多流并行

本文系统介绍了CUDA流的使用方法,旨在通过任务并行提升GPU利用率。主要内容包括: CUDA流是一系列异步操作的序列,可让GPU的计算引擎和复制引擎并行工作,实现计算与数据传输的重叠。 默认流会与其他流隐式同步,破坏并行性。建议启用非阻塞默认流(--default-stream per-thread)。 介绍了流的创建/销毁、异步操作提交和同步方法,强调使用cudaStreamSynchroni

文章图片
#人工智能
AI Infra 硬件体系与编程模型:12. CUDA编程基础:GPU访存优化

文章摘要 本文深入解析了CUDA中的两种关键访存优化技术:全局内存合并访问与共享内存Bank冲突。首先指出在GPU程序中,访存效率而非计算能力通常是性能瓶颈。全局内存合并访问通过确保warp内线程访问连续对齐的内存地址,可将32次内存访问合并为1-2次事务,带宽利用率提升高达32倍。文章详细分析了不同访问模式对性能的影响,并特别强调二维数组应确保列方向连续访问。共享内存部分则介绍了通过分块(Til

文章图片
#人工智能
AI Infra 硬件体系与编程模型:11. CUDA编程基础:GPU内存管理

CUDA内存模型与管理完全指南:从硬件架构到API实战 本文深入解析了CUDA内存系统的关键概念和优化策略。主要内容包括: GPU内存层次结构:详细介绍了寄存器、共享内存、全局内存等五级内存层次,分析各自特性(容量、访问速度、使用场景)。 内存性能瓶颈:揭示了GPU面临严重的"内存墙"问题,计算能力远超内存带宽,导致98%时间在等待数据。 内存管理API:系统讲解了cudaMalloc、cudaF

文章图片
#人工智能
AI Infra 硬件体系与编程模型:10. CUDA编程基础语法:三种基本函数

本文将深入解析CUDA编程中的核心概念——核函数(Kernel Function),重点介绍__global__、__device__和__host__三类函数修饰符的功能与用法,以及核函数调用的<<<x,y>>>语法。文章通过生活化比喻和代码示例,清晰区分了核函数(GPU并行入口)、设备函数(GPU内部辅助函数)和主机函数(CPU端普通函数)的特性与应用场景,并详细讲解了组合修饰符__host_

文章图片
#人工智能#网络
AI Infra 硬件体系与编程模型:9. 使用 NVCC 进行编译

本文深入解析了CUDA NVCC编译系统的工作原理,主要内容可归纳为以下几点: NVCC本质上是编译器驱动程序,负责协调分离主机(CPU)代码和设备(GPU)代码的编译流程,通过调用不同编译器最终生成可执行文件。 CUDA采用两级编译模型: 离线编译:将代码转换为PTX中间表示,再编译为特定GPU架构的Cubin二进制文件 即时编译(JIT):运行时将PTX动态编译为当前GPU的机器码,实现跨代兼

文章图片
#人工智能
AI Infra 硬件体系与编程模型:8. 内存层级体系详解

摘要 本文深入解析了GPU内存层级体系如何成为大模型时代的性能天花板。现代GPU采用分层内存设计:寄存器文件(最快)、L1缓存/共享内存(可软件划分)、L2缓存(共享)和全局显存(HBM)。越靠近计算单元的内存速度越快但容量越小,其中寄存器带宽是HBM的800倍,延迟仅1/400。当前大模型推理70%时间消耗在内存传输而非计算,因此理解内存层级至关重要。文章详细剖析了各层内存特性、管理方式和优化技

文章图片
#人工智能
AI Infra 硬件体系与编程模型:7. GPU的块、线程和线程束详解

摘要 本文深入解析了CUDA编程模型中的线程、线程块和线程束概念及其硬件映射关系。CUDA采用三层结构(Grid→Block→Thread)实现软件与硬件解耦,确保代码兼容性。线程是最小执行单位,线程块是协作基本单位,提供共享内存和同步机制。硬件层面以32线程的Warp为调度单位,锁步执行指令。理解这些概念对GPU性能优化至关重要,线程块大小应设计为32的倍数以避免资源浪费。最新GPU还引入了线程

文章图片
#人工智能
AI Infra 硬件体系与编程模型:6. Warp 调度器详解

本文深入解析了NVIDIA GPU中Warp调度的工作原理及其对性能的关键影响。文章指出,Warp调度器是GPU性能的核心,而非单纯的计算核心数量。一个Warp包含32个线程,是GPU调度的基本单位,这种设计平衡了硬件复杂度、资源利用率和分支发散影响。Warp调度器通过零开销上下文切换和延迟隐藏机制,最大化计算单元利用率。文章详细剖析了Warp从分配到完成的完整生命周期,以及SIMT执行模型与分支

文章图片
#人工智能
    共 29 条
  • 1
  • 2
  • 3
  • 请选择