logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

你知道进程、线程、协程的区别吗?一文搞懂为什么python的 8 线程会比单线程还慢

本文探讨了进程、线程和协程的区别,并解释为何Python多线程可能比单线程更慢。进程是资源隔离的独立单位,拥有独立内存空间,创建和切换成本较高;线程共享进程资源,更轻量但存在竞态条件风险。Python受GIL(全局解释器锁)限制,多线程在CPU密集型任务中无法真正并行,仅适用于I/O密集型场景。建议根据任务类型选择并发模型:CPU密集型用多进程(如PyTorch DataLoader),I/O密集

文章图片
#python#开发语言
你知道FP6和BF6的区别吗?一文搞懂AI训练如何选择数值精度

本文解析了AI训练中的数值精度选择问题,重点对比了FP16、BF16和FP32三种浮点格式。主要内容包括: 浮点数原理:采用IEEE 754标准,由符号位、指数位和尾数位组成,数值越大精度越低,会导致"大数吃小数"现象。 精度选择: FP16(5位指数)容易溢出,需Loss Scaling BF16(8位指数)截断FP32,保持动态范围,更适合神经网络训练 FP32精度最高但计

文章图片
#人工智能#python#算法
NVlink为什么那么快?你知道PCIe和NVlink的区别吗?

文章摘要: CPU和GPU的设计哲学截然不同:CPU通过复杂控制逻辑(流水线、分支预测)优化单线程性能,而GPU牺牲控制单元换取海量计算核心。GPU采用SIMT执行模型,线程以warp(32线程)为单位同步执行,分支语句会导致warp divergence大幅降低效率。Tensor Core是专为矩阵运算设计的硬件单元,通过TF32格式在保持FP32接口的同时提升计算速度。CPU与GPU通过PCI

文章图片
#人工智能
你的 GPU 为什么在摸鱼?——存储金字塔、带宽瓶颈与 Roofline 模型

摘要: GPU训练效率低下的核心瓶颈在于数据搬运,而非算力不足。计算机存储呈金字塔结构,从寄存器到HBM显存,速度逐级下降而容量增大。GPU的HBM带宽虽高达3.35TB/s,但相比其算力仍有295倍差距,导致99%时间在等待数据(Memory-Bound)。数据搬运存在两道关口:GPU内部HBM瓶颈和CPU→GPU的PCIe传输瓶颈(仅64GB/s)。算术强度(FLOP/Byte)和Roofli

文章图片
#缓存#人工智能
到底了