logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

ubuntu 下 GPU卡常见故障排除附带检查命令

摘要:本文介绍了GPU状态检查、驱动安装与故障排查方法。主要内容包括:使用nvidia-smi命令查看GPU状态和驱动版本,通过lspci和dmesg检测硬件识别问题,验证CUDA与cuDNN兼容性,监控显存泄漏与进程状态,处理温度过高问题,解决Xorg配置冲突,检查内核模块加载情况以及测试Vulkan/OpenGL支持。文章还提供了日志收集方法和故障恢复建议,强调需确保驱动版本与硬件兼容,遇到持

#linux#运维#服务器
H200紧缺时代:谁才是完美替代方案?

H200供应紧张下的替代方案分析:B300/B200适合超大规模AI训练(288GB/192GB显存),H100/H800是成熟过渡选择,中国合规场景可选H800/B40。选型需综合显存、算力、带宽、成本及场景适配度,建议训练集群混合部署(H100+B200),推理服务分层配置(B300高并发+B200长上下文)。Blackwell架构机型性能显著提升但需软件适配,H100生态兼容性最佳。企业应根

#人工智能
新手必看:模型量化+任务调度省30%算力

本文提供了一套无需额外硬件的基础算力优化方案,通过模型量化和任务调度两大核心技术,可节省约30%算力资源。模型量化将高精度参数转换为低精度格式(如float32→float16),使模型更轻量、更快且更省资源;任务调度则通过错峰运行计算密集型任务,充分利用系统闲置资源。指南详细介绍了TensorRT等工具的具体量化步骤,以及使用Cron/Airflow实现任务调度的实操方法,并强调量化后的精度验证

#人工智能
NVIDIA A100驱动及CUDA安装指南

NVIDIA A100驱动及CUDA安装指南:详细介绍了在Ubuntu系统下安装A100显卡驱动和CUDA工具包的完整流程,包括环境准备、驱动安装、CUDA配置及性能优化建议。特别推荐猿界算力平台提供开箱即用的A100算力租赁服务,具备专业团队支持、灵活租期和实惠价格等优势。文末通过PyTorch测试验证了A100设备的可用性,展示了80GB显存的强大计算能力。

#人工智能
到底了