大模型训练与推理专栏_AMD开发者中国社区

大模型训练与推理

基于AMD Instinct 系列数据中心 GPU 的云端 AI 开发。支持大模型训练与推理，ROCm 7.x软件栈，以及AMD DevCloud免费云算力资源。

1012篇内容

vLLM 模型服务上线前压测：Docker 镜像、GPU 和 k6 基线检查

本文提供vLLM模型服务上线前的压测检查清单，涵盖镜像验证、GPU运行时检查、模型缓存配置和性能测试等关键环节。通过分步验证Docker镜像、GPU可用性、模型挂载方式，记录冷启动时间，并使用k6工具进行多级并发压测（10/20/50并发），最终形成包含镜像版本、GPU状态、冷启动耗时、性能指标和风险提示的完整上线报告模板，为后续扩容和问题排查建立基准。

107 

2 

木雷坞 · 2026-05-27 11:36:04

#docker #java #k8s

从99.77%到99.8%：PyTorch CNN在MNIST上的超参数调优与模型微调实战

本文详细介绍了如何通过PyTorch CNN在MNIST数据集上实现从99.77%到99.8%的准确率提升。文章涵盖了数据增强的精细调整、模型架构微调、超参数优化以及集成学习等关键技巧，帮助开发者在超高准确率阶段突破极限。特别强调了学习率调度策略和优化器组合的重要性，为深度学习实践者提供了宝贵的实战经验。

95 

北知春 · 2026-05-27 10:39:29

#深度学习

PyTorch GPU环境搭建避坑指南（一步到位系列）

本文详细解析了PyTorch GPU环境搭建过程中的常见问题与解决方案，包括显卡驱动选择、CUDA工具包版本匹配、cuDNN安装技巧等关键步骤。通过实战经验分享，帮助开发者避开环境配置的常见陷阱，实现高效稳定的深度学习开发环境部署。

28 

KK大魔王 · 2026-05-27 10:31:50

#深度学习

从公式推导到代码实现：PyTorch中CELoss、BCELoss与NLLLoss的关联与差异

本文深入解析PyTorch中三种常用损失函数CELoss、BCELoss与NLLLoss的数学原理与代码实现差异。通过公式推导和对比实验，揭示其在多分类、二分类等场景下的适用性，并提供工程实践中的选择策略与常见陷阱解决方案，帮助开发者正确使用损失函数优化深度学习模型。

218 

1 

Zam2019 · 2026-05-27 10:05:10

#深度学习

从Conv1D到Conv3D：PyTorch卷积与反卷积的维度跃迁与应用实战

本文深入探讨了PyTorch中从Conv1D到Conv3D的卷积与反卷积操作，详细解析了不同维度卷积的工作原理、应用场景及实战技巧。通过具体代码示例，展示了如何利用Conv1D处理时序数据，Conv2D优化图像处理，以及Conv3D应对视频与体积数据挑战，帮助开发者高效实现维度跃迁与特征提取。

104 

1 

艾弥儿 · 2026-05-27 09:56:45

#深度学习 #计算机视觉

PyTorch 报错 RuntimeError: CUDA error: no kernel image is available for execution on the device 的深度诊断与

本文深入解析了PyTorch报错`RuntimeError: CUDA error: no kernel image is available for execution on the device`的根本原因及解决方案。通过诊断显卡算力、检查PyTorch支持的架构、提供版本兼容性建议和源码编译方法，帮助开发者有效解决CUDA与PyTorch的兼容性问题。

82 

1 

BugEnigma · 2026-05-27 09:25:21

vLLM多卡部署实战：从OOM到稳定上线的完整踩坑记录

本文记录了一次在内网环境将vLLM推理服务从单卡扩展到多卡部署的完整过程。涵盖环境兼容性排查、显存OOM根因分析、Tensor Parallel配置细节、NCCL通信问题解决、量化方案选型(AWQ vs GPTQ)、生产级性能调优参数，以及从首次启动到日均万级请求稳定的完整数据对比。适用于需要自建推理服务的后端工程师。

112 

左越_730 · 2026-05-27 08:00:00

#人工智能 #RAG

nano-vllm解读

一个简化版的vllm，实现了以下的内容flashattntriton。

164 

qq_43491590 · 2026-05-26 21:26:55

#自然语言处理 #深度学习

LLM推理优化：vLLM PagedAttention深度解析与工程实践

2024年底，我给团队搭了一套推理服务，基于 Transformers + HuggingFace 的 naive 实现。QPS 大概在 0.8 左右——跑 LLaMA-13B，A100 单卡。用户一多，请求开始排队。最长的一次，一个用户等了 47 秒才看到第一个 token。

158 

3 

cmzznet · 2026-05-26 20:58:40

#AI

大模型推理引擎vLLM(22)：以all2all_backend为例梳理命令行参数注册、解析、传递链路代码

269 

2 

cumtchw · 2026-05-26 16:54:59