2600_96323174 个人主页

@2600_96323174

2600_96323174

2026-06-15 18:03:19 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

锐龙 AI 能效比实测，Ollama 挂机一整晚耗电多少

本文实测锐龙 AI 笔记本在纯电池模式下运行 Ollama 的能效表现。结果显示，借助 NPU 加速，挂机一整晚耗电仅约 28%，且低温静音。文章验证了本地大模型在移动办公中的低功耗优势，为出差党提供隐私安全与长续航的 AI 应用新方案。

#Ollama

Github 上那些值得关注的 ROCm 开源项目，别再只盯着官方

本文盘点 Github 上值得关注的 ROCm 开源项目，涵盖 HIPify 代码迁移、SGLang 与 TileLang 推理加速及 LLaMA-Factory 微调实践。助开发者摆脱 CUDA 依赖，高效利用 AMD GPU 构建大模型应用，共建开源生态。

vLLM 在 AMD 显卡上的部署避坑指南，拒绝非法指令错误

本文详解 vLLM 在 AMD 显卡上的部署避坑指南，重点解决非法指令错误与显存碎片化问题。通过精准配置 PYTORCH_ROCM_ARCH 参数及优化 block-size，确保 MI300X 等硬件在大模型推理中的高效稳定运行，助力开发者规避生产环境风险。

#vLLM

不用买独显，锐龙 AI 集成显卡也能跑大模型

本文揭示锐龙 AI 轻薄本无需独显即可运行大模型。通过 Ollama 工具与量化技术，利用 NPU 和集显高效推理 Llama3、Qwen2.5 等模型。适合日常办公与文本创作，打破硬件门槛，提供安静低功耗的本地 AI 体验。

#Ollama

LM Studio 结合 LLaMA Factory，微调模型本地部署指南

本文详解如何利用 AMD Ryzen AI 与 LLaMA Factory 在本地低成本微调大模型。通过 LoRA 技术优化显存占用，结合 LM Studio 实现 GGUF 格式模型的快速部署与推理，为创作者提供打造专属 AI 助手的高效闭环方案。

#LM Studio

PyTorch 迁移实录，把 CUDA 代码改成 HIP 只需这三步

本文详解 PyTorch 代码从 CUDA 迁移至 HIP 的实战流程。通过 hipify 工具自动转换、调整 Wavefront 线程配置及修正环境变量三步走策略，助开发者快速适配 AMD ROCm 平台。掌握关键迁移技巧，轻松实现 GPU 算力切换，提升大模型推理效率。

Ollama 加 Ryzen AI 实战，本地跑大模型不再卡顿

本文详解如何在 AMD Ryzen AI 笔记本上利用 Ollama 实现大模型本地部署。通过配置环境变量唤醒 NPU 加速，显著提升推理速度并降低功耗，解决移动端运行卡顿痛点，让开发者在离线场景下也能流畅体验高效的大语言模型应用。

#Ollama

AMD Instinct MI300X 实战，大模型训练中的显存优化技巧

本文分享 AMD Instinct MI300X 实战经验，详解大模型训练中显存优化技巧。通过 ROCm 工具链定位内存泄漏，结合梯度检查点与动态 Batch Size 调整，成功解决 LLaMA-7B 训练 OOM 难题，释放硬件性能。

解决 No HIP GPUs available 报错，我的 ROCm 调试血泪史

本文深入解析 AMD ROCm 开发中常见的 No HIP GPUs available 报错。通过驱动版本匹配、用户组权限配置及环境变量清理三大核心场景，提供精准排查方案。帮助开发者快速解决 GPU 识别失败问题，避免盲目重装系统，高效搭建稳定的 AI 计算环境。

ROCm 社区贡献实战：从 HIPify 迁移到 SGLang 部署的全流程

在深度学习工程落地的过程中，硬件选型往往决定了项目的成本上限与扩展边界。随着 AMD ROCm 生态的日益成熟，越来越多的团队开始尝试将原本基于 NVIDIA CUDA 构建的大模型训练与推理 pipeline 迁移至 AMD GPU 平台。这不仅仅是更换几行代码或修改几个环境变量那么简单，它涉及到从底层算子适配、编译工具链切换，到上层框架兼容性验证的全链路改造。许多开发者在初次接触时，常会被复杂

#sglang

共 64 条

请选择