
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本文详解如何利用 RCCL 将 LLaMA-Factory 从单卡扩展至多卡分布式训练。针对通信死锁与超时难题,深入剖析环境变量配置、日志排查及缓冲区优化策略,提供实战代码助力大模型高效稳定微调。

本文详解在 AMD GPU 环境下利用 LLaMA-Factory 微调 Qwen 模型的实战指南。针对 ROCm 驱动冲突与梯度爆炸难题,提出构建隔离环境、调整 DeepSpeed 配置及启用纯 FP32 模式等关键策略,帮助开发者避开常见陷阱,实现大模型稳定训练。

针对 Ollama 在 Windows 上无法识别 AMD Strix Halo 架构导致 GPU 闲置的问题,本文提供实战解决方案。通过 PowerShell 设置 HSA_OVERRIDE_GFX_VERSION 环境变量及定制 Modelfile,强制唤醒 Radeon 核显,显著提升大模型推理速度,让本地 AI 部署更高效流畅。

本文详解 AMD Strix Halo 笔记本本地部署 Ollama 的实战指南。通过统一内存架构打破显存限制,重点解析环境变量配置以释放 Radeon GPU 算力。实测显示 GPU 加速显著提升大模型推理速度,助开发者在移动端高效运行本地大模型,实现安全无忧的 AI 工作流。
本文深度对比 Ollama 与 LM Studio 在 AMD Strix Halo 主机上的表现。针对 Windows 环境,重点解析 Vulkan 后端稳定性差异,指出 LM Studio 凭借开箱即用的 GPU 加速优势更适合普通用户,而 Ollama 则胜在轻量化服务化,助您根据场景精准选型。
本文实录在 AMD 显卡上使用 LLaMA-Factory 进行 LoRA 微调的全流程。针对 ROCm 环境配置、架构参数设定及 BF16 精度优化等关键点提供避坑指南,验证了低成本高性能的可行性,助力开发者高效完成大模型微调任务。
本文深度对比 Ollama 与 LM Studio 在 AMD Strix Halo 平台的表现。针对 Ryzen AI 用户,分析两者在命令行与图形界面、资源占用及工作流搭配上的差异,助您根据开发或调试场景选择最佳本地大模型工具,释放端侧算力。
本文分享 TileLang 在 AMD GPU 上的调试经验,利用 rocprof 精准定位内核性能瓶颈。通过动态分块、消除线程束发散及流水线重叠三大方法,有效解决内存墙与计算延迟问题,助力开发者实现大模型算子的高效优化。
本文深入解析 TileLang 在 AMD MI300X 上的算子优化实践。针对通用算子水土不服问题,通过调整分块策略对齐 Wavefront 架构,显著提升显存带宽与推理吞吐量。文章分享 Attention 算子重构细节及社区共建经验,助力开发者榨干硬件性能。
本文详解如何利用 TileLang 编写自定义算子,深度释放 AMD GPU 矩阵核心潜力。通过 LDS 优化与分块策略实战,解决 Wavefront 机制适配难题,显著提升 MI300X 等高端显卡的矩阵乘法性能,是开发者掌握高性能计算的关键指南。







