logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

从单卡到多卡,用 RCCL 扩展 LLaMA-Factory 分布式训练实录

本文详解如何利用 RCCL 将 LLaMA-Factory 从单卡扩展至多卡分布式训练。针对通信死锁与超时难题,深入剖析环境变量配置、日志排查及缓冲区优化策略,提供实战代码助力大模型高效稳定微调。

文章图片
#LLaMA-Factory
LLaMA-Factory 微调指南,AMD 环境下训练 Qwen 模型的避坑记录

本文详解在 AMD GPU 环境下利用 LLaMA-Factory 微调 Qwen 模型的实战指南。针对 ROCm 驱动冲突与梯度爆炸难题,提出构建隔离环境、调整 DeepSpeed 配置及启用纯 FP32 模式等关键策略,帮助开发者避开常见陷阱,实现大模型稳定训练。

文章图片
#LLaMA-Factory
Ollama 在 Windows 上跑不动,试试这几招强制唤醒 Radeon

针对 Ollama 在 Windows 上无法识别 AMD Strix Halo 架构导致 GPU 闲置的问题,本文提供实战解决方案。通过 PowerShell 设置 HSA_OVERRIDE_GFX_VERSION 环境变量及定制 Modelfile,强制唤醒 Radeon 核显,显著提升大模型推理速度,让本地 AI 部署更高效流畅。

文章图片
#Ollama
Strix Halo 笔记本上手,Ollama 本地部署避坑指南

本文详解 AMD Strix Halo 笔记本本地部署 Ollama 的实战指南。通过统一内存架构打破显存限制,重点解析环境变量配置以释放 Radeon GPU 算力。实测显示 GPU 加速显著提升大模型推理速度,助开发者在移动端高效运行本地大模型,实现安全无忧的 AI 工作流。

#Ollama#Strix Halo
Ollama 与 LM Studio 谁更适合你的 AMD 主机

本文深度对比 Ollama 与 LM Studio 在 AMD Strix Halo 主机上的表现。针对 Windows 环境,重点解析 Vulkan 后端稳定性差异,指出 LM Studio 凭借开箱即用的 GPU 加速优势更适合普通用户,而 Ollama 则胜在轻量化服务化,助您根据场景精准选型。

#LM Studio#Ollama
LLaMA-Factory 微调实录,AMD 显卡上的 LoRA 训练流程

本文实录在 AMD 显卡上使用 LLaMA-Factory 进行 LoRA 微调的全流程。针对 ROCm 环境配置、架构参数设定及 BF16 精度优化等关键点提供避坑指南,验证了低成本高性能的可行性,助力开发者高效完成大模型微调任务。

#LLaMA-Factory
Ollama 对比 LM Studio,Ryzen AI 用户该怎么选

本文深度对比 Ollama 与 LM Studio 在 AMD Strix Halo 平台的表现。针对 Ryzen AI 用户,分析两者在命令行与图形界面、资源占用及工作流搭配上的差异,助您根据开发或调试场景选择最佳本地大模型工具,释放端侧算力。

#LM Studio
TileLang 调试经验谈,定位内核性能瓶颈的三个方法

本文分享 TileLang 在 AMD GPU 上的调试经验,利用 rocprof 精准定位内核性能瓶颈。通过动态分块、消除线程束发散及流水线重叠三大方法,有效解决内存墙与计算延迟问题,助力开发者实现大模型算子的高效优化。

#TileLang#性能优化#GPU
TileLang 算子优化体验,让 MI300X 跑满性能的 tweaks

本文深入解析 TileLang 在 AMD MI300X 上的算子优化实践。针对通用算子水土不服问题,通过调整分块策略对齐 Wavefront 架构,显著提升显存带宽与推理吞吐量。文章分享 Attention 算子重构细节及社区共建经验,助力开发者榨干硬件性能。

#TileLang
TileLang 编写自定义算子,释放 AMD GPU 矩阵核心潜力

本文详解如何利用 TileLang 编写自定义算子,深度释放 AMD GPU 矩阵核心潜力。通过 LDS 优化与分块策略实战,解决 Wavefront 机制适配难题,显著提升 MI300X 等高端显卡的矩阵乘法性能,是开发者掌握高性能计算的关键指南。

#TileLang
    共 77 条
  • 1
  • 2
  • 3
  • 8
  • 请选择