logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

LLaMA-Factory 微调大模型之 AMD ROCm 适配笔记

本文详解 LLaMA-Factory 在 AMD ROCm 环境下的低成本大模型微调方案。通过配置后端、优化精度及调整学习率,有效解决梯度爆炸问题,助开发者在消费级显卡上高效完成 LoRA 微调,实现高性价比的开源大模型落地应用。

#LLaMA-Factory#LoRA
不用重写 C++,用 TileLang 优化 AMD 算子实战

本文详解如何利用 TileLang 优化 AMD GPU 算子,无需重写 C++ 即可解决大模型推理中的性能瓶颈。通过分块策略对齐 Wavefront 及融合 Softmax 实战,显著降低长序列延迟,提升计算效率,是 AMD ROCm 平台高效开发的理想方案。

#TileLang
Ryzen AI 笔记本跑大模型,Ollama 一行命令搞定

本文详解如何在搭载 AMD Strix Halo 架构的 Ryzen AI 笔记本上,通过 Ollama 一行命令快速部署本地大模型。利用统一内存架构实现 Radeon GPU 自动加速,大幅提升代码生成与离线推理效率,同时确保数据隐私安全,打造高效私有 AI 工作站。

#Ollama
Ollama 与 LM Studio 谁更适合 AMD 主机,实测对比见真章

本文实测对比 Ollama 与 LM Studio 在 AMD Strix Halo 主机的表现。针对 Ryzen AI Max+ 395 的 128GB 统一内存优势,推荐 LM Studio 作为 OpenClaw 部署首选。通过 Vulkan 后端优化与长上下文配置,实现高效本地大模型推理,打造私有化 AI 工作站。

#LM Studio
Strix Halo 核显跑 Qwen3-Coder 30B,Vulkan 零拷贝推理实战

本文详解 Strix Halo 核显利用 Vulkan 零拷贝技术,在 Windows 原生环境下流畅运行 Qwen3-Coder 30B 模型。通过源码编译 llama.cpp 与参数调优,实现近百 token/s 的本地代码推理,为开发者提供高效、隐私安全的 AI 编程辅助实战方案。

#Strix Halo
告别只会聊天,用 OpenClaw 把 Strix Halo 变成本地自动化助手

本文详解如何利用 OpenClaw 框架将 Strix Halo 打造为本地自动化助手。通过配置 Vulkan 后端与 128k 超大上下文,解决模型断片难题,实现安全高效的本地 Agent 部署,让大模型真正具备文件处理与工作流自动化能力。

#Strix Halo
从推理到训练,AMD ROCm 环境下 LLaMA-Factory 安装全记录

本文记录在 AMD ROCm 环境下安装 LLaMA-Factory 并实现大模型微调的全过程。从驱动配置、flash-attn 编译到 LoRA 训练优化,详细解析踩坑经验与解决方案,打破 AMD 仅能推理的刻板印象,助力开发者低成本构建垂直领域模型。

#LLaMA-Factory#深度学习
手把手教你用 vLLM 和 LLaMA-Factory 在 AMD 云上闭环训练

本文详解如何在 AMD 云上利用 vLLM 和 LLaMA-Factory 实现大模型闭环训练。涵盖数据清洗、ROCm 环境源码编译及 DeepSpeed 微调优化,助开发者高效构建垂直领域模型,打破硬件垄断,提升 AI 应用落地效率。

#LLaMA-Factory#vLLM
不用 NVIDIA 也能玩大模型,DevCloud 上跑通 LLaMA-Factory 教程

本文详解如何在 DevCloud 云端利用 AMD GPU 运行 LLaMA-Factory,跳过繁琐驱动配置,快速实现大模型 LoRA 微调。通过优化存储 I/O 与 ROCm 环境设置,帮助开发者低成本高效完成训练,是无需 NVIDIA 也能玩转大模型的实用指南。

#LLaMA-Factory
AMD 显卡也能跑微调,LLaMA-Factory 在 ROCm 7.x 上的避坑指南

本文详解 AMD 显卡在 ROCm 7.x 环境下运行 LLaMA-Factory 微调的避坑指南。通过源码编译 PyTorch、配置 HIP_PATH 及适配 flash-attn,解决算子兼容难题,助开发者打破 NVIDIA 垄断,低成本实现大模型训练。

    共 112 条
  • 1
  • 2
  • 3
  • 12
  • 请选择