2600_96323213 个人主页

@2600_96323213

2600_96323213

2026-06-15 17:29:25 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

统一内存真香现场，Ryzen AI 笔记本本地跑 32B 模型实测报告

本文实测 AMD Strix Halo 架构笔记本，凭借 128GB 统一内存打破显存墙，成功在本地流畅运行 32B 大语言模型。测试显示 GPU 加速显著提升推理速度，并支持 128k 长上下文处理，为开发者提供高效的端侧 AI 部署方案。

解锁 128k 长上下文，Strix Halo 让本地大模型读懂整本技术书

本文详解 AMD Strix Halo 如何突破显存瓶颈，在本地轻松运行 128k 长上下文大模型。通过 LM Studio 配置 Vulkan 后端，用户可一次性投喂整本技术书或代码库，实现精准细节引用与跨段落逻辑推理，彻底解决隐私泄露焦虑，重塑本地 AI 生产力。

#Strix Halo

告别手动编译，DevCloud 上一键部署 ROCm 7.x 全流程

本文详解在 DevCloud 上一键部署 ROCm 7.x 的全流程。通过自动化脚本解决依赖与版本匹配难题，涵盖架构适配策略及驱动验证方法。助力开发者告别手动编译，快速构建高效 AI 开发环境，大幅降低运维成本。

#DevCloud

AMD 显卡跑大模型，ROCm 7.x 加 vLLM 的避坑实录

本文详解 AMD 显卡部署大模型实战，聚焦 ROCm 7.x 与 vLLM 的避坑指南。涵盖 Ubuntu 环境配置、PyTorch 源码编译及显存碎片化调优，通过调整 block-size 与 FP8 量化解决 OOM 难题，助开发者高效构建稳定推理服务。

#vLLM

Ollama 还是 LM Studio，AMD Strix Halo 主机部署大模型怎么选

本文深度解析 AMD Strix Halo 主机部署大模型的最佳方案，对比 Ollama 与 LM Studio。针对 OpenClaw 框架需求，推荐 LM Studio 搭配 Vulkan 后端，充分利用 128GB 统一内存优势，实现本地 AI 高效运行与长上下文处理，打造私有化智能工作站。

#LM Studio

Windows 跑大模型别死磕 ROCm，Vulkan 才是 AMD 显卡的稳赢解

本文详解 Windows 下 AMD 显卡运行大模型的最优解：放弃不稳定的 ROCm，转而使用 Vulkan 后端。通过 LM Studio 配置 Vulkan 加速与 128k 长上下文，结合 Strix Halo 统一内存优势，实现推理速度提升 8 倍及静音体验，是本地 AI 部署的高效方案。

手把手教你配环境变量，彻底激活 Radeon 显卡的 AI 推理潜能

本文详解如何通过配置 HSA_OVERRIDE_GFX_VERSION 环境变量，解决 AMD Strix Halo 架构下 Radeon 显卡在本地大模型推理中利用率低的问题。通过手动指定 GFX 版本并优化后端设置，可彻底激活 GPU 加速潜能，显著提升 Ollama 等工具的 Token 生成速度与稳定性。

大模型推理实战，用 vLLM 在 Radeon 显卡上加速 LLaMA

本文详解在 Radeon 显卡上利用 vLLM 加速 LLaMA 大模型推理的实战指南。涵盖 ROCm 环境搭建、PagedAttention 显存优化及 INT8 量化策略，解决消费级硬件部署难题，显著提升吞吐量与运行效率，助力开发者低成本构建高效本地 AI 服务。

#vLLM

从训练到推理，基于 TileLang 与 LLaMA-Factory 的全链路开发

本文详解基于 TileLang 与 LLaMA-Factory 的全链路开发流程。从自定义算子突破硬件限制，到 ROCm 环境下的高效微调，再到 vLLM 推理部署，构建 AMD GPU 生态闭环，助力开发者实现高性能 AI 应用落地。

#TileLang #LLaMA-Factory

锐龙 AI 配合 OpenClaw 打造私有化自动化文档代理

本文详解如何利用 AMD Strix Halo 架构与 OpenClaw 框架，在本地构建私有化自动化文档代理。通过配置 LM Studio 的 Vulkan 后端及 128k 上下文窗口，实现敏感数据零上传的安全处理流程，为开发者提供高效、可控的 AI 知识库解决方案。

共 88 条

请选择