logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大模型推理实战,用 vLLM 在 Radeon 显卡上加速 LLaMA

本文详解在 Radeon 显卡上利用 vLLM 加速 LLaMA 大模型推理的实战指南。涵盖 ROCm 环境搭建、PagedAttention 显存优化及 INT8 量化策略,解决消费级硬件部署难题,显著提升吞吐量与运行效率,助力开发者低成本构建高效本地 AI 服务。

#vLLM
从训练到推理,基于 TileLang 与 LLaMA-Factory 的全链路开发

本文详解基于 TileLang 与 LLaMA-Factory 的全链路开发流程。从自定义算子突破硬件限制,到 ROCm 环境下的高效微调,再到 vLLM 推理部署,构建 AMD GPU 生态闭环,助力开发者实现高性能 AI 应用落地。

#TileLang#LLaMA-Factory
锐龙 AI 配合 OpenClaw 打造私有化自动化文档代理

本文详解如何利用 AMD Strix Halo 架构与 OpenClaw 框架,在本地构建私有化自动化文档代理。通过配置 LM Studio 的 Vulkan 后端及 128k 上下文窗口,实现敏感数据零上传的安全处理流程,为开发者提供高效、可控的 AI 知识库解决方案。

Ollama 还是 LM Studio,AMD Strix Halo 主机部署大模型怎么选

本文深度解析 AMD Strix Halo 主机部署大模型的最佳方案,对比 Ollama 与 LM Studio。针对 OpenClaw 框架需求,推荐 LM Studio 搭配 Vulkan 后端,充分利用 128GB 统一内存优势,实现本地 AI 高效运行与长上下文处理,打造私有化智能工作站。

#LM Studio
从驱动到服务,ROCm 7.x 部署 Llama 3 的最小可行路径

本文详解在 AMD Instinct GPU 上基于 ROCm 7.x 部署 Llama 3 的最小可行路径。涵盖驱动配置、PyTorch 与 vLLM 编译优化及服务启动实战,助开发者快速构建高效大模型推理环境,避开常见权限与架构陷阱。

Ollama 对比 LM Studio,AMD 新本选哪个工具更顺手

本文深度对比 Ollama 与 LM Studio 在 AMD Strix Halo 笔记本上的表现。针对 Vulkan 后端适配痛点,分析两者在 GPU 卸载率、安装难度及资源调度上的差异,助您根据开发或交互需求选出最顺手的本地大模型工具。

#LM Studio#Ollama
从 7B 到 32B 全覆盖,一台 Strix Halo 笔记本搞定所有本地 AI 需求

本文详解 Strix Halo 笔记本如何本地运行 7B 至 32B 大模型。通过灵活切换“轻骑兵”到“重装甲”策略,结合 GGUF 量化与统一内存优势,实现从快速问答到复杂代码重构的全场景覆盖,打造高效隐私的本地 AI 工作站。

#Strix Halo
MI300 对比 MI250,ROCm 7.x 下 vLLM 推理性能实测差距有多大

本文深度实测 MI300 对比 MI250 在 ROCm 7.x 下的 vLLM 推理性能。聚焦 HBM 带宽与架构代差,揭示 MI300X 凭借 gfx942 架构和 Chiplet 技术,在 TTFT、吞吐量及多卡扩展性上显著优于前代,为大模型服务选型提供量化决策依据。

#vLLM
拒绝预编译包,手搓 PyTorch 源码让 vLLM 在 Instinct GPU 上跑满血

本文详解如何在 AMD Instinct GPU 上手搓 PyTorch 源码,解决预编译包性能瓶颈。通过精准匹配架构代码、选型编译器及对齐 Triton 版本,成功部署 vLLM 并释放 MI300 满血算力,为开发者提供生产级大模型推理优化方案。

#vLLM
vLLM 部署避坑指南,解决 Instinct GPU 上的编译报错与依赖冲突

本文详解 vLLM 在 AMD Instinct GPU 上的部署避坑指南。针对编译报错与依赖冲突,提供工具链版本核查、PYTORCH_ROCM_ARCH 架构配置及 Triton 依赖解决策略,助开发者高效构建稳定推理环境。

#vLLM
    共 83 条
  • 1
  • 2
  • 3
  • 9
  • 请选择