2600_96323197 个人主页

@2600_96323197

2600_96323197

2026-06-15 23:58:36 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

拒绝纸上谈兵，DevCloud 上实测 Instinct GPU 的高带宽推理性能

本文基于 DevCloud 实测 AMD Instinct MI300X GPU，验证其 HBM3 高带宽在大模型推理中的关键作用。测试显示，在 vLLM 框架下，MI300X 凭借 5.3 TB/s 带宽，于高并发场景稳定突破 150 tokens/s 吞吐，显著优化长上下文延迟，为硬件选型提供真实数据支撑。

#DevCloud #vLLM

手搓脚本实测，八卡 Instinct 集群如何实现近乎线性的推理加速

本文通过手写 RCCL 测试脚本，实测八卡 AMD Instinct 集群的互联带宽与推理加速效果。文章详解拓扑检查、代码实现及性能调优，揭示如何避免通信瓶颈，实现大模型近乎线性的吞吐增长，为构建高效 AI 集群提供实战指南。

显存不够别硬撑，FP8 量化让 70B 大模型在单卡 Instinct 上流畅运行

本文详解如何在单卡 Instinct MI300X 上利用 FP8 量化技术流畅运行 Llama 3.1 70B 大模型。通过 ROCm 7.x 与 vLLM 部署，FP8 将显存占用减半并释放带宽潜力，使吞吐量提升近 3 倍，有效解决显存瓶颈，助力大模型低成本高效落地。

AMD 显卡跑大模型，HIPify 加 LLaMA-Factory 环境搭建实录

本文详解 AMD 显卡运行大模型的实战方案，利用 HIPify 工具实现代码迁移，并在 Linux 环境下搭建 LLaMA-Factory。通过配置 ROCm 与 PyTorch，指导用户完成 LoRA 微调，解决 CUDA 依赖痛点，释放高性价比算力。

#LLaMA-Factory

从零开始迁移大模型，HIPify 自动转换代码的详细步骤解析

本文详解如何利用 HIPify 工具将 CUDA 代码自动迁移至 AMD ROCm 生态。通过 hipify-clang 实现语法转换，解决大模型项目中的库映射与编译配置难题，助开发者高效完成代码移植，释放 AMD 显卡在大模型训练与推理中的高性价比潜力。

#HIPify

LM Studio 插件开发入门，扩展本地大模型的功能边界

本文详解 LM Studio 插件开发入门，助开发者扩展本地大模型功能边界。通过实战教程，演示如何利用 TypeScript 构建联网搜索与文件访问插件，打破模型知识截止限制，安全实现实时数据交互，打造个性化本地 AI 应用。

#LM Studio

从 H100 到 MI300X，切换硬件后的代码适配心路历程

本文复盘从 Nvidia H100 迁移至 AMD MI300X 的实战历程，详解 ROCm 环境适配、Triton 算子重写及 vLLM 部署技巧。通过打破 CUDA 生态依赖，团队实现成本降低 30% 且性能提升，为 AI 基础设施硬件多元化提供宝贵经验。

AMD GPU 显存管理秘籍，避免大模型推理时的 OOM 崩溃

本文深入解析 AMD GPU 显存管理秘籍，重点剖析权重、激活值与 KV Cache 的消耗机制。通过落地 PagedAttention 技术、启用 FP8 量化及动态调度策略，有效避免大模型推理时的 OOM 崩溃，助力开发者在有限硬件上高效运行大规模模型。

本地大模型安全加固，LM Studio 与 Ollama 的隐私防护指南

本文深入解析本地大模型安全加固策略，聚焦 LM Studio 与 Ollama 的隐私防护。通过端口封闭、防火墙白名单、权重加密及日志审计等实战手段，构建内网“隐形”防线，确保企业数据资产在封闭环境中安全可控，是运维人员必备的合规落地指南。

SGLang 结构化输出实战，让大模型乖乖按 JSON 格式回答

本文详解 SGLang 框架如何利用约束解码技术实现大模型结构化输出，强制生成合规 JSON 格式。结合 AMD Instinct GPU 实战案例，展示从 Schema 定义到部署避坑的全流程，解决后端集成痛点，大幅提升 AI 应用稳定性与开发效率。

共 109 条

请选择