
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
通过一个完整的企业级智能客服系统项目,串联本系列前 8 篇文章的技术成果。从业务需求分析、系统架构设计、核心模块实现、到生产部署与运维,完整展示如何在 AMD Instinct MI300X 集群上构建一个日均处理 500 万请求的 AI 客服系统。实测数据显示,全栈方案相比 NVIDIA A100 集群,年度成本节省 62%,响应速度满足 P95 < 3s 的企业级 SLA 要求。

2026 年 AI 推理的核心范式正在从单次问答转向多步骤 Agentic 工作流。一个 Agent 的单次任务可能触发 10-30 次 LLM 调用,这对推理引擎的吞吐、延迟和显存管理提出了全新挑战。本文基于作者团队在 AMD MI300X 上构建生产级 Code Agent 的实战经验,深入讲解 Agentic 循环的性能瓶颈、KV Cache 跨轮复用策略、Prefill-Decode 分离

2026 年密集出现的高危 CVE 漏洞——从 Apache MINA RCE 到 Linux 内核 DirtyDecrypt,安全团队每月要处理 2-3 个 CVSS 9.0+ 的紧急漏洞。手动分析每个漏洞的补丁 diff、评估影响范围、生成修复方案,一个漏洞平均要花 4 小时。本文记录用 AtomCode 搭建的 CVE 应急响应工作流,将单漏洞分析时间从 4 小时压缩到 45 分钟。包含漏洞

ROCm 7.0 引入了原生 FP8/MXFP8/MXFP6/MXFP4 支持,官方宣称推理吞吐提升 3.5 倍、训练速度提升 3 倍。但这些数字背后的工程细节是什么?本文从 FP8 的数值表示原理讲起,深入解析 OCP-FP8 与 MXFP8 的区别(per-tensor vs block-scaled),然后通过 AITER(AI Tensor Engine for ROCm)的架构分析,展示

本文深入探讨在 8 张 AMD Instinct MI300X (总计 1.5TB HBM3 显存) 上构建大规模 GPU 集群,部署 Llama3-70B 并实现极致性能优化的完整流程。重点讲解 SGLang 分布式推理框架、模型并行 vs 数据并行策略选择,以及从 1 卡到 8 卡的线性扩展性测试。实测数据显示,8 卡集群可实现 420 tokens/s 的吞吐量,线性扩展比达 88%。

2026 年,OpenAI Triton 已经成为 GPU 算子开发的事实标准语言。AMD 在 Triton v3.3 中深度集成了 HIP 后端,同一份 Triton 代码可以零修改地在 NVIDIA 和 AMD GPU 上运行。本文从 Triton 的编译原理讲起,深入解析 AMD HIP 后端的代码生成机制(TTIR -> TTGIR -> LLVM IR -> AMDGCN -> HSAC

本文详细讲解在 AMD Instinct MI300X (192GB HBM3) 上对 Llama3-70B 进行 LoRA/QLoRA 微调的完整流程。覆盖 LoRA 原理、数据集准备、bitsandbytes ROCm 适配、单卡/多卡微调训练、收敛速度对标。实测 QLoRA 4bit 微调仅需 4.5 小时即可收敛,192GB 大显存可容纳 256 的 batch size,显著加速训练过程

2026 年 AI 编程工具进入多 Agent 协同时代,单一 IDE 插件已无法满足大型项目重构、长任务开发、自动化 CI 审查等复杂场景。本文结合最新小米开源 MiMo Code 工具,搭建一套「Cursor + Claude Code + MiMo Code + Codex CLI」四维 AI 开发全家桶。深度拆解 MiMo Code 独有四层记忆系统、Max Mode 并行推理、Goal

本文深入探讨在 AMD Instinct MI300X (192GB HBM3) 上使用 vLLM 框架部署 Llama3-70B 大语言模型的完整流程。重点讲解连续批处理 (Continuous Batching) 技术、INT8/FP8 量化加速策略,以及 192GB 超大显存的极致利用方案。实测数据显示,MI300X 在 INT8 量化下可实现 52 tokens/s 的吞吐量,成本仅为 A

2026 年 AI 芯片"国产化"成为刚需。AMD ROCm (MI350) 和 华为昇腾 (Ascend 910B) 是当前最受关注的两个 GPU 替代方案。本文从生态兼容性、推理性能、训练效率、成本、易用性 5 个维度进行全方位对比,并通过一个实际的大模型推理迁移案例,展示从 CUDA 迁移到两种国产方案的具体步骤和踩坑实录。








