logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【AMD ROCm 实战】云端 AI 开发系列(九):智能客服系统全栈实践——从 0 到 1 基于 MI300X 构建企业级 AI 应用

通过一个完整的企业级智能客服系统项目,串联本系列前 8 篇文章的技术成果。从业务需求分析、系统架构设计、核心模块实现、到生产部署与运维,完整展示如何在 AMD Instinct MI300X 集群上构建一个日均处理 500 万请求的 AI 客服系统。实测数据显示,全栈方案相比 NVIDIA A100 集群,年度成本节省 62%,响应速度满足 P95 < 3s 的企业级 SLA 要求。

文章图片
#人工智能
【AMD ROCm 实战】Agentic AI 工作流在 ROCm 上的高性能实现:多步骤推理、工具调用与 KV Cache 复用

2026 年 AI 推理的核心范式正在从单次问答转向多步骤 Agentic 工作流。一个 Agent 的单次任务可能触发 10-30 次 LLM 调用,这对推理引擎的吞吐、延迟和显存管理提出了全新挑战。本文基于作者团队在 AMD MI300X 上构建生产级 Code Agent 的实战经验,深入讲解 Agentic 循环的性能瓶颈、KV Cache 跨轮复用策略、Prefill-Decode 分离

文章图片
#人工智能#大数据
【码动四季】安全漏洞应急响应效率提升 78%:AtomCode 批量分析 24 个 CVE 的完整工作流

2026 年密集出现的高危 CVE 漏洞——从 Apache MINA RCE 到 Linux 内核 DirtyDecrypt,安全团队每月要处理 2-3 个 CVSS 9.0+ 的紧急漏洞。手动分析每个漏洞的补丁 diff、评估影响范围、生成修复方案,一个漏洞平均要花 4 小时。本文记录用 AtomCode 搭建的 CVE 应急响应工作流,将单漏洞分析时间从 4 小时压缩到 45 分钟。包含漏洞

文章图片
【AMD ROCm 实战】FP8/MXFP8 混合精度训练与推理的 ROCm 工程实战:从原理到 AITER 加速

ROCm 7.0 引入了原生 FP8/MXFP8/MXFP6/MXFP4 支持,官方宣称推理吞吐提升 3.5 倍、训练速度提升 3 倍。但这些数字背后的工程细节是什么?本文从 FP8 的数值表示原理讲起,深入解析 OCP-FP8 与 MXFP8 的区别(per-tensor vs block-scaled),然后通过 AITER(AI Tensor Engine for ROCm)的架构分析,展示

文章图片
【AMD ROCm 实战】云端 AI 开发系列(四):多卡并行与分布式推理——8 张 MI300X 集群部署 Llama3-70B 极致性能优化

本文深入探讨在 8 张 AMD Instinct MI300X (总计 1.5TB HBM3 显存) 上构建大规模 GPU 集群,部署 Llama3-70B 并实现极致性能优化的完整流程。重点讲解 SGLang 分布式推理框架、模型并行 vs 数据并行策略选择,以及从 1 卡到 8 卡的线性扩展性测试。实测数据显示,8 卡集群可实现 420 tokens/s 的吞吐量,线性扩展比达 88%。

文章图片
#人工智能#性能优化
【AMD ROCm 实战】Triton for ROCm:用 Python 写跨平台高性能 GPU 算子——从原理到 Fused MoE 实战

2026 年,OpenAI Triton 已经成为 GPU 算子开发的事实标准语言。AMD 在 Triton v3.3 中深度集成了 HIP 后端,同一份 Triton 代码可以零修改地在 NVIDIA 和 AMD GPU 上运行。本文从 Triton 的编译原理讲起,深入解析 AMD HIP 后端的代码生成机制(TTIR -> TTGIR -> LLVM IR -> AMDGCN -> HSAC

文章图片
#python#开发语言
【AMD ROCm 实战】云端 AI 开发系列(七):大模型微调实战——LoRA/QLoRA 在 MI300X 上高效微调 Llama3-70B

本文详细讲解在 AMD Instinct MI300X (192GB HBM3) 上对 Llama3-70B 进行 LoRA/QLoRA 微调的完整流程。覆盖 LoRA 原理、数据集准备、bitsandbytes ROCm 适配、单卡/多卡微调训练、收敛速度对标。实测 QLoRA 4bit 微调仅需 4.5 小时即可收敛,192GB 大显存可容纳 256 的 batch size,显著加速训练过程

文章图片
#人工智能
2026 我的 AI 开发全家桶:从 MiMo Code 到 IDE 插件的效率革命实战

2026 年 AI 编程工具进入多 Agent 协同时代,单一 IDE 插件已无法满足大型项目重构、长任务开发、自动化 CI 审查等复杂场景。本文结合最新小米开源 MiMo Code 工具,搭建一套「Cursor + Claude Code + MiMo Code + Codex CLI」四维 AI 开发全家桶。深度拆解 MiMo Code 独有四层记忆系统、Max Mode 并行推理、Goal

文章图片
#人工智能#ide
【AMD ROCm 实战】云端 AI 开发系列(三):vLLM 大语言模型部署优化——在 MI300X 上高效运行 Llama3-70B

本文深入探讨在 AMD Instinct MI300X (192GB HBM3) 上使用 vLLM 框架部署 Llama3-70B 大语言模型的完整流程。重点讲解连续批处理 (Continuous Batching) 技术、INT8/FP8 量化加速策略,以及 192GB 超大显存的极致利用方案。实测数据显示,MI300X 在 INT8 量化下可实现 52 tokens/s 的吞吐量,成本仅为 A

文章图片
#人工智能#语言模型#自然语言处理 +1
【AMD ROCm 实战】AMD ROCm vs 华为昇腾 5 维对比:架构原理、推理训练实测与 CUDA 迁移避坑

2026 年 AI 芯片"国产化"成为刚需。AMD ROCm (MI350) 和 华为昇腾 (Ascend 910B) 是当前最受关注的两个 GPU 替代方案。本文从生态兼容性、推理性能、训练效率、成本、易用性 5 个维度进行全方位对比,并通过一个实际的大模型推理迁移案例,展示从 CUDA 迁移到两种国产方案的具体步骤和踩坑实录。

文章图片
#人工智能
    共 75 条
  • 1
  • 2
  • 3
  • 8
  • 请选择