
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
参加NVIDIA AI基础设施认证考试(NCP-AII)是一次系统性的学习过程。作者通过资源归档、AI辅助阅读和实战演练等方式备考,重点攻克了GPU实例分割、NCCL通信等难点。考试采用英文界面更准确,合理标记不确定题目有助于复查。最终不仅获得认证,更重要的是建立了从物理层到逻辑层的完整AI基础设施认知体系,弥补了算法工程师在工程落地方面的短板。

摘要:最新AI推理基准测试显示,NVIDIA RTX 5090在CUDA平台以14,073/3,290 t/s(PP512/TG128)领跑,启用FlashAttention后性能提升18%。DGX Spark凭借128GB内存可运行200B+大模型,但性价比(0.014 t/s/$)低于RTX3090(0.226)。Apple M4 Max以923/83 t/s成为移动端最强,而MI300X在R

Qwen (通义千问) 是阿里巴巴通义实验室开发的大语言模型系列,以出色的中英文能力和完整的工具链著称,是企业级应用的主流选择之一。在中文大模型领域,Qwen 系列与 DeepSeek 并驾齐驱,代表了国产大模型的最高水平。对于面向中文用户或需要多语言支持的企业应用来说,Qwen 往往是首选方案。其优势不仅体现在语言理解能力上,更在于完整的工具链支持和活跃的社区生态

本文是AMD ROCm GPU计算平台的入门指南,基于ROCm 7.2.1版本编写。主要内容包括:1) ROCm简介及其生态系统,支持AMD Instinct和Radeon GPU系列;2) 环境安装与验证方法,涵盖Linux/Docker/Windows平台;3) HIP编程基础,包括线程模型、内存管理和优化技巧;4) GPU架构与性能优化原则;5) ROCm核心库(rocBLAS/rocFFT

大语言模型微调技术对比与实践指南 本文系统介绍了大语言模型微调的核心技术与实践方法。首先对比了全量微调与参数高效微调(PEFT)的特点,全量微调需要更新所有参数,显存需求巨大(7B模型约100GB),而PEFT方法如LoRA通过低秩分解将参数量减少99.8%,显存降至20-25GB。QLoRA进一步结合4比特量化技术,使7B模型微调仅需10-13GB显存,可在消费级GPU上运行。Axolotl等工

《32天GPU服务器测试从起步到精通》是一套完整的GPU服务器测试指南,涵盖硬件基础、性能测试、模型优化等7大模块32个章节。专为AI工程师、运维人员和技术决策者设计,提供从基础到进阶的系统化知识,包含可实操的代码示例和最新技术参考(2026年)。内容包含GPU架构解析、大语言模型测试、生成模型优化等实战内容,以及成本分析和选型建议。建议读者按需查阅或系统学习,通过每日20分钟的章节学习,掌握GP

GPU服务器架构设计与性能优化指南 本文系统解析了GPU服务器的架构设计要点与性能优化策略,涵盖单机多卡拓扑、多机集群架构及硬件搭配原则。核心内容包括: 单机拓扑结构 PCIe与NVLink性能对比

摘要:本文系统介绍了GPU服务器测试所需的硬件知识体系,包含5个核心章节:从GPU架构基础到服务器整体设计,涵盖网络协议、交换机配置及存储散热方案。学习目标包括硬件参数解读、服务器配置设计、网络拓扑选择等关键能力。这些知识为后续性能测试和模型部署奠定基础,建议初学者系统学习,有经验者可针对性补强。全文构建了从硬件原理到实际应用的完整知识框架。

ResNet50 是深度学习领域最经典的卷积神经网络之一,自 2015 年提出以来,一直是图像分类任务的基准模型和GPU 性能测试的标准工作负载。在 GPU 服务器测试中,ResNet50 训练测试具有重要意义

Qwen (通义千问) 是阿里巴巴通义实验室开发的大语言模型系列,以出色的中英文能力和完整的工具链著称,是企业级应用的主流选择之一。在中文大模型领域,Qwen 系列与 DeepSeek 并驾齐驱,代表了国产大模型的最高水平。对于面向中文用户或需要多语言支持的企业应用来说,Qwen 往往是首选方案。其优势不仅体现在语言理解能力上,更在于完整的工具链支持和活跃的社区生态








