logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

ROCm 从入门到精通 - 完整学习指南

本文是AMD ROCm GPU计算平台的入门指南,基于ROCm 7.2.1版本编写。主要内容包括:1) ROCm简介及其生态系统,支持AMD Instinct和Radeon GPU系列;2) 环境安装与验证方法,涵盖Linux/Docker/Windows平台;3) HIP编程基础,包括线程模型、内存管理和优化技巧;4) GPU架构与性能优化原则;5) ROCm核心库(rocBLAS/rocFFT

文章图片
#AI
(二十四)32天GPU测试从入门到精通-LLM 微调基础day22

大语言模型微调技术对比与实践指南 本文系统介绍了大语言模型微调的核心技术与实践方法。首先对比了全量微调与参数高效微调(PEFT)的特点,全量微调需要更新所有参数,显存需求巨大(7B模型约100GB),而PEFT方法如LoRA通过低秩分解将参数量减少99.8%,显存降至20-25GB。QLoRA进一步结合4比特量化技术,使7B模型微调仅需10-13GB显存,可在消费级GPU上运行。Axolotl等工

文章图片
#人工智能#机器学习#深度学习
(一)32 天 GPU 服务器测试从起步到精通-前言day0

《32天GPU服务器测试从起步到精通》是一套完整的GPU服务器测试指南,涵盖硬件基础、性能测试、模型优化等7大模块32个章节。专为AI工程师、运维人员和技术决策者设计,提供从基础到进阶的系统化知识,包含可实操的代码示例和最新技术参考(2026年)。内容包含GPU架构解析、大语言模型测试、生成模型优化等实战内容,以及成本分析和选型建议。建议读者按需查阅或系统学习,通过每日20分钟的章节学习,掌握GP

文章图片
#服务器#运维
(四)32天GPU测试从入门到精通-GPU 服务器架构day2

GPU服务器架构设计与性能优化指南 本文系统解析了GPU服务器的架构设计要点与性能优化策略,涵盖单机多卡拓扑、多机集群架构及硬件搭配原则。核心内容包括: 单机拓扑结构 PCIe与NVLink性能对比

文章图片
#服务器#运维#人工智能
(二)32 天 GPU 服务器测试从起步到精通-第一部分 硬件基础day1

摘要:本文系统介绍了GPU服务器测试所需的硬件知识体系,包含5个核心章节:从GPU架构基础到服务器整体设计,涵盖网络协议、交换机配置及存储散热方案。学习目标包括硬件参数解读、服务器配置设计、网络拓扑选择等关键能力。这些知识为后续性能测试和模型部署奠定基础,建议初学者系统学习,有经验者可针对性补强。全文构建了从硬件原理到实际应用的完整知识框架。

文章图片
#服务器#运维
(十三)32天GPU测试从入门到精通-ResNet50 训练测试day11

ResNet50 是深度学习领域最经典的卷积神经网络之一,自 2015 年提出以来,一直是图像分类任务的基准模型和GPU 性能测试的标准工作负载。在 GPU 服务器测试中,ResNet50 训练测试具有重要意义

文章图片
#人工智能
(二十三)32天GPU测试从入门到精通-Qwen 模型测试day21

Qwen (通义千问) 是阿里巴巴通义实验室开发的大语言模型系列,以出色的中英文能力和完整的工具链著称,是企业级应用的主流选择之一。在中文大模型领域,Qwen 系列与 DeepSeek 并驾齐驱,代表了国产大模型的最高水平。对于面向中文用户或需要多语言支持的企业应用来说,Qwen 往往是首选方案。其优势不仅体现在语言理解能力上,更在于完整的工具链支持和活跃的社区生态

文章图片
#人工智能
(二十二)32天GPU测试从入门到精通-DeepSeek 模型测试day20

【摘要】DeepSeek是由中国深度求索公司开发的大语言模型系列,以出色的中文能力和高性价比著称。其核心创新包括MoE架构(混合专家系统)和MLA注意力技术,显著降低了长上下文的显存占用,使256K上下文可在单卡运行。DeepSeek-V3作为旗舰型号,总参数量达671B但仅激活21B参数,兼具高性能与低成本优势。在中文场景下,DeepSeek表现优异,中文理解、生成及知识储备均优于LLaMA,与

文章图片
#人工智能#大数据
(二十二)32天GPU测试从入门到精通-DeepSeek 模型测试day20

【摘要】DeepSeek是由中国深度求索公司开发的大语言模型系列,以出色的中文能力和高性价比著称。其核心创新包括MoE架构(混合专家系统)和MLA注意力技术,显著降低了长上下文的显存占用,使256K上下文可在单卡运行。DeepSeek-V3作为旗舰型号,总参数量达671B但仅激活21B参数,兼具高性能与低成本优势。在中文场景下,DeepSeek表现优异,中文理解、生成及知识储备均优于LLaMA,与

文章图片
#人工智能#大数据
Quansloth 本地 AI 服务器使用手册

Quansloth本地AI服务器使用手册摘要 Quansloth是基于Google TurboQuant技术的本地AI服务器,专为消费级GPU设计,通过KV缓存压缩技术(16-bit→4-bit)实现显存优化。支持多GPU配置,在RTX 3060 6GB上可运行32k+token上下文,提供Cyberpunk风格UI和实时硬件监控。

文章图片
#人工智能
    共 24 条
  • 1
  • 2
  • 3
  • 请选择