logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

(二十一)32天GPU测试从入门到精通-LLaMA 系列模型测试day19

LLaMA系列开源大语言模型演进与部署实践 摘要:Meta发布的LLaMA系列模型(LLaMA/LLaMA2/LLaMA3)已成为开源大语言模型的标杆。LLaMA3采用GQA注意力机制和128K词表,相比LLaMA2在代码和数学能力上提升显著(HumanEval提升47.6%)。不同参数模型适用场景各异:8B模型适合轻量级应用(6GB显存),70B模型接近GPT-4水平(需多卡部署)。主流推理引擎

文章图片
(二十)32天GPU测试从入门到精通-llama.cpp CPU/GPU 混合推理day18

llama.cpp是一款高效的大语言模型CPU推理引擎,通过量化技术和CPU指令集优化,实现了在普通设备上运行7B模型的能力。它支持GGUF格式的量化模型,提供多种精度选择,如Q4_K_M(4.4GB)和Q5_K_M(5.2GB)。性能方面,高端CPU可达45-55 tokens/s,同时支持CUDA、Metal等GPU加速。适用于边缘设备、隐私敏感场景和成本敏感项目,具有零依赖、跨平台、内存映射

文章图片
#人工智能
(十九)32天GPU测试从入门到精通-SGLang 特性与测试day17

SGLang是专为结构化生成和多轮对话优化的LLM推理引擎,具有三大核心优势:1)结构化生成能力,支持JSON/SQL/代码等格式约束输出;2)RadixAttention技术,通过KVCache树状复用提升多轮对话效率;3)Python-like编程模型,支持控制流和模块化设计。测试表明,在结构化生成场景下吞吐量可达150-180tokens/s,多轮对话显存效率提升2-3倍。SGLang特别适

文章图片
#算法#大数据#人工智能 +1
(十八)32天GPU测试从入门到精通-TensorRT-LLM 部署与优化day16

本文介绍了TensorRT-LLM的高性能LLM推理优化方案,涵盖环境搭建、模型编译优化、多GPU推理、量化技术及生产部署。重点内容包括:1)通过TensorRT引擎编译实现20-50%性能提升;2)支持INT8/FP8量化技术,吞吐量提升4倍;3)多GPU张量并行实现近线性扩展;4)与Triton集成提供完整生产服务方案。文章还提供了性能基准测试数据、常见问题排查指南及最佳实践建议,为开发者提供

文章图片
#人工智能#python#深度学习
(十六)32天GPU测试从入门到精通-LLM 推理引擎概览day14

本文对比分析了当前主流的大语言模型(LLM)推理引擎,包括vLLM、TensorRT-LLM、SGLang和llama.cpp。vLLM凭借PagedAttention技术显著提升显存效率;TensorRT-LLM在NVIDIA GPU上性能最优;SGLang专注于结构化生成;llama.cpp则实现CPU推理和边缘部署。文章详细介绍了各引擎的架构特性、性能表现和适用场景,并提供了选型指南:vLL

文章图片
#服务器
(十五)32天GPU测试从入门到精通-图像分类模型性能对比day13

本文对主流图像分类模型进行了全面对比分析,涵盖ResNet、EfficientNet、ViT等架构。通过测试不同GPU型号的性能表现,结合帕累托前沿分析,为模型选型提供决策依据。结果显示:EfficientNet在精度-效率平衡上表现最佳,ResNet稳定性最优,ViT在大数据场景下精度突出。针对不同应用场景(移动端、实时视频、云端等)给出了具体选型建议,并提供了完整的benchmark测试脚本。

文章图片
#分类#人工智能#机器学习
(十四)32天GPU测试从入门到精通-ResNet50 推理测试day12

本文摘要: 本文系统对比了AI推理引擎性能,以ResNet50为基准模型,分析了TensorRT、ONNXRuntime和PyTorch原生推理的性能差异。核心发现:TensorRT在A100 GPU上可实现FP32 1.2ms延迟(比PyTorch快3倍),INT8量化后达0.5ms(4倍加速);ONNXRuntime提供跨平台支持,FP16模式延迟1.0ms。文章详细探讨了批处理优化(batc

文章图片
#人工智能#机器学习
(六)32天GPU测试从入门到精通-交换机知识day4

本文深入探讨了GPU集群网络中交换机的核心作用与配置优化。主要内容包括:1.交换机基础架构分析,涵盖交换芯片、端口、缓冲区和背板带宽等关键组件;2.重点解析Mellanox/NVIDIA交换机产品线(Quantum和Spectrum系列)及其在AI集群中的应用;3.详细讲解交换机配置方法,包括CLI、Web界面和API管理;4.网络隔离技术(VLAN/VRF)与性能调优策略(QoS/PFC/ECN

文章图片
#服务器#运维
(五)32天GPU测试从入门到精通-网络基础day3

本文深入探讨了GPU集群网络的关键技术与性能优化。主要内容包括:1. 网络协议基础:解析OSI模型、RDMA原理和拥塞控制机制,比较传统TCP/IP与RDMA的性能差异2. 以太网与InfiniBand技术对比3. RoCE技术实现4. 性能

文章图片
#网络#人工智能#服务器
(三)32天GPU测试从入门到精通-GPU 硬件基础day1

本文深入解析GPU硬件参数,为AI训练、推理等场景提供选型指南。主要内容包括:1. GPU架构演进:从Ampere到Blackwell,分析各代核心改进;2. 计算单元解析:详解CUDA Core、Tensor Core等功能差异;3. 显存系统:强调带宽比容量更重要,提供模型显存估算公式;4. 功耗管理:解读TDP与实际功耗关系,对比风冷/液冷方案;5. 实战选型:针对大模型训练、推理等场景给出

文章图片
#人工智能
    共 14 条
  • 1
  • 2
  • 请选择