logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

TensorRT-LLM 中的分离式服务

在之前的技术博客中,我们介绍了低延迟[1] 和高吞吐[2] 场景的优化方法。对于生产部署,用户还关心在满足特定延迟约束的情况下,每个 GPU 的吞吐表现。本文将围绕“吞吐量-延迟”性能场景,介绍 TensorRT-LLM 分离式服务的设计理念、使用方法,以及性能研究结果。LLM 推理通常分为上下文 (prefill) 和生成 (decode) 两个阶段。在上下文阶段,模型会根据提示词计算键值 (K

文章图片
#spring#java#后端
如何使用 FP8 加速大模型训练

By 齐家兴, 黄雪 and 李一松

文章图片
#人工智能
NVIDIA Nemotron Nano 2 及 Nemotron 预训练数据集 v1

Nemotron-CC-v2:此前研究表明,从高质量英文网页爬取数据生成的合成多样化问答数据,能显著提升大语言模型 (LLM) 通用能力(如 MMLU 等基准测试显示)。如“NVIDIA Nemotron Nano 2:准确、高效的混合 Mamba-Transformer 推理模型”技术报告所示,推理模型 NVIDIA-Nemotron-Nano-v2-9B 在复杂推理基准测试中,实现了与领先的同

文章图片
TensorRT-LLM 中的分离式服务

在之前的技术博客中,我们介绍了低延迟[1] 和高吞吐[2] 场景的优化方法。对于生产部署,用户还关心在满足特定延迟约束的情况下,每个 GPU 的吞吐表现。本文将围绕“吞吐量-延迟”性能场景,介绍 TensorRT-LLM 分离式服务的设计理念、使用方法,以及性能研究结果。LLM 推理通常分为上下文 (prefill) 和生成 (decode) 两个阶段。在上下文阶段,模型会根据提示词计算键值 (K

文章图片
#spring#java#后端
NVIDIA 培训 | 全新 OpenUSD 认证考试科目现已开放报名

NVIDIA 深度学习培训中心(DLI)发布全新 OpenUSD 认证考试科目(NVIDIA-Certified Professional):OpenUSD Development(NCP-OUSD),验证您使用 OpenUSD 构建、维护和优化 3D 内容创作工作流的专业能力。在考试平台预约后,如需更改时段或科目,可取消预约,使用同一考试券(Voucher)进行再次预约。,访问 NVIDIA 中

文章图片
#学习
Dynamo 0.4 最新版本提供 4 倍性能提升、基于 SLO 自动扩展和实时可观察性

在之前的版本中,发送到离线 GPU 的请求会失败,并回退到推理栈上层或用户端,这会触发重试流程,即重复执行预处理步骤(如 Token 化和嵌入),浪费计算资源并增加延迟。AIConfigurator 利用大量离线采集的模型各层(包括注意力机制、前馈神经网络 (FFN)、通信和显存)性能数据,并对各种调度技术(静态批处理、动态批处理和 PD 分离服务)进行建模,推荐 PD 配置,在给定 GPU 预算

文章图片
#人工智能
Dynamo 0.4 最新版本提供 4 倍性能提升、基于 SLO 自动扩展和实时可观察性

在之前的版本中,发送到离线 GPU 的请求会失败,并回退到推理栈上层或用户端,这会触发重试流程,即重复执行预处理步骤(如 Token 化和嵌入),浪费计算资源并增加延迟。AIConfigurator 利用大量离线采集的模型各层(包括注意力机制、前馈神经网络 (FFN)、通信和显存)性能数据,并对各种调度技术(静态批处理、动态批处理和 PD 分离服务)进行建模,推荐 PD 配置,在给定 GPU 预算

文章图片
#人工智能
NVIDIA 从云到边缘加速 OpenAI gpt-oss 模型部署,实现 150 万 TPS 推理

如需使用,请访问 RTX AI Garage。这两个模型在 NVIDIA Hopper 架构 Tensor Core GPU 上训练而成,gpt-oss-120b 模型训练耗时超过 210 万小时,而 gpt-oss-20b 模型训练耗时约为前者的十分之一。NVIDIA 工程师与 OpenAI 密切合作,确保了新发布的 gpt-oss-120b 和 gpt-oss-20b 模型在 NVIDIA B

文章图片
NVIDIA 从云到边缘加速 OpenAI gpt-oss 模型部署,实现 150 万 TPS 推理

如需使用,请访问 RTX AI Garage。这两个模型在 NVIDIA Hopper 架构 Tensor Core GPU 上训练而成,gpt-oss-120b 模型训练耗时超过 210 万小时,而 gpt-oss-20b 模型训练耗时约为前者的十分之一。NVIDIA 工程师与 OpenAI 密切合作,确保了新发布的 gpt-oss-120b 和 gpt-oss-20b 模型在 NVIDIA B

文章图片
CrowdStrike、Uber 和 Zoom 等行业先驱利用 NVIDIA Nemotron 和 Cosmos 推理模型,为企业和物理 AI 应用构建更智能的智能体

借助这些新模型,AI 智能体能够提高思考深度和工作效率,从而探索更广泛的选项、加速研究并在设定时限内提供更明智的结果。这意味着能够以更低成本取得更好的结果。Cosmos Reason 经过量身定制,可作为机器人视觉语言动作 (VLA) 模型的推理主干,或为机器人和智能汽车训练数据评论和注释提供支持,并赋予运行时视觉 AI 智能体在工厂或城市等环境中对时空理解和物理操作的推理能力。但是,非推理的 V

文章图片
#人工智能
    共 126 条
  • 1
  • 2
  • 3
  • 13
  • 请选择