
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
在之前的技术博客中,我们介绍了低延迟[1] 和高吞吐[2] 场景的优化方法。对于生产部署,用户还关心在满足特定延迟约束的情况下,每个 GPU 的吞吐表现。本文将围绕“吞吐量-延迟”性能场景,介绍 TensorRT-LLM 分离式服务的设计理念、使用方法,以及性能研究结果。LLM 推理通常分为上下文 (prefill) 和生成 (decode) 两个阶段。在上下文阶段,模型会根据提示词计算键值 (K

By 齐家兴, 黄雪 and 李一松

Nemotron-CC-v2:此前研究表明,从高质量英文网页爬取数据生成的合成多样化问答数据,能显著提升大语言模型 (LLM) 通用能力(如 MMLU 等基准测试显示)。如“NVIDIA Nemotron Nano 2:准确、高效的混合 Mamba-Transformer 推理模型”技术报告所示,推理模型 NVIDIA-Nemotron-Nano-v2-9B 在复杂推理基准测试中,实现了与领先的同

在之前的技术博客中,我们介绍了低延迟[1] 和高吞吐[2] 场景的优化方法。对于生产部署,用户还关心在满足特定延迟约束的情况下,每个 GPU 的吞吐表现。本文将围绕“吞吐量-延迟”性能场景,介绍 TensorRT-LLM 分离式服务的设计理念、使用方法,以及性能研究结果。LLM 推理通常分为上下文 (prefill) 和生成 (decode) 两个阶段。在上下文阶段,模型会根据提示词计算键值 (K

NVIDIA 深度学习培训中心(DLI)发布全新 OpenUSD 认证考试科目(NVIDIA-Certified Professional):OpenUSD Development(NCP-OUSD),验证您使用 OpenUSD 构建、维护和优化 3D 内容创作工作流的专业能力。在考试平台预约后,如需更改时段或科目,可取消预约,使用同一考试券(Voucher)进行再次预约。,访问 NVIDIA 中

在之前的版本中,发送到离线 GPU 的请求会失败,并回退到推理栈上层或用户端,这会触发重试流程,即重复执行预处理步骤(如 Token 化和嵌入),浪费计算资源并增加延迟。AIConfigurator 利用大量离线采集的模型各层(包括注意力机制、前馈神经网络 (FFN)、通信和显存)性能数据,并对各种调度技术(静态批处理、动态批处理和 PD 分离服务)进行建模,推荐 PD 配置,在给定 GPU 预算

在之前的版本中,发送到离线 GPU 的请求会失败,并回退到推理栈上层或用户端,这会触发重试流程,即重复执行预处理步骤(如 Token 化和嵌入),浪费计算资源并增加延迟。AIConfigurator 利用大量离线采集的模型各层(包括注意力机制、前馈神经网络 (FFN)、通信和显存)性能数据,并对各种调度技术(静态批处理、动态批处理和 PD 分离服务)进行建模,推荐 PD 配置,在给定 GPU 预算

如需使用,请访问 RTX AI Garage。这两个模型在 NVIDIA Hopper 架构 Tensor Core GPU 上训练而成,gpt-oss-120b 模型训练耗时超过 210 万小时,而 gpt-oss-20b 模型训练耗时约为前者的十分之一。NVIDIA 工程师与 OpenAI 密切合作,确保了新发布的 gpt-oss-120b 和 gpt-oss-20b 模型在 NVIDIA B

如需使用,请访问 RTX AI Garage。这两个模型在 NVIDIA Hopper 架构 Tensor Core GPU 上训练而成,gpt-oss-120b 模型训练耗时超过 210 万小时,而 gpt-oss-20b 模型训练耗时约为前者的十分之一。NVIDIA 工程师与 OpenAI 密切合作,确保了新发布的 gpt-oss-120b 和 gpt-oss-20b 模型在 NVIDIA B

借助这些新模型,AI 智能体能够提高思考深度和工作效率,从而探索更广泛的选项、加速研究并在设定时限内提供更明智的结果。这意味着能够以更低成本取得更好的结果。Cosmos Reason 经过量身定制,可作为机器人视觉语言动作 (VLA) 模型的推理主干,或为机器人和智能汽车训练数据评论和注释提供支持,并赋予运行时视觉 AI 智能体在工厂或城市等环境中对时空理解和物理操作的推理能力。但是,非推理的 V
