
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
并以 verl 驱动的视觉语言模型强化学习为案例,为大家带来贯穿并行配置,内存估算到时序分析的强化学习工程方法论,展示我们在这一前沿领域的突破性成果。本次分享既涉及推理框架 TensorRT-LLM 在 DeepSeek-V3/R1 模型进行大规模专家并行部署的优化经验,也涵盖了 Blackwell 系列 GPU 通过 NVFP4 低精度进行推理部署来实现吞吐与模型精度兼顾的优化方案,以及针对面向
管理此类系统需要同步扩展和调度合适的 Pod,了解每个组件不同的配置和资源需求,按特定的顺序启动,并根据网络拓扑结构将它们部署在集群中。在图 1 中,PodClique A 代表前端组件,B 和 C 代表预填充主节点和预填充工作节点,D 和 E 代表解码主节点和解码工作节点。而开发的,它具有足够的灵活性,可以自然地映射到任何现实世界的推理架构,从传统的单节点聚合推理到具有多个模型的代理式。组,例如

进一步考取 NVIDIA 认证,面向开发者和 IT 专业人员,验证专业技能,发展职业生涯,解锁新机遇。参加 NVIDIA 认证,展示您的专业知识和技能,为个人推动职业发展,为企业增强竞争力。开发者日活动期间,面向国内开发者和 IT 专业人员,提供 3 门免费 Associate(初级)和 5 门Professional(中级)认证考试。以下 8 门认证,仅可选择一门参加。扫描以下二维码,访问 NV
然而,IFB 在注意力模块中带来了负载不平衡的挑战,严重影响了系统性能。例如,一些 rank 可能在处理计算密集型的 context(上下文)阶段,而其他 rank 则在执行 generation(生成)阶段,从而形成 token 处理负载的巨大差异。由于各个 rank 间的工作负载可能是异构的,因此在给定迭代中的注意力模块的执行时间由负载最大的 rank 所限制。ADP 中的基本挑战在于,同一迭

需要注意的是,在 DGX Spark 平台上运行的 Isaac Lab 2.3,暂不支持基于 XR/AVP 的遥操作功能,也不支持 Isaac Lab Mimic 中的模仿学习功能。然而,从选取可用于仿真的资产,到搭建并丰富环境多样性,再到统筹协调和分析大规模评估,用户需要在 Isaac Lab 手动整合多个组件,才能实现预期效果。灵巧动作映射指将人手姿态转换为机器人手部关节位置的过程,可实现高效

2018年,NVIDIA 推出了 NVLink Switch 技术,实现了在 8 个 GPU 的网络拓扑中每对 GPU 之间高达 300 GB/s 的 all-to-all 带宽,为多 GPU 计算时代的 scale-up 网络奠定了基础。NVLink Fusion 充分融合了 NVIDIA 在 NVLink scale-up 技术领域长达十年的深厚积累,结合 OCP MGX 机架架构及生态系统开

每个光学子组件设计可支持 4.8 Tbps 的发送带宽和 4.8 Tbps 的接收带宽,成为实现超高容量光数据传输的关键基石,其核心在于三个基于 COUPE 技术的光引擎,每个引擎均可提供 1.6 Tbps 的发送和 1.6 Tbps 的接收吞吐量。通过全面协调整体方案设计的各个环节,NVIDIA 不仅整合了世界一流的硬件,还集成了可扩展、高可靠且高性能的光系统所需的各种技术,形成了一个完整的生态
在 AI 智能体检索数据时,无论是从检索增强生成(RAG)系统的向量数据库中获取嵌入,还是从外部工具或数据库中调取与客户查询相关的信息,这些过程都需要快速、低延迟的南北向连接。在多个 AI 智能体同时运行(如协作处理复杂任务或响应多用户查询)的环境中,高效的南北向网络能够有效避免瓶颈,保障系统的流畅性与响应速度。在大规模多租户环境中,例如由 NVIDIA 云合作伙伴(NCP)运营的环境,采用具有物
NeRD 的训练数据集以任务无关的方式从仿真器中生成。随着机器人技术的进步,我们可以试图构想这样的机器人生命周期:每个机器人都配备从解析仿真中预训练的神经动力学模型,该模型可随着机器人与现实世界的交互不断微调,从而适应机器人的磨损和环境变化。这种以机器人为中心的状态表示,使 NeRD 在机器人运动中,当遇到未见过的空间位置时,仍然能够保持可靠预测,提升了模型的长时段预测精度。借助 NeRD 训练机

对于需要基于 PyTorch 实现自定义模型的开发者,TensorRT LLM 提供了清晰的迁移与注册流程。首先,若开发者已拥有 Hugging Face 生态中的 Torch 建模代码,可直接将其引入 TensorRT LLM 系统,同时完成关键组件的注册,确保模型能与框架的运行时模块正常交互,启动基础推理功能。。









