NVIDIA AI 技术专区个人主页

@NVIDIA_Community

NVIDIA AI 技术专区

2024-12-24 17:04:45 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

2025年NVIDIA AI Open Day

并以 verl 驱动的视觉语言模型强化学习为案例，为大家带来贯穿并行配置，内存估算到时序分析的强化学习工程方法论，展示我们在这一前沿领域的突破性成果。本次分享既涉及推理框架 TensorRT-LLM 在 DeepSeek-V3/R1 模型进行大规模专家并行部署的优化经验，也涵盖了 Blackwell 系列 GPU 通过 NVFP4 低精度进行推理部署来实现吞吐与模型精度兼顾的优化方案，以及针对面向

#人工智能

使用 NVIDIA Grove 简化 Kubernetes 上的复杂 AI 推理

管理此类系统需要同步扩展和调度合适的 Pod，了解每个组件不同的配置和资源需求，按特定的顺序启动，并根据网络拓扑结构将它们部署在集群中。在图 1 中，PodClique A 代表前端组件，B 和 C 代表预填充主节点和预填充工作节点，D 和 E 代表解码主节点和解码工作节点。而开发的，它具有足够的灵活性，可以自然地映射到任何现实世界的推理架构，从传统的单节点聚合推理到具有多个模型的代理式。组，例如

#人工智能

NVIDIA 培训 | 免费报名开发者日 AI 实战培训和认证考试

进一步考取 NVIDIA 认证，面向开发者和 IT 专业人员，验证专业技能，发展职业生涯，解锁新机遇。参加 NVIDIA 认证，展示您的专业知识和技能，为个人推动职业发展，为企业增强竞争力。开发者日活动期间，面向国内开发者和 IT 专业人员，提供 3 门免费 Associate（初级）和 5 门Professional（中级）认证考试。以下 8 门认证，仅可选择一门参加。扫描以下二维码，访问 NV

#人工智能

释放算力潜能：TensorRT LLM ADP 平衡策略让推理吞吐量再提升 33%

然而，IFB 在注意力模块中带来了负载不平衡的挑战，严重影响了系统性能。例如，一些 rank 可能在处理计算密集型的 context（上下文）阶段，而其他 rank 则在执行 generation（生成）阶段，从而形成 token 处理负载的巨大差异。由于各个 rank 间的工作负载可能是异构的，因此在给定迭代中的注意力模块的执行时间由负载最大的 rank 所限制。ADP 中的基本挑战在于，同一迭

#人工智能

在 NVIDIA Isaac Lab 2.3 中使用全身控制和增强遥操作，简化机器人学习

需要注意的是，在 DGX Spark 平台上运行的 Isaac Lab 2.3，暂不支持基于 XR/AVP 的遥操作功能，也不支持 Isaac Lab Mimic 中的模仿学习功能。然而，从选取可用于仿真的资产，到搭建并丰富环境多样性，再到统筹协调和分析大规模评估，用户需要在 Isaac Lab 手动整合多个组件，才能实现预期效果。灵巧动作映射指将人手姿态转换为机器人手部关节位置的过程，可实现高效

#机器人 #学习 #人工智能

借助 NVIDIA NVLink 和 NVLink Fusion 扩展 AI 推理性能和灵活性

2018年，NVIDIA 推出了 NVLink Switch 技术，实现了在 8 个 GPU 的网络拓扑中每对 GPU 之间高达 300 GB/s 的 all-to-all 带宽，为多 GPU 计算时代的 scale-up 网络奠定了基础。NVLink Fusion 充分融合了 NVIDIA 在 NVLink scale-up 技术领域长达十年的深厚积累，结合 OCP MGX 机架架构及生态系统开

#人工智能

行业协作共推 NVIDIA CPO 技术

每个光学子组件设计可支持 4.8 Tbps 的发送带宽和 4.8 Tbps 的接收带宽，成为实现超高容量光数据传输的关键基石，其核心在于三个基于 COUPE 技术的光引擎，每个引擎均可提供 1.6 Tbps 的发送和 1.6 Tbps 的接收吞吐量。通过全面协调整体方案设计的各个环节，NVIDIA 不仅整合了世界一流的硬件，还集成了可扩展、高可靠且高性能的光系统所需的各种技术，形成了一个完整的生态

#人工智能 #网络 #数据库

南北向网络：加速企业 AI 工作负载的关键

在 AI 智能体检索数据时，无论是从检索增强生成（RAG）系统的向量数据库中获取嵌入，还是从外部工具或数据库中调取与客户查询相关的信息，这些过程都需要快速、低延迟的南北向连接。在多个 AI 智能体同时运行（如协作处理复杂任务或响应多用户查询）的环境中，高效的南北向网络能够有效避免瓶颈，保障系统的流畅性与响应速度。在大规模多租户环境中，例如由 NVIDIA 云合作伙伴（NCP）运营的环境，采用具有物

#网络 #人工智能

利用 Newton 引擎的神经动力学推进机器人技术的发展

NeRD 的训练数据集以任务无关的方式从仿真器中生成。随着机器人技术的进步，我们可以试图构想这样的机器人生命周期：每个机器人都配备从解析仿真中预训练的神经动力学模型，该模型可随着机器人与现实世界的交互不断微调，从而适应机器人的磨损和环境变化。这种以机器人为中心的状态表示，使 NeRD 在机器人运动中，当遇到未见过的空间位置时，仍然能够保持可靠预测，提升了模型的长时段预测精度。借助 NeRD 训练机

#机器人 #人工智能 #深度学习

轻松部署、加速推理：TensorRT LLM 1.0 正式上线，全新易用的 Python 式运行

对于需要基于 PyTorch 实现自定义模型的开发者，TensorRT LLM 提供了清晰的迁移与注册流程。首先，若开发者已拥有 Hugging Face 生态中的 Torch 建模代码，可直接将其引入 TensorRT LLM 系统，同时完成关键组件的注册，确保模型能与框架的运行时模块正常交互，启动基础推理功能。。

#python #开发语言

共 136 条

请选择