
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
NVIDIA DGX Spark开箱评测:这款被称为"全球最小AI超级计算机"的设备,将1PetaFLOP的AI性能浓缩于150mm×150mm×50.5mm的紧凑机身中。搭载GB10 Grace Blackwell Superchip、128GB统一内存和200Gbps网卡,可处理200B参数的AI模型。约4000美元的定价让数据中心级算力触手可及,支持本地AI模型开发、微调

摘要:NVIDIA Nemotron-3技术解析 NVIDIA Nemotron-3系列模型为构建专业AI智能体提供了突破性解决方案。该系列采用创新的混合Mamba-Transformer MoE架构,结合状态空间模型(Mamba)的长序列处理能力、Transformer的精确推理和MoE的高效计算,支持高达100万token的上下文处理。模型通过NeMo Gym多环境强化学习框架训练,使智能体掌

摘要:NVIDIA Warp v1.9.0带来三项重大革新:1)完全重写的可微分行进立方体算法,实现跨平台兼容和AI集成;2)增强的提前编译功能支持二进制模块分发,保护知识产权;3)性能优化包括图捕获线性求解器和自动分块技术。编程模型更Pythonic,支持IntEnum、内核本地数组等新特性。该版本显著提升了GPU加速物理仿真和计算的能力,同时改善了开发者体验。

NVIDIA在COMPUTEX 2024推出Rubin平台,其核心创新是专为LLM预填充阶段设计的CPX处理器。该处理器与Rubin GPU协同工作,通过异构计算解决百万级Token上下文带来的计算瓶颈。CPX针对预填充阶段的计算密集型特性进行优化,与GPU分工协作:CPX处理预填充,GPU专注于生成阶段。这种架构使预填充性能提升4倍,整体推理性能提升3倍,同时能效提高1.5倍。平台采用MGX模块

可以将MCP视为LLM的第三次演进。在第一次演进中,我们拥有能够准确回答用户提示的LLM,前提是它们在训练数据中找到了这些查询。在这个阶段,由于它们无法访问外部工具,因此无法对训练数据之外的提示做出有意义的响应。在LLM的第二次演进中,我们为它们提供了额外的上下文(工具),这些工具虽然不直观,但能够帮助LLM准确预测和回答用户意图。第三次演进仍然包括LLM和工具,但我们实现了一个适当的基础设施,使

TensorRT-LLM 是一个为大语言模型推理优化的工具箱,它建立在 NVIDIA 的 TensorRT 基础上,专门针对 Transformer 架构的语言模型进行了深度优化。高性能推理:通过 CUDA 内核优化、混合精度计算和高效内存管理,实现低延迟、高吞吐量的推理易用的 API:提供简洁的 Python API,简化模型定义和推理过程灵活的部署选项:支持单 GPU 和多 GPU 分布式推理

摘要: NVIDIA推出创新4位浮点格式NV-FP4,通过算法与硬件协同设计,在保持16位训练精度的同时显著提升效率。NV-FP4采用“3-1-0”非对称结构,结合两阶段量化策略和硬件加速逆量化,有效减少内存占用并优化计算性能。实验显示,在Llama等大型语言模型训练中,NV-FP4精度与BF16相当,性能较FP8提升1.7倍。该技术已深度集成至NVIDIA Transformer Engine,
Megatron Core是NVIDIA开发的一个Python库,专注于提供构建大规模语言模型所需的核心组件。它是基于NVIDIA之前的Megatron-LM项目发展而来,提供了更加模块化和灵活的设计。Megatron Core的主要目标是简化大规模语言模型的开发和训练过程,同时提供高效的分布式训练能力。通过本教程,我们详细介绍了NVIDIA Megatron Core框架,包括其架构设计、核心组

摘要: 本文详细介绍了在NVIDIA Jetson设备上运行HuggingFace LeRobot机器人学习框架的完整流程。内容包括硬件要求(推荐Jetson AGX Orin)、JetPack 6环境配置、存储优化建议,以及真实机器人(以Koch v1.1为例)的端到端工作流程:从硬件连接、音频配置、udev规则设置,到数据记录、模型训练和策略评估。特别强调了NVMe SSD存储的重要性,并提供

NVIDIA Isaac Lab与Newton物理引擎的结合开创了机器人学习新范式,实现了从仿真到现实的完整工作流。Newton作为专为机器人学习设计的开源引擎,支持大规模并行计算和精确物理仿真。本文展示了四足机器人运动策略的端到端开发流程:首先在Newton中进行高效训练,接着通过Sim2Sim验证策略鲁棒性,最后无缝部署到物理硬件。这套方案还适用于复杂任务如布料操作,展现了在柔性物体交互中的强








