
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
摘要:NVIDIA Nemotron-3技术解析 NVIDIA Nemotron-3系列模型为构建专业AI智能体提供了突破性解决方案。该系列采用创新的混合Mamba-Transformer MoE架构,结合状态空间模型(Mamba)的长序列处理能力、Transformer的精确推理和MoE的高效计算,支持高达100万token的上下文处理。模型通过NeMo Gym多环境强化学习框架训练,使智能体掌

摘要:NVIDIA Warp v1.9.0带来三项重大革新:1)完全重写的可微分行进立方体算法,实现跨平台兼容和AI集成;2)增强的提前编译功能支持二进制模块分发,保护知识产权;3)性能优化包括图捕获线性求解器和自动分块技术。编程模型更Pythonic,支持IntEnum、内核本地数组等新特性。该版本显著提升了GPU加速物理仿真和计算的能力,同时改善了开发者体验。

NVIDIA Dynamo:突破LLM推理KV缓存瓶颈的创新方案 NVIDIA Dynamo通过KV缓存卸载技术有效解决了大语言模型推理中的内存瓶颈问题。在Transformer架构中,KV缓存随输入序列长度线性增长,常占用数十GB显存,成为性能瓶颈。Dynamo采用创新的三层架构(模型集成层、内存管理层、存储传输层),借助NVIDIA NIXL传输库实现KV缓存在GPU显存与外部存储间的智能调度

NVIDIA在COMPUTEX 2024推出Rubin平台,其核心创新是专为LLM预填充阶段设计的CPX处理器。该处理器与Rubin GPU协同工作,通过异构计算解决百万级Token上下文带来的计算瓶颈。CPX针对预填充阶段的计算密集型特性进行优化,与GPU分工协作:CPX处理预填充,GPU专注于生成阶段。这种架构使预填充性能提升4倍,整体推理性能提升3倍,同时能效提高1.5倍。平台采用MGX模块

摘要 NVIDIA Dynamo是一款专为大规模生成式AI推理设计的分布式服务框架,通过创新的分离服务架构和智能路由系统,显著提升了推理性能和资源利用率。该框架将预填充与解码阶段分离到不同引擎,实现KV缓存感知的智能路由,并采用多层内存管理技术优化缓存效率。Dynamo支持多种推理引擎(TensorRT-LLM、vLLM等),提供OpenAI兼容API,通过Rust/Python混合架构兼顾性能与

可以将MCP视为LLM的第三次演进。在第一次演进中,我们拥有能够准确回答用户提示的LLM,前提是它们在训练数据中找到了这些查询。在这个阶段,由于它们无法访问外部工具,因此无法对训练数据之外的提示做出有意义的响应。在LLM的第二次演进中,我们为它们提供了额外的上下文(工具),这些工具虽然不直观,但能够帮助LLM准确预测和回答用户意图。第三次演进仍然包括LLM和工具,但我们实现了一个适当的基础设施,使

NVIDIA Jetson AGX Thor实现7倍生成式AI性能提升 NVIDIA通过持续软件优化,使Jetson AGX Thor的生成式AI性能较初始发布提升7倍。最新测试显示,Llama 3.3 70B模型的token输出速度从12.64提升至41.5 tokens/秒,DeepSeek R1 70B模型从11.5提升至40.29 tokens/秒。平台采用两大关键技术:支持FP8和W4A

TensorRT-LLM 是一个为大语言模型推理优化的工具箱,它建立在 NVIDIA 的 TensorRT 基础上,专门针对 Transformer 架构的语言模型进行了深度优化。高性能推理:通过 CUDA 内核优化、混合精度计算和高效内存管理,实现低延迟、高吞吐量的推理易用的 API:提供简洁的 Python API,简化模型定义和推理过程灵活的部署选项:支持单 GPU 和多 GPU 分布式推理

摘要: NVIDIA推出创新4位浮点格式NV-FP4,通过算法与硬件协同设计,在保持16位训练精度的同时显著提升效率。NV-FP4采用“3-1-0”非对称结构,结合两阶段量化策略和硬件加速逆量化,有效减少内存占用并优化计算性能。实验显示,在Llama等大型语言模型训练中,NV-FP4精度与BF16相当,性能较FP8提升1.7倍。该技术已深度集成至NVIDIA Transformer Engine,
Cooperative Groups提供了多种类型的线程组,可以分为隐式组和显式组两大类。








