logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

深入NVIDIA Nemotron-3:高效准确的技术、工具与数据深度解析

摘要:NVIDIA Nemotron-3技术解析 NVIDIA Nemotron-3系列模型为构建专业AI智能体提供了突破性解决方案。该系列采用创新的混合Mamba-Transformer MoE架构,结合状态空间模型(Mamba)的长序列处理能力、Transformer的精确推理和MoE的高效计算,支持高达100万token的上下文处理。模型通过NeMo Gym多环境强化学习框架训练,使智能体掌

文章图片
#GPU#人工智能#算法
NVIDIA Warp v1.9.0深度解析:GPU加速物理仿真与计算的革命性进展

摘要:NVIDIA Warp v1.9.0带来三项重大革新:1)完全重写的可微分行进立方体算法,实现跨平台兼容和AI集成;2)增强的提前编译功能支持二进制模块分发,保护知识产权;3)性能优化包括图捕获线性求解器和自动分块技术。编程模型更Pythonic,支持IntEnum、内核本地数组等新特性。该版本显著提升了GPU加速物理仿真和计算的能力,同时改善了开发者体验。

文章图片
#人工智能#GPU#语言模型
NVIDIA Dynamo深度解析:如何优雅地解决LLM推理中的KV缓存瓶颈

NVIDIA Dynamo:突破LLM推理KV缓存瓶颈的创新方案 NVIDIA Dynamo通过KV缓存卸载技术有效解决了大语言模型推理中的内存瓶颈问题。在Transformer架构中,KV缓存随输入序列长度线性增长,常占用数十GB显存,成为性能瓶颈。Dynamo采用创新的三层架构(模型集成层、内存管理层、存储传输层),借助NVIDIA NIXL传输库实现KV缓存在GPU显存与外部存储间的智能调度

文章图片
#缓存#人工智能#深度学习 +2
NVIDIA Rubin CPX:为百万级Token上下文工作负载加速推理性能与效率

NVIDIA在COMPUTEX 2024推出Rubin平台,其核心创新是专为LLM预填充阶段设计的CPX处理器。该处理器与Rubin GPU协同工作,通过异构计算解决百万级Token上下文带来的计算瓶颈。CPX针对预填充阶段的计算密集型特性进行优化,与GPU分工协作:CPX处理预填充,GPU专注于生成阶段。这种架构使预填充性能提升4倍,整体推理性能提升3倍,同时能效提高1.5倍。平台采用MGX模块

文章图片
#人工智能#语言模型#GPU +1
NVIDIA Dynamo:数据中心规模的分布式推理服务框架深度解析

摘要 NVIDIA Dynamo是一款专为大规模生成式AI推理设计的分布式服务框架,通过创新的分离服务架构和智能路由系统,显著提升了推理性能和资源利用率。该框架将预填充与解码阶段分离到不同引擎,实现KV缓存感知的智能路由,并采用多层内存管理技术优化缓存效率。Dynamo支持多种推理引擎(TensorRT-LLM、vLLM等),提供OpenAI兼容API,通过Rust/Python混合架构兼顾性能与

文章图片
#分布式#GPU#语言模型 +3
7大支持MCP的AI框架:为LLM和智能代理提供上下文的新标准

可以将MCP视为LLM的第三次演进。在第一次演进中,我们拥有能够准确回答用户提示的LLM,前提是它们在训练数据中找到了这些查询。在这个阶段,由于它们无法访问外部工具,因此无法对训练数据之外的提示做出有意义的响应。在LLM的第二次演进中,我们为它们提供了额外的上下文(工具),这些工具虽然不直观,但能够帮助LLM准确预测和回答用户意图。第三次演进仍然包括LLM和工具,但我们实现了一个适当的基础设施,使

文章图片
#人工智能#microsoft#GPU +3
解锁7倍生成式AI性能:NVIDIA Jetson AGX Thor上的更快、更智能的边缘模型

NVIDIA Jetson AGX Thor实现7倍生成式AI性能提升 NVIDIA通过持续软件优化,使Jetson AGX Thor的生成式AI性能较初始发布提升7倍。最新测试显示,Llama 3.3 70B模型的token输出速度从12.64提升至41.5 tokens/秒,DeepSeek R1 70B模型从11.5提升至40.29 tokens/秒。平台采用两大关键技术:支持FP8和W4A

文章图片
#人工智能#dubbo#GPU +1
NVIDIA TensorRT-LLM:高性能大语言模型推理框架详解

TensorRT-LLM 是一个为大语言模型推理优化的工具箱,它建立在 NVIDIA 的 TensorRT 基础上,专门针对 Transformer 架构的语言模型进行了深度优化。高性能推理:通过 CUDA 内核优化、混合精度计算和高效内存管理,实现低延迟、高吞吐量的推理易用的 API:提供简洁的 Python API,简化模型定义和推理过程灵活的部署选项:支持单 GPU 和多 GPU 分布式推理

文章图片
#语言模型#人工智能#自然语言处理 +2
NV-FP4:以4位的速度与效率,实现16位的训练精度

摘要: NVIDIA推出创新4位浮点格式NV-FP4,通过算法与硬件协同设计,在保持16位训练精度的同时显著提升效率。NV-FP4采用“3-1-0”非对称结构,结合两阶段量化策略和硬件加速逆量化,有效减少内存占用并优化计算性能。实验显示,在Llama等大型语言模型训练中,NV-FP4精度与BF16相当,性能较FP8提升1.7倍。该技术已深度集成至NVIDIA Transformer Engine,

#人工智能#深度学习#机器学习 +2
CUDA Cooperative Groups详解

Cooperative Groups提供了多种类型的线程组,可以分为隐式组和显式组两大类。

文章图片
#python#GPU
    共 178 条
  • 1
  • 2
  • 3
  • 18
  • 请选择