
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
在上述已实现的各项优化特性之外,针对 Qwen3 系列模型,TensorRT-LLM 还在不断研发和探索新的优化方法,包括 kernel 层面的持续优化、算子融合、基于 sparse attention 的超长文本支持、基于 Eagle-3 的投机性采样、MoE 模型的 expert 负载均衡、新的量化精度(W4AFP8/NVFP4)等等,期待您紧密关注。Qwen 系列开源模型因其突出的模型能力、

未来,NVIDIA 技术专家团队将继续跟进混元模型的演进,探索更极致的推理加速技术(如新一代量化、更精细的算子融合、对 Blackwell 新特性的支持),不断刷新性能天花板。同时还将持续推动 TensorRT-LLM 与腾讯云 TI 平台、Hunyuan API 服务等生态的深度集成,提供更便捷的一站式混元模型部署与管理体验。
NVIDIA BioNeMo 提供了一个专门用于药物研发的 LLM 和生成式 AI 平台,通过云原生 NIM ,研究人员能够简化 AI 工作流程,提高模型的可扩展性和部署效率。AI 技术正在迅速改变医疗和健康领域,NVIDIA 深度学习培训中心(DLI)推出 3 门医疗和健康领域的在线自主培训,帮助医疗专业人士和研究人员掌握最新的 AI 工具和技术。通过使用云原生 NIM 和 Blueprint,

在延迟敏感型应用中突破 DeepSeek R1 的性能极限是一项非凡的工程。本文详细介绍的优化措施是整个 AI 技术栈各个领域的协作成果,涵盖了内核级优化、运行时增强、模型量化技术、算法改进以及系统性能分析与调优。希望本文介绍的技术和最佳实践,能够帮助开发者社区在任务关键型 LLM 推理应用中更充分地发挥 NVIDIA GPU 的性能。
AI 智能体的核心功能可被定制,如问答、翻译、数据处理、预测分析和自动化,以提高组织和行业的生产力,节省时间和成本。合作部署了一个 AI 驱动的 Methods Matcher 工具,为 40 多个国家的人道主义援助专家提供支持,包括研究、总结、最佳实践指南和数据驱动的危机响应,在灾难情况下可提供快速援助。,开发人员可以将 AI 智能体构建到更大的代理式系统中,这些系统可以进行推理,然后将这些系统

在本次演讲中,我们将分享基于位图的集合操作优化实践,详细阐述高效集合并集、交集、差集和其他操作的设计和实现要点,并展示如何与现有的基于排序数组的 GPU 集合操作工具包 (如 Thrust) 合作。最后,您将拥有切实可行的实施和部署 LLM 的策略,以满足服务水平低下的语言社区的独特需求。与此同时,GPU 上基于位图的集合操作工具包仍需进一步优化。大模型技术在搜索、推荐和广告领域的应用如火如荼,尤

作为 NVIDIA Triton™ 推理服务器的后续产品,NVIDIA Dynamo 是一款全新的 AI 推理服务软件,旨在为部署推理 AI 模型的 AI 工厂最大化其 token 收益。”NVIDIA 创始人兼首席执行官黄仁勋表示,“为了实现自定义推理 AI 的未来,NVIDIA Dynamo 可以在这些模型上进行规模化部署,从而为 AI 工厂实现降本增效”。然后,它会将新的推理请求路由到与所需

对于各类大规模计算工程问题,通过 Grace CPU 存储单元和超级芯片架构,在相同 GPU 和 cuDSS 混合显存技术下,可将最耗时的求解环节速度提升至原来的 4 倍。NVIDIA GTC 全球 AI 大会上宣布,开发者现在可以通过 CUDA-X 与新一代超级芯片架构的协同,实现 CPU 和 GPU 资源间深度自动化整合与调度,相较于传统加速计算架构,该技术可使计算工程工具运行速度提升至原来的

3D 输出时,扩散模型生成可控的高质量合成视频数据,用于启动机器人和自动驾驶汽车感知模型的训练。在 CES 大会上,NVIDIA 推出第一批 Cosmos 世界基础模型,用于基于物理的仿真和合成数据生成,配备先进的 tokenizer、护栏、加速数据处理和管理工作流,以及模型定制和优化框架。是一个用于加速物理 AI 开发的平台,推出了一系列世界基础模型——可以预测和生成虚拟环境未来状态的物理感知视

NVLink Fusion 包含 NVLink 芯片,可通过相同的 NVIDIA 机架级扩展架构来纵向扩展 NVIDIA 和半定制 ASIC 的混合基础设施,并与 NVIDIA CPU、NVIDIA NVLink 交换机、NVIDIA ConnectX Ethernet SuperNIC、NVIDIA BlueField DPU 以及用于横向扩展解决方案的 NVIDIA Quantum 和 NVI
