logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

在魔搭社区使用 NVIDIA TensorRT-LLM PyTorch 新架构优化 Qwen3 系列模型推理

在上述已实现的各项优化特性之外,针对 Qwen3 系列模型,TensorRT-LLM 还在不断研发和探索新的优化方法,包括 kernel 层面的持续优化、算子融合、基于 sparse attention 的超长文本支持、基于 Eagle-3 的投机性采样、MoE 模型的 expert 负载均衡、新的量化精度(W4AFP8/NVFP4)等等,期待您紧密关注。Qwen 系列开源模型因其突出的模型能力、

文章图片
#pytorch#架构#人工智能
NVIDIA TensorRT-LLM 支持腾讯混元最新大语言模型 Hunyuan-A13B推理加速

未来,NVIDIA 技术专家团队将继续跟进混元模型的演进,探索更极致的推理加速技术(如新一代量化、更精细的算子融合、对 Blackwell 新特性的支持),不断刷新性能天花板。同时还将持续推动 TensorRT-LLM 与腾讯云 TI 平台、Hunyuan API 服务等生态的深度集成,提供更便捷的一站式混元模型部署与管理体验。

#语言模型#人工智能#自然语言处理
NVIDIA 培训 | 学习 3 门 NVIDIA AI 技术在医疗和健康的实践

NVIDIA BioNeMo 提供了一个专门用于药物研发的 LLM 和生成式 AI 平台,通过云原生 NIM ,研究人员能够简化 AI 工作流程,提高模型的可扩展性和部署效率。AI 技术正在迅速改变医疗和健康领域,NVIDIA 深度学习培训中心(DLI)推出 3 门医疗和健康领域的在线自主培训,帮助医疗专业人士和研究人员掌握最新的 AI 工具和技术。通过使用云原生 NIM 和 Blueprint,

文章图片
#人工智能#学习
突破延迟极限:在 NVIDIA Blackwell GPU 上优化 DeepSeek-R1 的性能

在延迟敏感型应用中突破 DeepSeek R1 的性能极限是一项非凡的工程。本文详细介绍的优化措施是整个 AI 技术栈各个领域的协作成果,涵盖了内核级优化、运行时增强、模型量化技术、算法改进以及系统性能分析与调优。希望本文介绍的技术和最佳实践,能够帮助开发者社区在任务关键型 LLM 推理应用中更充分地发挥 NVIDIA GPU 的性能。

#驱动开发
从 AT&T 到联合国,NVIDIA AI Enterprise 助力 AI 智能体重构工作模式

AI 智能体的核心功能可被定制,如问答、翻译、数据处理、预测分析和自动化,以提高组织和行业的生产力,节省时间和成本。合作部署了一个 AI 驱动的 Methods Matcher 工具,为 40 多个国家的人道主义援助专家提供支持,包括研究、总结、最佳实践指南和数据驱动的危机响应,在灾难情况下可提供快速援助。,开发人员可以将 AI 智能体构建到更大的代理式系统中,这些系统可以进行推理,然后将这些系统

文章图片
#人工智能#大数据#深度学习
GTC25 | 汲取 AI 灵感,就在这个中文线上专场

在本次演讲中,我们将分享基于位图的集合操作优化实践,详细阐述高效集合并集、交集、差集和其他操作的设计和实现要点,并展示如何与现有的基于排序数组的 GPU 集合操作工具包 (如 Thrust) 合作。最后,您将拥有切实可行的实施和部署 LLM 的策略,以满足服务水平低下的语言社区的独特需求。与此同时,GPU 上基于位图的集合操作工具包仍需进一步优化。大模型技术在搜索、推荐和广告领域的应用如火如荼,尤

文章图片
#人工智能
NVIDIA Dynamo 开源库加速并扩展 AI 推理模型

作为 NVIDIA Triton™ 推理服务器的后续产品,NVIDIA Dynamo 是一款全新的 AI 推理服务软件,旨在为部署推理 AI 模型的 AI 工厂最大化其 token 收益。”NVIDIA 创始人兼首席执行官黄仁勋表示,“为了实现自定义推理 AI 的未来,NVIDIA Dynamo 可以在这些模型上进行规模化部署,从而为 AI 工厂实现降本增效”。然后,它会将新的推理请求路由到与所需

文章图片
#人工智能#开源
NVIDIA 借助由超级芯片提供支持的 CUDA-X 库加速科学和工程发展

对于各类大规模计算工程问题,通过 Grace CPU 存储单元和超级芯片架构,在相同 GPU 和 cuDSS 混合显存技术下,可将最耗时的求解环节速度提升至原来的 4 倍。NVIDIA GTC 全球 AI 大会上宣布,开发者现在可以通过 CUDA-X 与新一代超级芯片架构的协同,实现 CPU 和 GPU 资源间深度自动化整合与调度,相较于传统加速计算架构,该技术可使计算工程工具运行速度提升至原来的

文章图片
#人工智能
NVIDIA 面向物理 AI 开发者社区开放 Cosmos 世界基础模型

3D 输出时,扩散模型生成可控的高质量合成视频数据,用于启动机器人和自动驾驶汽车感知模型的训练。在 CES 大会上,NVIDIA 推出第一批 Cosmos 世界基础模型,用于基于物理的仿真和合成数据生成,配备先进的 tokenizer、护栏、加速数据处理和管理工作流,以及模型定制和优化框架。是一个用于加速物理 AI 开发的平台,推出了一系列世界基础模型——可以预测和生成虚拟环境未来状态的物理感知视

文章图片
#人工智能
借助 NVIDIA NVLink Fusion 将半定制计算平台集成到机架级架构

NVLink Fusion 包含 NVLink 芯片,可通过相同的 NVIDIA 机架级扩展架构来纵向扩展 NVIDIA 和半定制 ASIC 的混合基础设施,并与 NVIDIA CPU、NVIDIA NVLink 交换机、NVIDIA ConnectX Ethernet SuperNIC、NVIDIA BlueField DPU 以及用于横向扩展解决方案的 NVIDIA Quantum 和 NVI

文章图片
#架构
    共 97 条
  • 1
  • 2
  • 3
  • 10
  • 请选择