logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

NVIDIA 2025 Hackathon年度总决赛圆满落幕:AI Agent技术创新成果丰硕

NVIDIA 2025 Hackathon年度总决赛成功举办,聚焦"智能体生态"主题,吸引了400+开发者参赛。赛事由NVIDIA与阿里云天池平台合作,提供NeMo Agent Toolkit等技术支持。65支队伍提交作品,展示了多智能体协作、MCP协议应用等创新成果。获奖项目涵盖机器人设计、量化交易、农业智能化等领域,其中RoboGen机器人设计平台获得冠军。大赛推动了AI

文章图片
#人工智能
量化感知训练:如何恢复低精度模型的准确性

摘要:本文探讨了深度学习模型量化部署的三种关键技术:后训练量化(PTQ)、量化感知训练(QAT)和量化感知蒸馏(QAD)。PTQ简单高效但可能导致精度下降,QAT通过训练过程中模拟量化操作来恢复精度,QAD则结合知识蒸馏进一步优化性能。文章详细介绍了QAT/QAD的工作原理,并展示了如何利用NVIDIA TensorRT工具链实现这些技术。这些方法能在保持模型精度的同时显著提升推理效率,特别是对于

#人工智能#GPU#语言模型
NV-FP4:以4位的速度与效率,实现16位的训练精度

摘要: NVIDIA推出创新4位浮点格式NV-FP4,通过算法与硬件协同设计,在保持16位训练精度的同时显著提升效率。NV-FP4采用“3-1-0”非对称结构,结合两阶段量化策略和硬件加速逆量化,有效减少内存占用并优化计算性能。实验显示,在Llama等大型语言模型训练中,NV-FP4精度与BF16相当,性能较FP8提升1.7倍。该技术已深度集成至NVIDIA Transformer Engine,

#人工智能#深度学习#机器学习 +2
CUDA数学函数详解:从基础到优化

本博客将全面介绍CUDA中的数学函数,从基础概念到实际应用,帮助读者深入理解如何在CUDA程序中高效使用这些函数。CUDA数学函数的分类和特性标准数学函数的使用方法和精度分析内部函数的特点及其与标准函数的区别丰富的代码示例,展示各类数学函数的使用方法性能优化技巧,帮助开发者在精度和速度之间做出合理的权衡常见问题及解决方案无论你是CUDA初学者还是有经验的GPU程序员,本文都将为你提供有价值的信息和

文章图片
#python#GPU
NVIDIA Rubin CPX:为百万级Token上下文工作负载加速推理性能与效率

NVIDIA在COMPUTEX 2024推出Rubin平台,其核心创新是专为LLM预填充阶段设计的CPX处理器。该处理器与Rubin GPU协同工作,通过异构计算解决百万级Token上下文带来的计算瓶颈。CPX针对预填充阶段的计算密集型特性进行优化,与GPU分工协作:CPX处理预填充,GPU专注于生成阶段。这种架构使预填充性能提升4倍,整体推理性能提升3倍,同时能效提高1.5倍。平台采用MGX模块

文章图片
#人工智能#语言模型#GPU +1
提高 Kubernetes 中的 GPU 利用率

对于可扩展的数据中心性能,NVIDIA GPU 已成为必备品。由数千个计算内核支持的 NVIDIA GPU 并行处理能力对于加速不同行业的各种应用程序至关重要。如今,各行各业的计算密集型应用程序都在使用 GPU:在这个范围内的不同应用程序可能有不同的计算要求。训练巨型 AI 模型,其中 GPU 并行批处理数百个数据样本,使 GPU 在训练过程中得到充分利用。然而,许多其他应用程序类型可能只需要一小

文章图片
#kubernetes#容器#云原生 +1
小语言模型(SLM):构建可扩展智能体AI的关键

本文探讨了小型语言模型(SLM)在构建可扩展AI智能体中的关键作用。随着AI从单一任务模型向多功能智能体转变,大规模部署面临成本、延迟和可控性等挑战。SLM通过其70亿-130亿参数量在性能与成本间取得平衡,成为解决方案。 智能体工作流包含推理规划、工具使用和反思修正三个阶段,传统依赖大型通用模型面临高成本、高延迟等局限。文章提出"模型即微服务"架构,由调度器和专家SLM协同工

#人工智能#语言模型#microsoft
小语言模型(SLM):构建可扩展智能体AI的关键

本文探讨了小型语言模型(SLM)在构建可扩展AI智能体中的关键作用。随着AI从单一任务模型向多功能智能体转变,大规模部署面临成本、延迟和可控性等挑战。SLM通过其70亿-130亿参数量在性能与成本间取得平衡,成为解决方案。 智能体工作流包含推理规划、工具使用和反思修正三个阶段,传统依赖大型通用模型面临高成本、高延迟等局限。文章提出"模型即微服务"架构,由调度器和专家SLM协同工

#人工智能#语言模型#microsoft
深入解析推测解码:降低AI推理延迟的前沿技术

推测解码:降低AI推理延迟的前沿技术 大型语言模型(LLM)的自回归推理面临显著延迟问题。推测解码技术通过"草稿-验证"机制有效优化这一过程:使用小型草稿模型快速生成候选词元序列,再通过目标模型一次性并行验证,仅需一次前向传播即可确认多个有效词元。NVIDIA TensorRT-LLM对该技术提供原生支持,开发者只需简单配置即可获得2-3倍的性能提升。理想草稿模型应具备高速、与

文章图片
#人工智能#android
12.CUDA编程手册中文版---附录H数学方法

附录H 数学方法参考手册列出了设备代码中支持的 C/C++ 标准库数学函数的所有函数及其描述,以及所有内部函数(仅在设备代码中支持)。本附录在适用时提供了其中一些功能的准确性信息。它使用 ULP 进行量化。有关最后位置单元 (ULP: Unit in the Last Place, 上面是直译的,这里可以理解为最小精度单元) 定义的更多信息,请参阅 Jean-Michel Muller’s pap

文章图片
#人工智能#c++#开发语言 +2
    共 144 条
  • 1
  • 2
  • 3
  • 15
  • 请选择