登录社区云,与社区用户共同成长
邀请您加入社区
API Shader Stage Control
上一篇讲到了drm_get_pci_dev函数,这是一个比较关键的函数,其中调用了几个函数,现在一一进行详细说明。先说第1个函数:drm_dev_alloc。调用处:dev = drm_dev_alloc(driver, &pdev->dev);源码如下:drivers/gpu/drm/drm_drv.c/*** drm_dev_alloc - Allocate new DRM de
核心优势架构NVLink+InfiniBand 双高速互联,解决 200+GPU 间通信瓶颈叶脊拓扑提供无阻塞带宽,支持大规模扩展液冷散热保障高密度部署稳定性K8s+NVIDIA AI Enterprise 实现智能化管理后续优化方向考虑 BlueField DPU 卸载网络和存储流量,释放 CPU 资源实施混合精度训练和模型并行,充分利用集群算力探索 AI Workflow 自动化,提升资源利用
打 Kaggle 或国产大模型比赛,进入冲刺阶段,团队成员要同时跑不同的特征工程和模型融合方案。租云 GPU 成本飙升,一个月花掉好几千,团队预算吃紧。把团队已有的几张消费级显卡(如 4090)通过 OrionX 池化成一个虚拟算力池。显存超分技术让每张卡能支撑更大 batch size 或更高分辨率输入。成员按需申请算力,跑完即释放,避免资源闲置。云 GPU 租用成本降低 60%并行实验数量翻倍
GPU是通用并行计算主力,生态成熟,适合训练和云端推理。NPU是专用能效芯片,为边缘端低延迟场景设计。TPU是谷歌云端专用处理器,与TensorFlow深度集成。价格上,GPU和NPU可采购,TPU仅支持租赁。部署时,GPU代码相对通用,而NPU部署需将模型转换为专用格式并调用特定SDK,无法直接“翻译”GPU代码。开发者需根据云端/边缘、生态、能效和成本需求进行选择。
radeon gpu profiler 的用法,本文翻译 EventWindow 的第一部分(非机翻)AMD-RGP 的Events Windows 一共有五个部分(Wavefront occupancy、Event timing、The anatomy of an event、Pipeline state、Instruction timing),本文翻译前三部分。
深度学习模型优化中的算子融合技术 算子融合是提升深度学习模型推理性能的关键技术,通过合并多个连续算子为单一复合算子,显著降低内存访问和调度开销。本文深入分析了算子融合的原理与实现: 性能瓶颈:揭示了内存墙(数据搬运速度远低于计算速度)和调度开销(内核启动成本高)两大核心问题 数学原理:以Conv-BN-ReLU为例,展示了如何通过数学等价变换将三个算子合并为一个,减少中间结果的内存存储 实现优势:
斯坦福 HAI 2026 报告警示 AI 能耗正以惊人速度增长。与此同时,宾大团队创造出光-物质混合粒子,有望将 AI 计算能耗降低几个数量级。本文从 AI 能耗数据分析、光学计算原理、量子模拟代码三个维度,解读这场可能颠覆 GPU 格局的硬件革命。
5月19日,AMD公司宣布,其在上海举办的AMD AI开发者大会 (AMD AI DevDay 2026) 吸引了超过两千名开发者到场参加,这是这一面向AI 开发者的AMD技术盛会首次登陆中国。AMD董事会主席及首席执行官苏姿丰博士(Dr. Lisa Su)为大会发表主旨演讲。
在计算机体系结构中,桥片(Southbridge/Northbridge)与图形处理单元(GPU)是连接CPU与外部设备、实现高效数据交换和图形渲染的关键组件。其核心原理在于通过高速互连总线(如PCIe、HT)和专用控制器,管理内存、存储、网络及显示输出。这一技术体系的价值在于决定了整机系统的扩展性、兼容性与用户体验,是构建桌面、服务器及嵌入式解决方案的基础。随着自主可控需求的提升和开源生态的成熟
在现代计算系统中,芯片组(Chipset)作为CPU与外围设备的核心互联枢纽,其提供的PCIe通道、内存控制器及高速I/O接口性能,直接决定了系统的数据吞吐与扩展能力。图形处理单元(GPU)则负责图形渲染与并行计算,其API支持度与驱动成熟度深刻影响用户体验与软件生态。理解桥片与GPU的工作原理,对于构建高性能、高能效的计算平台至关重要,其技术价值在于消除系统瓶颈,释放CPU算力,实现各子系统间的
计算存储加速是解决现代数据中心'存储墙'瓶颈的关键技术,其核心原理是将计算任务卸载到靠近数据源的专用硬件上执行,从而减少数据搬运开销,提升系统整体能效。从技术实现上看,主要分为基于定制化数据流处理的FPGA方案和基于大规模并行计算的GPU方案。FPGA通过硬件描述语言构建专用流水线,擅长低延迟、确定性的流式处理,如实时数据过滤、协议解析和加密解密,能有效卸载CPU负担。GPU则依托其海量计算核心与
4月24日,摩尔线程携手智源众智FlagOS社区,在旗舰级AI训推一体全功能GPU MTT S5000上,率先实现对新一代大模型DeepSeek-V4-Flash的Day-0极速适配,并完成了全量核心算子的深度优化与部署支持。
NVIDIA在GTC 2026发布全新Rubin平台,六大芯片协同设计:Vera CPU 88核Arm架构、Rubin GPU 336B晶体管50 PFLOPS算力、NVLink 6单机架260TB/s带宽、推理Token成本较Blackwell降10倍。OpenAI/Anthropic/Meta/xAI全数采用,2026下半年量产。
通过与SGLang、TileLang、Triton、Mooncake等开源社区的紧密协作,摩尔线程不仅推动了MUSA平台与主流AI框架的深度适配,更以实际行动赋能开发者,持续助力国产算力与全球开源生态的深度融合,加速AI应用的创新与落地。
这种自主性的下降,意味着厂商不再是新硬件标准的定义者,而是 NVIDIA 标准的追随者。
近日,摩尔线程与光轮智能达成战略合作。双方将依托摩尔线程全功能GPU与夸娥(KUAE)智算集群,结合光轮智能“求解—测量—生成”三位一体全栈自研仿真平台,联合打造高置信度仿真数据合成方案,以国产算力与仿真算法的深度融合,为具身智能发展夯实自主可控的基础设施。
NVIDIA CUDA GPU是基于CUDA技术的图形处理器,具备强大的并行计算能力,适用于图形渲染、科学计算、机器学习等多种任务。CUDA技术允许开发者使用C、C++等语言编写程序,并在支持CUDA的处理器上高效运行。NVIDIA提供了完整的CUDA开发工具链,支持多种应用框架和库,如TensorFlow和PyTorch。不同型号的CUDA GPU满足不同应用场景需求,如RTX PRO 6000
GPU(Graphics Processing Unit,图形处理器)、NPU(Neural Processing Unit,神经网络处理器)和 TPU(Tensor Processing Unit,张量处理器)都是为了满足特定计算需求而设计的处理器。
在人工智能快速发展的今天,下一代AI驱动的机器人,如人形机器人和自动驾驶汽车,都依赖于高保真、物理感知的训练数据。然而,如果没有多样化且具代表性的数据集,这些系统将无法获得适当的训练,并在测试中面临诸多风险:泛化能力差、对真实世界变化的适应有限、在边缘情况下行为不可预测等。而收集大规模真实世界数据集不仅成本高昂,还极其耗时,且常常受到现实可能性的限制。NVIDIA Cosmos通过加速世界基础模型
重排模型(Reranker)是一种特殊类型的神经网络模型,专门用于评估查询(query)和文档(document)之间的相关性。与嵌入模型(Embedding Model)不同,重排模型不会将文本转换为向量,而是直接输出一个相关性得分。这使得重排模型能够捕捉到更细微的语义关系,提高搜索结果的质量。# 自定义数据集示例# 准备数据"query": ["如何训练重排模型?", "深度学习入门教程",
NVIDIA Merlin是一个开源库,旨在加速NVIDIA GPU上的推荐系统。该库使数据科学家、机器学习工程师和研究人员能够大规模构建高性能推荐系统。Merlin包含了解决常见特征工程、训练和推理挑战的工具。Merlin流水线的每个阶段都经过优化,可支持数百TB的数据,所有这些都可以通过易于使用的API访问。NVIDIA Merlin是一个强大的开源库,专为在NVIDIA GPU上加速推荐系统
GTC 2025 中文在线解读| CUDA最新特性与未来 [WP72383]NVIDIA GTC大会火热进行中,一波波重磅科技演讲让人应接不暇,3月24日,NVIDIA 企业开发者社区邀请Ken He、Yipeng Li两位技术专家,面向开发者,以中文深度拆解GTC2025四场重磅开发技术相关会议,直击AI行业应用痛点,破解前沿技术难题!作为GPU计算领域的基石,CUDA通过其编程语言、编译器、运
Stream Ordered Memory Allocator是一种基于CUDA流(stream)的内存分配机制。它允许开发者在特定的CUDA流中分配和释放内存,从而确保内存操作的顺序性与流的执行顺序一致。这种机制特别适用于需要频繁分配和释放内存的应用程序,例如深度学习推理、图像处理等。传统的CUDA内存分配(如cudaMalloc和cudaFree)是全局的,不依赖于任何流。这意味着内存的分配和
本文介绍了深度学习计算中如何利用GPU性能增长进行研究,包括单个及多个GPU的使用,以及张量与神经网络在GPU上的存储与计算。
TVM 现已更新到 0.21.0 版本,TVM 中文文档已经和新版本对齐。Apache TVM 是一个深度的深度学习编译框架,适用于 CPU、GPU 和各种机器学习加速芯片。更多 TVM 中文文档可访问 →Apache TVM
AMD推出Instinct MI350P PCIe AI加速器,主打企业级AI推理场景。该产品采用标准PCIe形态,配备144GB HBM3E显存,支持风冷部署,强调在现有数据中心内的低成本部署能力。相比专注于训练的高密度方案,MI350P更关注推理效率、显存容量和实际交付性能,支持RAG、Agent等企业AI应用。其核心价值在于让大显存AI推理回归标准服务器架构,降低企业部署复杂度。该产品反映出
为了让角色动起来自然,对于 Live2D 模型师和动画师来说需要把一张完整的插画抠得七零八落:刘海、后发、眼睛、衣服、配饰全都要分层,还要发挥想象力把被遮挡的身体部位重新画出来……这一套流程下来,简直是“掉头发”级别的折磨。然而【See-Through】上传一张动漫角色插画,自动将其分解为带有深度排序、完整修复的语义图层,并导出为分层 PSD 文件。
本文介绍了一套轻量化GPU监控方案,专为个人深度学习主机和家用NVIDIA显卡设计。针对企业级DCGM方案不适合消费级显卡的问题,推荐使用社区版nvidia_gpu_exporter工具,配合Prometheus和Grafana实现简单高效的监控。文章详细讲解了从环境准备、Docker部署到Grafana看板配置的全过程,重点解决了常见的数据空白、时区错位等问题,并提供了适配消费级显卡的专用看板I
本文基于 NVIDIA Deep Learning Institute 的《在生产环境大规模部署 RAG 工作流》课程,围绕 NIM、RAG、K8s/Helm/Operator、监控弹性、多模态与 Agentic AI 等主线,从工程实践角度总结课程内容,并结合 Mirror 平台的实际场景提供启发。
AMD与Meta宣布扩大战略合作,达成一项为期多年、总量达6吉瓦(GW)的AMD Instinct GPU供应协议。此次合作涉及定制芯片、系统及软件层面的深度协同,旨在为Meta的大规模AI工作负载构建高性能、高能效的基础设施。
MatAnyone2是由南洋理工大学S-Lab和商汤科技联合开发的视频抠图框架。该技术采用记忆传播机制,通过区域自适应记忆融合实现稳定的视频抠像效果,能精准处理发丝等细节。其特点包括首帧锁定目标、智能记忆稳定和超清细节处理,适用于视频背景替换、直播特效、电影制作等场景。项目已在GitHub开源,并在趋动云平台提供一键部署服务,支持快速体验。该技术突破了传统视频抠图需要逐帧调整的限制,实现了自动化高
本文是对的Radeon GPU Profiler(RGP)的学习记录,原文是AMD的官网介绍,本文翻译overview部分。主要涉及Frame summary 、Barriers、 Context rolls 、Most expensive events、Pipelines这几个部分。
在启动参数中传入radeon.hard_reset=1这一参数,实际上是给模块参数赋了值,模块参数所在文件及代码为:drivers/gpu/drm/radeon/radeon_drv.cint radeon_hard_reset = 0;MODULE_PARM_DESC(hard_reset, "PCI config reset (1 = force enable, 0 = disable (de
GPU(Graphics Processing Unit,图形处理器)是一种专门设计用于处理图形和并行计算任务的微处理器。最初GPU主要用于计算机图形渲染,但随着技术的发展,现代GPU已经成为并行计算、人工智能、科学计算等领域不可或缺的核心组件。
GPU
——GPU
联系我们(工作时间:8:30-22:00)
400-660-0108 kefu@csdn.net