登录社区云,与社区用户共同成长
邀请您加入社区
在计算机体系结构中,桥片(Southbridge/Northbridge)与图形处理单元(GPU)是连接CPU与外部设备、实现高效数据交换和图形渲染的关键组件。其核心原理在于通过高速互连总线(如PCIe、HT)和专用控制器,管理内存、存储、网络及显示输出。这一技术体系的价值在于决定了整机系统的扩展性、兼容性与用户体验,是构建桌面、服务器及嵌入式解决方案的基础。随着自主可控需求的提升和开源生态的成熟
在现代计算系统中,芯片组(Chipset)作为CPU与外围设备的核心互联枢纽,其提供的PCIe通道、内存控制器及高速I/O接口性能,直接决定了系统的数据吞吐与扩展能力。图形处理单元(GPU)则负责图形渲染与并行计算,其API支持度与驱动成熟度深刻影响用户体验与软件生态。理解桥片与GPU的工作原理,对于构建高性能、高能效的计算平台至关重要,其技术价值在于消除系统瓶颈,释放CPU算力,实现各子系统间的
计算存储加速是解决现代数据中心'存储墙'瓶颈的关键技术,其核心原理是将计算任务卸载到靠近数据源的专用硬件上执行,从而减少数据搬运开销,提升系统整体能效。从技术实现上看,主要分为基于定制化数据流处理的FPGA方案和基于大规模并行计算的GPU方案。FPGA通过硬件描述语言构建专用流水线,擅长低延迟、确定性的流式处理,如实时数据过滤、协议解析和加密解密,能有效卸载CPU负担。GPU则依托其海量计算核心与
摘要:Google DeepMind 推出的 Gemma-4-31B-it 模型在技术资料整理中展现出显著优势,其基于Gemini3 技术体系,强化了长上下文建模与推理能力。该模型支持 256K 上下文和图文输入,能一次性完成原本需要人工逐步推进的复杂任务,大幅提升工作效率。
👉/models/不是必须👉但模型必须提前下载到你指定的路径里。
4月24日,摩尔线程携手智源众智FlagOS社区,在旗舰级AI训推一体全功能GPU MTT S5000上,率先实现对新一代大模型DeepSeek-V4-Flash的Day-0极速适配,并完成了全量核心算子的深度优化与部署支持。
本文分析了本地CPU与GPU训练AutoGluon 1.5.0的成本效益差异。对于小数据集(≤10万行),CPU完全够用且性价比最高;中大数据集(10万~1000万行)使用GPU可提速3~30倍。表格任务主要依赖CPU,而多模态/深度学习任务必须使用GPU才能保证效率。硬件选择建议:常规表格任务选CPU,多模态任务需配备12GB以上显存的GPU(如RTX 4060),频繁实验者推荐GPU以节省时间
混合专家模型(MoE)通过稀疏激活机制平衡了大型语言模型(LLM)的效率与质量,但在百亿参数规模下,单GPU内存无法容纳全部专家权重。传统解决方案面临GPU利用率低、PCIe传输延迟高等挑战。TriMoE创新性地引入AMX指令集CPU作为独立计算域,与GPU和DIMM-NDP形成三级计算体系,显著提升计算效率。其核心在于专家分类与动态调度:热专家由GPU处理,温专家匹配CPU算力,冷专家利用NDP
在人工智能领域,算力已成为驱动大语言模型(LLM)发展的核心引擎。其原理在于,模型通过海量参数和复杂矩阵运算从数据中学习规律,而参数量与计算需求呈指数级增长。这带来了巨大的技术价值:更强的模型能力与更通用的智能,但同时也引发了高昂的算力成本,成为产业化的关键瓶颈。应用场景广泛覆盖模型训练与在线推理服务,例如,维持类似ChatGPT的亿级用户服务需要应对持续的推理成本挑战。为了应对这一挑战,行业正从
NVIDIA在GTC 2026发布全新Rubin平台,六大芯片协同设计:Vera CPU 88核Arm架构、Rubin GPU 336B晶体管50 PFLOPS算力、NVLink 6单机架260TB/s带宽、推理Token成本较Blackwell降10倍。OpenAI/Anthropic/Meta/xAI全数采用,2026下半年量产。
vLLM虽支持多GPU并行,但对异构混合部署支持有限,仅推荐在同架构、同厂商的NVIDIA显卡上运行。跨代际或跨厂商组合易导致兼容问题和性能下降,生产环境应优先选择A100/H100等数据中心级GPU以确保稳定性。
通过与SGLang、TileLang、Triton、Mooncake等开源社区的紧密协作,摩尔线程不仅推动了MUSA平台与主流AI框架的深度适配,更以实际行动赋能开发者,持续助力国产算力与全球开源生态的深度融合,加速AI应用的创新与落地。
这种自主性的下降,意味着厂商不再是新硬件标准的定义者,而是 NVIDIA 标准的追随者。
近日,摩尔线程与光轮智能达成战略合作。双方将依托摩尔线程全功能GPU与夸娥(KUAE)智算集群,结合光轮智能“求解—测量—生成”三位一体全栈自研仿真平台,联合打造高置信度仿真数据合成方案,以国产算力与仿真算法的深度融合,为具身智能发展夯实自主可控的基础设施。
NVIDIA CUDA GPU是基于CUDA技术的图形处理器,具备强大的并行计算能力,适用于图形渲染、科学计算、机器学习等多种任务。CUDA技术允许开发者使用C、C++等语言编写程序,并在支持CUDA的处理器上高效运行。NVIDIA提供了完整的CUDA开发工具链,支持多种应用框架和库,如TensorFlow和PyTorch。不同型号的CUDA GPU满足不同应用场景需求,如RTX PRO 6000
GPU(Graphics Processing Unit,图形处理器)、NPU(Neural Processing Unit,神经网络处理器)和 TPU(Tensor Processing Unit,张量处理器)都是为了满足特定计算需求而设计的处理器。
在人工智能快速发展的今天,下一代AI驱动的机器人,如人形机器人和自动驾驶汽车,都依赖于高保真、物理感知的训练数据。然而,如果没有多样化且具代表性的数据集,这些系统将无法获得适当的训练,并在测试中面临诸多风险:泛化能力差、对真实世界变化的适应有限、在边缘情况下行为不可预测等。而收集大规模真实世界数据集不仅成本高昂,还极其耗时,且常常受到现实可能性的限制。NVIDIA Cosmos通过加速世界基础模型
重排模型(Reranker)是一种特殊类型的神经网络模型,专门用于评估查询(query)和文档(document)之间的相关性。与嵌入模型(Embedding Model)不同,重排模型不会将文本转换为向量,而是直接输出一个相关性得分。这使得重排模型能够捕捉到更细微的语义关系,提高搜索结果的质量。# 自定义数据集示例# 准备数据"query": ["如何训练重排模型?", "深度学习入门教程",
NVIDIA Merlin是一个开源库,旨在加速NVIDIA GPU上的推荐系统。该库使数据科学家、机器学习工程师和研究人员能够大规模构建高性能推荐系统。Merlin包含了解决常见特征工程、训练和推理挑战的工具。Merlin流水线的每个阶段都经过优化,可支持数百TB的数据,所有这些都可以通过易于使用的API访问。NVIDIA Merlin是一个强大的开源库,专为在NVIDIA GPU上加速推荐系统
GTC 2025 中文在线解读| CUDA最新特性与未来 [WP72383]NVIDIA GTC大会火热进行中,一波波重磅科技演讲让人应接不暇,3月24日,NVIDIA 企业开发者社区邀请Ken He、Yipeng Li两位技术专家,面向开发者,以中文深度拆解GTC2025四场重磅开发技术相关会议,直击AI行业应用痛点,破解前沿技术难题!作为GPU计算领域的基石,CUDA通过其编程语言、编译器、运
Stream Ordered Memory Allocator是一种基于CUDA流(stream)的内存分配机制。它允许开发者在特定的CUDA流中分配和释放内存,从而确保内存操作的顺序性与流的执行顺序一致。这种机制特别适用于需要频繁分配和释放内存的应用程序,例如深度学习推理、图像处理等。传统的CUDA内存分配(如cudaMalloc和cudaFree)是全局的,不依赖于任何流。这意味着内存的分配和
本文介绍了深度学习计算中如何利用GPU性能增长进行研究,包括单个及多个GPU的使用,以及张量与神经网络在GPU上的存储与计算。
TVM 现已更新到 0.21.0 版本,TVM 中文文档已经和新版本对齐。Apache TVM 是一个深度的深度学习编译框架,适用于 CPU、GPU 和各种机器学习加速芯片。更多 TVM 中文文档可访问 →Apache TVM
AMD推出Instinct MI350P PCIe AI加速器,主打企业级AI推理场景。该产品采用标准PCIe形态,配备144GB HBM3E显存,支持风冷部署,强调在现有数据中心内的低成本部署能力。相比专注于训练的高密度方案,MI350P更关注推理效率、显存容量和实际交付性能,支持RAG、Agent等企业AI应用。其核心价值在于让大显存AI推理回归标准服务器架构,降低企业部署复杂度。该产品反映出
为了让角色动起来自然,对于 Live2D 模型师和动画师来说需要把一张完整的插画抠得七零八落:刘海、后发、眼睛、衣服、配饰全都要分层,还要发挥想象力把被遮挡的身体部位重新画出来……这一套流程下来,简直是“掉头发”级别的折磨。然而【See-Through】上传一张动漫角色插画,自动将其分解为带有深度排序、完整修复的语义图层,并导出为分层 PSD 文件。
本文介绍了一套轻量化GPU监控方案,专为个人深度学习主机和家用NVIDIA显卡设计。针对企业级DCGM方案不适合消费级显卡的问题,推荐使用社区版nvidia_gpu_exporter工具,配合Prometheus和Grafana实现简单高效的监控。文章详细讲解了从环境准备、Docker部署到Grafana看板配置的全过程,重点解决了常见的数据空白、时区错位等问题,并提供了适配消费级显卡的专用看板I
本文基于 NVIDIA Deep Learning Institute 的《在生产环境大规模部署 RAG 工作流》课程,围绕 NIM、RAG、K8s/Helm/Operator、监控弹性、多模态与 Agentic AI 等主线,从工程实践角度总结课程内容,并结合 Mirror 平台的实际场景提供启发。
AMD与Meta宣布扩大战略合作,达成一项为期多年、总量达6吉瓦(GW)的AMD Instinct GPU供应协议。此次合作涉及定制芯片、系统及软件层面的深度协同,旨在为Meta的大规模AI工作负载构建高性能、高能效的基础设施。
MatAnyone2是由南洋理工大学S-Lab和商汤科技联合开发的视频抠图框架。该技术采用记忆传播机制,通过区域自适应记忆融合实现稳定的视频抠像效果,能精准处理发丝等细节。其特点包括首帧锁定目标、智能记忆稳定和超清细节处理,适用于视频背景替换、直播特效、电影制作等场景。项目已在GitHub开源,并在趋动云平台提供一键部署服务,支持快速体验。该技术突破了传统视频抠图需要逐帧调整的限制,实现了自动化高
本文是对的Radeon GPU Profiler(RGP)的学习记录,原文是AMD的官网介绍,本文翻译overview部分。主要涉及Frame summary 、Barriers、 Context rolls 、Most expensive events、Pipelines这几个部分。
在启动参数中传入radeon.hard_reset=1这一参数,实际上是给模块参数赋了值,模块参数所在文件及代码为:drivers/gpu/drm/radeon/radeon_drv.cint radeon_hard_reset = 0;MODULE_PARM_DESC(hard_reset, "PCI config reset (1 = force enable, 0 = disable (de
GPU(Graphics Processing Unit,图形处理器)是一种专门设计用于处理图形和并行计算任务的微处理器。最初GPU主要用于计算机图形渲染,但随着技术的发展,现代GPU已经成为并行计算、人工智能、科学计算等领域不可或缺的核心组件。
本文探讨了GPU如何成为大语言模型(LLM)的核心硬件,并分析了相关优化技术。首先对比了CPU与GPU的差异,指出GPU的大规模并行特性天然适合LLM的矩阵运算需求。随后详细解析了A100的层级结构、Tensor Core设计原理,以及GPU的SIMT执行模型和分层内存架构。重点阐述了常见优化手段:低精度计算减少数据搬运、算子融合降低中间结果存储、重计算节省显存、内存合并提高访问效率、分块提升数据
4月24日,由智源研究院牵头研发的众智FlagOS第一时间对DeepSeek-V4-Pro 1.6T 旗舰模型(1.86万亿参数)及DeepSeek-V4-Flash 284B 高效模型(2840亿)两个“巨无霸”模型进行全量适配,已经完成 DeepSeek-V4-Flash在 8款以上 AI 芯片上的全量适配与推理部署。
英伟达开源NemotronSpeechASR模型,专为低延迟实时语音识别设计。该模型采用缓存感知架构,将已处理语音特征缓存复用,单句转录延迟仅24毫秒,有效解决长语音识别中的延迟累积问题。支持多档延迟模式灵活调整,端到端延迟控制在500毫秒内,原生支持标点符号和大小写识别。模型具备高吞吐量和低成本优势,适用于游戏语音、实时翻译、会议记录等场景,并与LLM和TTS技术协同构建完整语音智能体方案。目前
GPU
——GPU
联系我们(工作时间:8:30-22:00)
400-660-0108 kefu@csdn.net