登录社区云,与社区用户共同成长
邀请您加入社区
自发布以来,NVIDIA 通过持续的软件优化以及与软件合作伙伴和开源社区的紧密协作,不断提升基于 Grace Blackwell 架构的 DGX Spark 的性能。这些举措在推理、训练和创意工作流方面都取得了显著的成效......
对于如上的运算AX+Y,每次运算我们需要从内存读取两个数据,一个是x[i],一个是y[i],最后存回y[i]。这里面有一个FMA的操作(融合乘加(FMA)指令是RISC处理器中的常见指令),把乘法和加法融合在一起。之后进行N次的迭代。这就是在CPU的一段串行,按顺序执行的程序。以Intel Exon 8280芯片为例,内存带宽是113GB/s,内存延时是89ns ,那么每次,也就是89ns里面,我
通过EmotiVoice与GPU算力结合,可在150ms内完成带情感的高质量语音合成。利用TensorRT优化和FP16加速,配合NVIDIA RTX 4090或A10G等显卡,实现零样本克隆与多情感表达,适用于虚拟主播、智能终端等实时交互场景。
智算中心是基于最新人工智能理论,采用领先的人工智能计算架构,提供人工智能应用所需算力服务、数据服务和算法服务的公共算力新型基础设施,其通过算力的生产、聚合、调度和释放,高效支撑数据开放共享、智能生态建设、产业创新聚集,能够有力促进AI产业化、产业AI化及政府治理智能化。
本文深入剖析CPU与GPU在AI推理中的协同机制,揭示异构计算如何通过任务分工、异步传输、动态批处理等技术提升系统性能。重点讲解数据搬运优化、流水线并行与TensorRT加速策略,展现智能服务低延迟背后的算力协作原理。
本文分析了RTX4090魔改48GB显存的技术路线,并探讨了RTX5090魔改128GB显存的可行性。RTX4090通过PCB背面加装12颗GDDR6X显存颗粒和VBIOS固件改造实现48GB容量,其成功验证了英伟达显卡的硬件复用设计。而RTX5090要实现128GB需突破32Gb GDDR7颗粒量产和显存控制器兼容性两大技术壁垒,目前仅理论可行。文章还预测了魔改技术对产业链的影响,包括加速GDD
趋动科技推出永久免费的OrionXAI算力池化软件社区版,帮助中小企业和开发者突破算力瓶颈。
摘要:NVIDIA Alpamayo自动驾驶生态系统 NVIDIA推出的Alpamayo生态系统为构建具备推理能力的自动驾驶系统提供了完整解决方案。该系统包含三大核心组件:Alpamayo 1(100亿参数VLA推理模型)、Physical AI AV数据集(全球最大开放自动驾驶数据集)和AlpaSim仿真平台(开源闭环评估工具)。Alpamayo 1通过Transformer架构实现多模态感知和
在AI算力需求呈现指数级增长的背景下,本文以NVIDIA GPU中的Warp Shuffle指令为例,深入解析了超越通用API、直接进行硬件指令级优化的方法论。通过对阿里巴巴推荐系统性能提升66%的实战案例分析,系统阐述了如何利用Shuffle机制化解海量数据交换的通信瓶颈。针对国产计算芯片的生态挑战,文章更进一步总结了华为昇腾平台从中继到对等,最终实现架构级创新的三阶段迁移路线图与关键技术工具链
nvidia-container-runtime 离线安装1.下载安装包2.docker使用GPU1.下载安装包按照顺序安装dpkg -i libnvidia-container1_1.3.3-1_amd64.debdpkg -i libnvidia-container-tools_1.3.3-1_amd64.debdpkg -i nvidia-container-toolkit_1.4.2-1_
本文整理了NVIDIA、AMD和Intel三大GPU厂商的核心开发文档索引。NVIDIA提供CUDA编程、图形渲染和AI加速等文档;AMD侧重ROCm平台和HIP编程模型;Intel则主推oneAPI工具包和DPC++编程。文档涵盖安装指南、API参考、性能优化等内容,并包含部分中文资源。开发者可根据需求选择对应文档,通过厂商官网和开发者社区获取技术支持和最新信息。
本文系统介绍了内存泄漏检测与内存屏障优化的关键技术。在内存泄漏检测方面,详细解析了Valgrind、AddressSanitizer等工具的使用方法,针对未释放内存、循环引用等常见问题给出了解决方案。在内存屏障优化部分,阐述了各类内存屏障的原理及多线程编程中的应用场景,包括生产者-消费者模型和无锁队列的实现。同时提供了Linux、Windows、Android等平台的优化实践,并通过数据库服务内存
在AI训练的"厨房"里,GPU是高效厨师助手,比CPU快10倍!2026年,英伟达B100成绝对主流,单卡算力飙升。训练300B参数的Qwen3仅需1024张B100,2周搞定(A100需100小时,B100仅30小时,提速3.3倍)。从A100的"普通轿车"升级到B100的"超跑",大模型训练从"慢工出细活"跃变为"快马加鞭"。算力正成为AI时代的"新石油",而GPU正是拧紧地基的那颗螺丝。
Youtu-LLM是一款19.6亿参数的高效大语言模型,具备128k长文本处理能力和原生智能体功能。其在常识推理、STEM、编程等任务上超越同规模模型,并能胜任合同分析、代码调试等专业场景。该模型已上线趋动云平台,支持一键部署,用户可通过GitHub获取资源或观看B站视频教程快速上手。使用后需注意及时关闭环境以避免额外费用。
APC技术,遇到新prompt和老prompt前缀完全相等的,则复用老prompt的KV cache,避免重新计算。3. 只要前面有1个字符不同,后面完全相同的部分,也不能被视为公共前缀。2. prefill公共前缀较长,且decode output较短时,KV cache复用的威力才能发挥出来。则把长文档放到前面,可以复用KV cache。enable_prefix_caching,prompt
Qwen2.5-VL是Qwen家族的旗舰视觉语言模型,相比Qwen2-VL有显著提升。Qwen2.5-VL能够识别常见物体并分析图像中的文本、图表等;作为视觉Agent,具备推理能力;能理解长视频并精准捕捉事件;支持视觉定位和结构化输出。在性能方面,在多个基准测试中表现出色,尤其在文档和图表理解方面优势明显。目前Qwen2.5-VL-7B-Instruct版本已经在趋动云『社区项目』上线,在官网上
本文测试了ComfyUI在Docker环境下于不同NVIDIA GPU上的运行效率,涵盖RTX 3060、3090、4090、A6000及H100,分析显存、算力对SDXL模型推理速度与稳定性的影响,为AI图像生成硬件选型提供数据支持。
本文介绍了利用NVIDIA Nemotron构建的多智能体自我修正RAG系统,用于解决复杂日志分析的挑战。该系统通过混合检索、智能重排序、相关性评分和生成等核心组件,结合多智能体协同工作流,实现了从海量日志中自动提取关键洞察的能力。文章详细阐述了系统架构、关键技术及实现方法,并提供了快速上手指南。该系统能显著提升日志分析效率,将问题诊断时间从数小时缩短到数秒,适用于DevOps、网络安全等多个领域
本文介绍了如何利用NVIDIA Nemotron构建一个多智能体自我修正的RAG系统,用于解决复杂日志分析挑战。系统采用混合检索、智能重排序和相关性评分等技术,通过多智能体协同工作实现日志解析、查询修正和答案生成。文章详细阐述了系统架构、关键组件和实现方法,并提供了快速上手指南。该系统能显著提升日志分析效率,将问题诊断时间从数小时缩短至数秒,为开发运维团队提供有力支持。
GPU集群搭建指南 核心概念 GPU集群是将多台GPU服务器互联组成的计算系统,用于分布式训练大模型。典型架构包含: 1个管理节点(Master Node)负责任务调度 多个工作节点(Worker Node)执行计算任务 高速网络(InfiniBand/RoCE)实现节点间通信 共享存储系统存放数据和模型 硬件准备 建议配置: 每节点8张NVIDIA A100 80G显卡 AMD EPYC或Int
nvmath-python提供了对NVIDIA数学库的Python接口,使开发者能够利用GPU加速的数学运算,显著提高计算密集型应用的性能。这个库包含了多种优化的数学函数,特别适合于线性代数、统计分析和科学计算领域。
在日常项目开展过程中,对于大模型的私有化部署同样存在切实需求。基于此,我花费了一定时间,深入探究模型使用与GPU显卡配置之间的内在联系,并将研究所得整理记录下来。GPU显存容量的大小,在实际应用中起着关键作用。它不仅决定了能够运行模型的规模大小、运行速度(会对批处理规模以及序列长度产生影响),还关乎训练过程能否稳定进行。那么,该如何对其进行评估呢?这需要综合考量以下几个方面的因素:
在深度学习的世界里,模型越来越复杂,数据集规模不断膨胀,单块GPU的算力已经难以满足需求。多GPU训练作为一种高效解决方案,能够大幅提升训练速度,缩短实验周期。本文将带你深入剖析多GPU训练的核心技术原理、底层工作机制及具体实现细节,同时探讨分布式训练中那些容易被忽视的关键注意事项。如果这些问题处理不当,可能会让训练效率大打折扣,甚至导致过程不稳定。让我们一起揭开多GPU训练的神秘面纱!
vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。更多 vLLM 中文文档及教程可访问 →。
本文介绍了使用LoRA技术微调Stable Diffusion 3.5 FP8模型实现个性化风格生成的方法。LoRA通过冻结原模型参数、仅训练少量低秩矩阵,显著降低了训练成本,与FP8量化技术结合后进一步优化了显存占用和训练速度。文章详细阐述了LoRA的工作原理、环境搭建要求,并以二次元风格生成为例,展示了从数据集准备到模型训练的全流程。该方法在消费级GPU上即可实现高效定制化生成,平衡了训练效率
本文深入探讨了NVIDIA硬件一致性平台(GH200/GB200/GB300)的两种内存管理模式:NUMA和CDMM。NUMA作为默认模式统一管理CPU和GPU内存,但可能导致GPU显存被非计算任务占用,在Kubernetes环境中引发资源隔离问题。CDMM模式则通过驱动直接管理GPU内存,避免系统干扰,特别适合Kubernetes部署和需要精确内存控制的场景。文章详细对比了两种模式的特点、适用场
本文详细解析了大模型在GPU上的运行原理,重点介绍了计算图、并行策略、内存管理和内核优化等关键技术。大模型基于Transformer架构,依赖GPU的高效计算能力,通过计算图和自动微分系统实现前向和反向传播。为应对大规模参数,采用了数据并行、模型并行、流水线并行和张量并行等策略。内存管理方面,使用激活重计算、混合精度训练等技术优化资源利用。内核优化和通信优化则通过CUDA库、内核融合、NCCL通信
DeepSeek 是一个开源的大模型系列,包含 DeepSeek-R1、DeepSeek-MoE 等多个模型,支持文本生成、对话交互等功能。
当ChatGPT掀起全球AI革命时,英伟达的市值已超越沙特阿美,成为人类商业史上首个突破2万亿美元的半导体企业。这场由生成式AI驱动的算力军备竞赛中,《英伟达之道》恰似一把解码器,揭示着科技巨头崛起的底层逻辑,也映照着当下AI狂潮的深层矛盾。
GPU
——GPU
联系我们(工作时间:8:30-22:00)
400-660-0108 kefu@csdn.net