登录社区云,与社区用户共同成长
邀请您加入社区
内存管理流和事件图像处理特征检测几何检测:CannyEdgeDetector, Hough系列, CornersDetector光流计算:多种光流算法(Brox, Farneback, PyrLK, TV-L1等)立体视觉:多种立体匹配算法(BM, SGM, Belief Propagation等)背景减除:多种背景建模算法(MOG, MOG2, GMG, FGD)对象检测匹配与分类系统工具下表整
摘要:本教程介绍在Windows11环境下使用LMStudio替代Ollama搭建OpenClaw本地推理服务的方法。通过三步配置(开启CUDA加速、启动无界面服务、建立OpenAI兼容接口),可充分发挥NVIDIA显卡(如RTX3090)的算力优势。文章详细演示了LMStudio的GPU加速设置和后台服务开启流程,为后续OpenClaw对接奠定基础。该方案解决了Windows平台下Ollama无
Z-Image是一款功能强大的基础生成模型,具备高质量输出、多样风格覆盖和精准提示响应能力。作为完整容量的Transformer模型,它支持无分类器引导控制,提供丰富的视觉表达,从写实摄影到动漫插画。该模型特别适合创意探索,能显著提升输出多样性,并支持LoRA微调和ControlNet集成。现已上线趋动云平台,用户可一键部署体验,同时平台提供新客专享150元算力金活动。模型支持开发者快速构建细分领
2月11日,智谱正式发布新一代大模型GLM-5。摩尔线程基于SGLang推理框架,在旗舰级AI训推一体全功能GPU MTT S5000上,Day-0完成了全流程适配与验证。
Xeon platform with 2x, 4x or 8x Arc Pro B60, and setup power for each GPU.
摘要 本文介绍使用byte_micro_perf和llmperf两款工具测试GPU性能的方法。测试分为微观算力测试和宏观推理测试两个层次:前者测试基础计算单元性能(如矩阵乘法、激活函数等),后者测试真实大语言模型的端到端性能(如吞吐量、延迟)。文中详细说明了测试环境准备、模型下载、Docker容器配置等步骤,并提供了测试结果解读方法。通过这两个工具,用户可以获取专业级的GPU性能数据,为硬件选择提
GPU驱动故障排查是算力中心运维的重要技能,通过系统化的排查方法、丰富的工具使用经验和持续的学习积累,我们可以快速定位和解决各种GPU驱动问题。科学的排查方法论是成功解决问题的基础熟练使用各种诊断工具可以提高排查效率积累故障排查经验,建立知识库预防性维护可以减少故障的发生团队协作和知识共享可以解决更复杂的问题通过不断学习和实践,我们可以成为GPU驱动故障的"诊断专家",确保算力中心的稳定运行,为A
GPU驱动问题是算力中心运维中的常见挑战,但通过系统化的排查方法和丰富的经验,我们可以快速诊断和解决这些问题。在多GPU环境中,确保所有节点使用相同版本的驱动定期检查驱动更新,但在生产环境中要谨慎测试后再部署建立GPU状态和驱动健康的监控机制详细记录每次问题和解决方案,定期复盘在更新驱动前,准备好回退到之前版本的方案通过这些措施,我们可以大大减少GPU驱动问题对算力中心运行的影响,确保AI训练和推
想象你买了一台最新的智能洗衣机,如果没有安装相应的控制程序,洗衣机就只是一堆金属零件,无法正常工作。GPU驱动就是让GPU能够正常工作的控制程序,它充当着GPU硬件和操作系统、应用程序之间的翻译官。GPU驱动是连接GPU硬件和上层应用的桥梁,它的重要性不亚于GPU硬件本身。理解GPU驱动的基本概念和作用掌握GPU驱动的版本体系和兼容性了解GPU驱动与AI框架的关系熟悉GPU驱动的相关工具和优化方法
CPU与GPU在大模型推理中的差异在于适用场景
摘要:NVIDIA Alpamayo自动驾驶生态系统 NVIDIA推出的Alpamayo生态系统为构建具备推理能力的自动驾驶系统提供了完整解决方案。该系统包含三大核心组件:Alpamayo 1(100亿参数VLA推理模型)、Physical AI AV数据集(全球最大开放自动驾驶数据集)和AlpaSim仿真平台(开源闭环评估工具)。Alpamayo 1通过Transformer架构实现多模态感知和
本文分享蓝耘元生代平台GPU深度学习训练实战方法,先介绍容器特性与架构,再说明登录及连接步骤,接着阐述PyCharm连接远程服务器流程,最后重启测试验证可用性。
根据 Gartner对全球 CIO 的调查结果显示,人工智能将成为 2019 年组织革命的颠覆性力量。对于人工智能来说,算力即正义,成本即能力,利用 Docker 和 Kubernetes 代表云原生技术为 AI 提供了一种新的工作模式,将 GPU 机器放到统一的资源池进行调度和管理,这避免了GPU 资源利用率低下和人工管理的成本。因此,全球主要的容器集群服务厂商 Kubernetes 都提供了.
2026年初,国产GPU赛道迎来重磅投资:国企混改基金战略入股曦望科技,推动其注册资本从5亿跃升至8.15亿元。作为专注AI推理芯片的差异化玩家,曦望获得近30亿元融资,形成"国资+产业+市场资本"的黄金组合。其技术突破包括采用LPDDR6显存方案,实现推理成本下降90%,并提出"百万Token一分钱"目标。这支融合商汤、AMD、百度基因的团队,正通过混改模式探索国产芯片突围路径,但面临生态建设和
最后,文章重点对比了 PCIe 与 SXM 封装形式及 NVLink 互连方案的优劣,并基于计算能力、内存和互联性能三大维度,为 AI 工程师提供了在不同部署环境下(云端或本地)选择 GPU 的实用决策框架。带宽是另一个关键的性能维度。从大家用来训练 LoRA 适配器的 RTX 3/4/590,到驱动(并仍在驱动)大语言模型集群的 H100,再到专为大规模生成式 AI 训练与推理而进入数据中心的全
个人开发者无需购买昂贵显卡,借助云平台的TensorFlow-v2.9深度学习镜像,几分钟即可启动预配置GPU环境。CUDA、驱动、框架全部就绪,真正实现开箱即用。结合竞价实例和自动关机策略,单次实验成本可低至几元,让每个人都能高效验证AI想法。
面对BERT、ViT等大模型训练需求,选对GPU至关重要。本文从显存带宽、架构特性、ECC支持与真实训练表现出发,对比A100、V100、RTX 4090、L40S和T4的实际效能,揭示影响TensorFlow性能的关键因素。无论是个人开发者还是企业团队,都能找到适配预算与场景的最优解。
春节档是AI应用面临的高峰压力测试时刻,传统云服务扩容慢、成本高、资源不稳定。共绩算力凭借分布式算力网络、秒级弹性扩容、按秒计费和企业级稳定性保障,成功帮助客户在50小时内将算力从200卡扩容至1900卡,承接50万用户并发,成本节省70%。共绩提供容器化部署、智能调度和全托管服务,支持快速迁移和自动扩缩容配置,适用于AIGC、游戏AI、电商推荐等场景。现在注册可享免费体验和多重福利,技术团队全程
GPU监控是算力中心监控体系的核心组成部分,对于保障AI训练、科学计算等高性能计算任务的稳定运行至关重要。实时状态感知:实时掌握GPU设备的工作状态性能优化指导:为性能优化提供数据支持故障预警预防:提前发现潜在故障,减少业务中断资源规划依据:为容量规划提供数据基础成本控制支持:优化GPU资源使用,降低运营成本随着AI和HPC应用的不断发展,GPU监控的重要性将进一步提升。建立专业、全面的GPU监控
英伟达(NVIDIA)的GPU发展史是一部从专用图形处理到通用并行计算,再到如今主导人工智能计算的宏伟史诗。自1999年正式提出“GPU”概念以来,英伟达已推出了十余代核心架构,每一次迭代都深刻地影响了计算机图形学、高性能计算和人工智能的发展轨迹。从最初的图形加速器到如今驱动全球AI革命的计算引擎,英伟达GPU的演进史就是一部不断突破边界、重塑行业的创新史。: 打破图形与计算的边界,通过CUDA平
AI应用春节流量大考:Remy与共绩科技的成功案例揭示算力弹性调度重要性。3D内容平台Remy在华为发布会后遭遇50万用户集中访问,共绩科技通过秒级扩容至1900张GPU卡确保流畅体验。该案例凸显AI企业在节日流量洪峰中面临的算力挑战,以及弹性算力调度系统的关键作用——实现秒级扩缩容、99.99%稳定性,避免资源浪费。共绩科技的"智能算力电网"解决方案,已为5000+团队提供支
全程聚焦 **“是什么 + 怎么干 + 核心区别”**,无复杂操作命令,零基础能理解的实操逻辑和核心认知
自发布以来,NVIDIA 通过持续的软件优化以及与软件合作伙伴和开源社区的紧密协作,不断提升基于 Grace Blackwell 架构的 DGX Spark 的性能。这些举措在推理、训练和创意工作流方面都取得了显著的成效......
在AI算力需求呈现指数级增长的背景下,本文以NVIDIA GPU中的Warp Shuffle指令为例,深入解析了超越通用API、直接进行硬件指令级优化的方法论。通过对阿里巴巴推荐系统性能提升66%的实战案例分析,系统阐述了如何利用Shuffle机制化解海量数据交换的通信瓶颈。针对国产计算芯片的生态挑战,文章更进一步总结了华为昇腾平台从中继到对等,最终实现架构级创新的三阶段迁移路线图与关键技术工具链
nvidia-container-runtime 离线安装1.下载安装包2.docker使用GPU1.下载安装包按照顺序安装dpkg -i libnvidia-container1_1.3.3-1_amd64.debdpkg -i libnvidia-container-tools_1.3.3-1_amd64.debdpkg -i nvidia-container-toolkit_1.4.2-1_
本文整理了NVIDIA、AMD和Intel三大GPU厂商的核心开发文档索引。NVIDIA提供CUDA编程、图形渲染和AI加速等文档;AMD侧重ROCm平台和HIP编程模型;Intel则主推oneAPI工具包和DPC++编程。文档涵盖安装指南、API参考、性能优化等内容,并包含部分中文资源。开发者可根据需求选择对应文档,通过厂商官网和开发者社区获取技术支持和最新信息。
本文系统介绍了内存泄漏检测与内存屏障优化的关键技术。在内存泄漏检测方面,详细解析了Valgrind、AddressSanitizer等工具的使用方法,针对未释放内存、循环引用等常见问题给出了解决方案。在内存屏障优化部分,阐述了各类内存屏障的原理及多线程编程中的应用场景,包括生产者-消费者模型和无锁队列的实现。同时提供了Linux、Windows、Android等平台的优化实践,并通过数据库服务内存
在AI训练的"厨房"里,GPU是高效厨师助手,比CPU快10倍!2026年,英伟达B100成绝对主流,单卡算力飙升。训练300B参数的Qwen3仅需1024张B100,2周搞定(A100需100小时,B100仅30小时,提速3.3倍)。从A100的"普通轿车"升级到B100的"超跑",大模型训练从"慢工出细活"跃变为"快马加鞭"。算力正成为AI时代的"新石油",而GPU正是拧紧地基的那颗螺丝。
Youtu-LLM是一款19.6亿参数的高效大语言模型,具备128k长文本处理能力和原生智能体功能。其在常识推理、STEM、编程等任务上超越同规模模型,并能胜任合同分析、代码调试等专业场景。该模型已上线趋动云平台,支持一键部署,用户可通过GitHub获取资源或观看B站视频教程快速上手。使用后需注意及时关闭环境以避免额外费用。
APC技术,遇到新prompt和老prompt前缀完全相等的,则复用老prompt的KV cache,避免重新计算。3. 只要前面有1个字符不同,后面完全相同的部分,也不能被视为公共前缀。2. prefill公共前缀较长,且decode output较短时,KV cache复用的威力才能发挥出来。则把长文档放到前面,可以复用KV cache。enable_prefix_caching,prompt
Qwen2.5-VL是Qwen家族的旗舰视觉语言模型,相比Qwen2-VL有显著提升。Qwen2.5-VL能够识别常见物体并分析图像中的文本、图表等;作为视觉Agent,具备推理能力;能理解长视频并精准捕捉事件;支持视觉定位和结构化输出。在性能方面,在多个基准测试中表现出色,尤其在文档和图表理解方面优势明显。目前Qwen2.5-VL-7B-Instruct版本已经在趋动云『社区项目』上线,在官网上
本文测试了ComfyUI在Docker环境下于不同NVIDIA GPU上的运行效率,涵盖RTX 3060、3090、4090、A6000及H100,分析显存、算力对SDXL模型推理速度与稳定性的影响,为AI图像生成硬件选型提供数据支持。
本文介绍了利用NVIDIA Nemotron构建的多智能体自我修正RAG系统,用于解决复杂日志分析的挑战。该系统通过混合检索、智能重排序、相关性评分和生成等核心组件,结合多智能体协同工作流,实现了从海量日志中自动提取关键洞察的能力。文章详细阐述了系统架构、关键技术及实现方法,并提供了快速上手指南。该系统能显著提升日志分析效率,将问题诊断时间从数小时缩短到数秒,适用于DevOps、网络安全等多个领域
本文介绍了如何利用NVIDIA Nemotron构建一个多智能体自我修正的RAG系统,用于解决复杂日志分析挑战。系统采用混合检索、智能重排序和相关性评分等技术,通过多智能体协同工作实现日志解析、查询修正和答案生成。文章详细阐述了系统架构、关键组件和实现方法,并提供了快速上手指南。该系统能显著提升日志分析效率,将问题诊断时间从数小时缩短至数秒,为开发运维团队提供有力支持。
GPU
——GPU
联系我们(工作时间:8:30-22:00)
400-660-0108 kefu@csdn.net