登录社区云,与社区用户共同成长
邀请您加入社区
问:这些显存调优方法你平时怎么落地操作?量化:优先离线把模型转成 INT4-AWQ 权重,vLLM/TRT-LLM 启动时指定量化参数,直接降低基础显存占用;H100/H200 会开启 FP8。KV Cache:严格配置限制上下文,设置在 0.7~0.85 预留空间,多卡场景用张量并行自动分片 KV。超大模型:34B/70B 采用 TP/PP 多卡并行拆分权重,突破单卡显存上限。泄漏与碎片:日常用
6月12日,MiniMax新一代原生多模态旗舰模型 M3正式开源。同日,摩尔线程旗舰级AI训推一体智算卡MTT S5000已完成对该模型的Day-0极速适配。这是国产大模型与国产算力芯片完成适配的又一例证,也彰显了摩尔线程凭借原生FP8算力底座与高效MUSA软件生态,对前沿大模型需求的即时响应与稳定支撑能力。
6月12日,作为国内领先的国产全功能GPU企业,摩尔线程深度参与第八届北京智源大会,多位技术专家在多个论坛及Open Talk环节发表演讲,系统呈现覆盖“云-边-端”的软硬协同全栈创新成果。
Falcon H1R 7B —— 一款由阿联酋阿布扎比技术与创新研究院(Technology Innovation Institute, TII)研发的纯解码器(decoder-only)大语言模型。该模型在 Falcon-H1 基础模型这一坚实底座之上构建,实现了推理能力的重大飞跃。
国产AI生态发展迅速,企业关注点已从硬件选型转向实际部署能力。当前主流国产开源模型(DeepSeek、Qwen等)和推理框架(vLLM、LMDeploy等)已完成初步适配,RAG知识库系统已具备成熟落地条件。文章剖析了企业AI系统的全栈层级,指出软件生态兼容性比硬件参数更关键,并揭示部署中最易踩的三个坑:忽视软件兼容性、未做性能验证、忽略运维体系。目前国产AI在知识库等场景已无障碍,但Agent等
近日,摩尔线程正式发布并开源面向GPU底层算子生成的专用代码大模型MusaCoder。这是业内首个基于国产GPU算力底座完成全链路训练与验证的开源代码大模型,其完整后训练流程均在基于MTT S5000构建的夸娥智算集群上完成。
近日,北京大学EvoPhys团队推出以“人”为中心、面向“场景级万物可控”的5D世界模型 EvoPhys-World。这一前沿研究成果,在斯坦福大学WorldScore公开评测榜单中,荣登“世界生成(World Generation)”赛道第一名。而EvoPhys的原生训练全程都在摩尔线程MTT S5000全功能GPU上完成,并由MUSA软件栈提供全栈支撑。
所谓 Mailbox,是指 GPU 内部集成了一组专用于跨设备握手的 Mailbox Control Registers。真正的业务数据仍走标准 PCIe Transaction Layer Packet(TLP),不会在宽度仅为 32-bit 级别的 Mailbox Regs 上逐片搬运。
OrionX社区版发布:轻量级AI算力池化解决方案助力企业降本增效 摘要:OrionX社区版推出轻量级AI算力资源池化方案,解决企业GPU利用率低、运维复杂等痛点。该方案支持算力与显存独立切分及超分技术,单卡可并行多任务,提升资源利用率300%以上;具备智能调度系统实现资源自动分配回收;提供可视化监控和开放API接口,简化运维并支持二次开发。产品部署简便,兼容主流硬件和CUDA应用,适用于各类规模
CPU是通才,GPU是并行计算专家(训练主力),TPU是Google的机器学习专用芯片,NPU是端侧AI推理的省电小能手。训练大模型看 GPU/TPU,手机本地AI看 NPU,日常通用任务看 CPU。
英伟达在2026年GTC大会上发布多项重磅技术,宣告智能体(Agent)驱动的新计算时代到来。CEO黄仁勋在台北主场推出Vera Rubin超级计算平台、专为智能体设计的Vera CPU,以及重塑PC概念的RTX Spark设备。其中,Vera Rubin采用3纳米工艺和极速组装技术,Vera CPU突破传统架构实现超高单线程性能,RTX Spark则首次将本地化AI助手融入个人电脑。大会还展示了
FPGA工控机在AI加速领域的独特优势 相比NPU和GPU,FPGA工控机在特殊AI应用场景中展现出不可替代的价值。其核心优势包括:微秒级超低延迟、高度可编程性、卓越并行计算能力(数千操作并行)、超低功耗(几瓦至几十瓦)以及10年以上的长期可用性。典型应用场景涵盖:高速通信信号处理(如5G信号分析)、实时控制系统(自动驾驶)、硬件加密、定制化AI算法及边缘计算等。选型需重点考虑FPGA资源、接口速
metadata:spec:amiFamily: Bottlerocket # 安全精简 OS,GPU 驱动内置- deviceName: /dev/xvda # 系统盘ebs:- deviceName: /dev/xvdb # 模型数据盘(从 Snapshot 恢复)ebs:snapshotID: snap-0xxxxxxxxxx # ⚡ 预加载模型权重的快照httpTokens: requir
GPU之外,立讯精密想吃下AI数据中心的"连接生意"
近日,摩尔线程正式开源AI智能体框架MTClaw,一款面向桌面控制场景的AI智能体加速方案。实测表明,MTClaw可将智能体单次任务执行速度提升约7倍、成功率可达100%。目前,MTClaw的完整代码、评测数据与配套插件已开放至摩尔线程GitHub官方仓库与OpenClaw官方插件市场ClawHub。
在当今深度学习高速发展的背景下,GPU作为核心计算单元的重要性不言而喻。它以其强大的并行计算能力、高内存带宽以及针对深度学习优化的生态系统,在众多应用领域扮演着不可或缺的角色。通过加速训练过程、支持复杂模型、处理大规模数据、实现高效的分布式训练,GPU已成为研究人员和工程师实现深度学习突破的强大助力。随着硬件及算法的不断优化,尤其是异构计算架构的兴起,GPU的性能将持续提升,推动深度学习技术走向更
贯穿整个GDR技术演进的核心挑战始终如一:如何安全、高效地将应用程序层面使用的GPU虚拟地址,转换为一组RDMA网卡DMA引擎能够理解并直接使用的物理地址(或总线地址)。无论的回调机制,还是dma-buf的操作,本质上都是在解决这一关键的地址翻译问题,因此,GPU驱动中如何高效组织和管理进程使用设备内存是需要好好考量的要点。
GPU
——GPU
联系我们(工作时间:8:30-22:00)
400-660-0108 kefu@csdn.net