logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

从 0 到 1:6 台 DGX Spark 跑满血 MiniMax-M2.5给OpenClaw使用

本文探讨了在多机部署230B大模型MiniMax-M2.5的工程实践,重点解决了三个核心挑战:并行切分、流量路由和内存控制。通过采用三组TP=2的Worker集群结合SGLang Model Gateway的缓存感知路由,有效避免了传统轮询代理导致的缓存穿透问题。架构类比餐厅运营,强调复用历史对话的"锅底"以提升长对话性能。实验证明该方案能显著降低首字延迟,在6台NVIDIA

NVIDIA DGX Spark (Blackwell GB10) 双机 196B Step 3.5 Flash 大模型部署完整实录

本文详细介绍了在NVIDIA DGX Spark集群上部署196B参数大模型的架构设计与实现方案。采用两台主机通过高速网卡直连组成Ray集群,使用流水线并行(PP=2)拆分模型。重点解决了GB10统一内存架构的特殊性、ConnectX-7网络带宽的实际限制,以及软件栈适配中的关键技术难题。特别针对vLLM在跨节点Ray PP场景下的多个严重Bug进行了源码级修复,包括Placement Group

文章图片
#spark#分布式
实战:在 NVIDIA Blackwell GB10 上部署 GPT-OSS 120B (MXFP4) 全流程避坑指南

摘要: 本文详细介绍了在NVIDIA Blackwell架构(GB10/B200)上部署GPT-OSS 120B大模型的实战经验。针对环境构建中的NumPy版本ABI冲突、Python多进程CUDA死锁及OpenAI Harmony词表下载失败等核心问题,提供了具体解决方案,包括强制降级NumPy版本、手动构建词表缓存及调整多进程启动模式。最终通过源码编译vLLM并启用MXFP4量化与FP8 KV

文章图片
MediaPipe LLM Inference:在WEB浏览器中“裸跑”大语言模型

介绍如何基于Google MediaPipe框架,利用WebGPU在浏览器端直接运行Gemma 2/Gemma 3等轻量级大模型,无需后端服务器和API成本。通过MediaPipe的LLM Inference API结合WebGPU和LiteRT模型格式,开发者可在前端实现隐私安全、低延迟的AI推理功能。文章详细解析了核心原理(WebGPU算力调度、WASM运行时、流式响应机制)、硬件要求(2GB

#前端#语言模型#人工智能
从 0 到 1:6 台 DGX Spark 跑满血 MiniMax-M2.5给OpenClaw使用

本文探讨了在多机部署230B大模型MiniMax-M2.5的工程实践,重点解决了三个核心挑战:并行切分、流量路由和内存控制。通过采用三组TP=2的Worker集群结合SGLang Model Gateway的缓存感知路由,有效避免了传统轮询代理导致的缓存穿透问题。架构类比餐厅运营,强调复用历史对话的"锅底"以提升长对话性能。实验证明该方案能显著降低首字延迟,在6台NVIDIA

OpenClaw + OpenViking全链路本地化记忆管理

随着大型语言模型 (LLM) 的普及,隐私保护和长期记忆能力成为个人 AI 助理(Personal Agent)发展的关键瓶颈。如果将所有对话历史和私有文档都通过 API 上传给云端模型,不仅存在隐私风险,还会带来高昂的 API 调用成本。本文将分享一套零隐私泄漏、全链路本地化推理与存储的 AI Agent 架构最佳实践。

文章图片
从 0 到 1:6 台 DGX Spark 跑满血 MiniMax-M2.5给OpenClaw使用

本文探讨了在多机部署230B大模型MiniMax-M2.5的工程实践,重点解决了三个核心挑战:并行切分、流量路由和内存控制。通过采用三组TP=2的Worker集群结合SGLang Model Gateway的缓存感知路由,有效避免了传统轮询代理导致的缓存穿透问题。架构类比餐厅运营,强调复用历史对话的"锅底"以提升长对话性能。实验证明该方案能显著降低首字延迟,在6台NVIDIA

OpenClaw + OpenViking全链路本地化记忆管理

随着大型语言模型 (LLM) 的普及,隐私保护和长期记忆能力成为个人 AI 助理(Personal Agent)发展的关键瓶颈。如果将所有对话历史和私有文档都通过 API 上传给云端模型,不仅存在隐私风险,还会带来高昂的 API 调用成本。本文将分享一套零隐私泄漏、全链路本地化推理与存储的 AI Agent 架构最佳实践。

文章图片
Openclaw无限免费使用本地MiniMax-M2.5-NVFP4 模型

Openclaw配置参考:结果展示:DGX Spark 搭载的 GB10 GPU 计算能力为 SM121 (compute capability 12.1),这与数据中心级 Blackwell GPU (SM100) 有本质区别:这意味着大量 ML 库的预编译二进制文件不能直接在 DGX Spark 上运行,必须从源码编译。NVIDIA 官方提供了Docker 镜像,但:Tensor Parall

文章图片
Openclaw无限免费使用本地MiniMax-M2.5-NVFP4 模型

Openclaw配置参考:结果展示:DGX Spark 搭载的 GB10 GPU 计算能力为 SM121 (compute capability 12.1),这与数据中心级 Blackwell GPU (SM100) 有本质区别:这意味着大量 ML 库的预编译二进制文件不能直接在 DGX Spark 上运行,必须从源码编译。NVIDIA 官方提供了Docker 镜像,但:Tensor Parall

文章图片
    共 41 条
  • 1
  • 2
  • 3
  • 4
  • 5
  • 请选择