weixin_668 个人主页

@weixin_69334636

weixin_668

2022-12-18 22:18:52 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

在DGX-Spark上多模态模型gemma-4-31B-it vLLM部署

显存优化fp8量化 + 70% 显存限制 + 分块预填充，适合大模型部署性能优化：前缀缓存 + SafeTensors 格式，提升重复查询和加载速度功能特性：支持工具调用（Tool Calling）和思维链解析，适配 Gemma 4 原生能力长上下文：26万 token 支持，适合长文档处理。

DGX-spark上成功部署Voxtral-Mini-4B-Realtime-2602支持realtime ws接口

模型接口类型是否真实时vLLM 支持状态WebSocket✅ 原生流式Day 0 支持（2026.02）Qwen3-ASRHTTP❌ 不支持ws流式2026.02 已合并Whisper 系列HTTP❌ 批量处理稳定支持HTTP (vllm-asr 扩展)❌ 长音频单遍需额外工具。

#python #开发语言

Claude Code 深度技术研究报告 - AI 分析分享

2026年3月31日，Anthropic 发布 @anthropic-ai/claude-code v2.1.88 时，意外将 59.8MB 的 JavaScript Source Map 文件（cli.js.map）包含在 npm 包中，导致约 512,000 行 TypeScript 源代码完全公开。行动前必须将内存与实际代码核对，减少幻觉。这是 Anthropic 的第二次源码泄漏：仅5天前

#人工智能 #开源

关于 ASR 实时推理与部署的深度调研报告-AI分析

以下是关于的深度调研报告，覆盖架构选型、工程优化、服务框架到延迟基准的全链路分析。

#人工智能

NVIDIA NeMo Guardrails 度技术调研报告-AI分析

NVIDIA NeMoGuardrails技术报告摘要（2026） NeMoGuardrails已从开源框架演进为企业级AI安全平台，提供五层护栏机制（输入/对话/检索/执行/输出）和Colang领域专用语言。核心优势包括：深度整合NVIDIA生态（NIM微服务/Nemotron模型/GPU加速）业界领先的对话流管控能力支持多智能体安全编排技术亮点：并行护栏引擎将延迟控制在50-150m

#人工智能

NVIDIA NeMo Guardrails 度技术调研报告-AI分析

#人工智能

NVIDIA NeMo Guardrails 度技术调研报告-AI分析

#人工智能

NVIDIA VSSVideo Search and Summarization视频搜索与摘要蓝图详尽使用说明与技术报告版本

NVIDIA VSS视频搜索与摘要系统技术摘要 NVIDIA VSS(Video Search and Summarization)是基于NVIDIA Metropolis平台的AI视频分析解决方案，最新版本为VSS2.4(2026年4月)。该系统融合生成式AI、视觉语言模型(VLM)和大语言模型(LLM)技术，提供以下核心功能：核心技术视频摘要速度比人工快100倍，1小时视频可在1分钟内完成

#音视频 #人工智能

NVIDIA VSSVideo Search and Summarization视频搜索与摘要蓝图详尽使用说明与技术报告版本

#音视频 #人工智能

NVIDIA的 Cosmos-Embed1-448p 终于在 DGX Spark 上部署成功

摘要：本文详细介绍了在NVIDIA DGXSpark（GB10，aarch64）平台上成功部署Cosmos-Embed1-448p模型容器的完整流程。关键步骤包括：配置NGC API Key、拉取nvcr.io/nvidia/vss-core/vss-rt-embed:3.1.0镜像、安装DeepStream 7.1依赖库、提取容器内关键文件并设置持久化存储。部署时需注意显存占用约15-20GB（

#人工智能

共 53 条

请选择