
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
维度传统方案价值记忆管理单一机制门控+增量双机制自适应遗忘/更新计算复杂度On2O(n^2)On2OnO(n)On支持100K+上下文真实任务性能次优SOTA适用于工业场景部署成本高极低降低90%+ GPU开销。

维度传统方案价值记忆管理单一机制门控+增量双机制自适应遗忘/更新计算复杂度On2O(n^2)On2OnO(n)On支持100K+上下文真实任务性能次优SOTA适用于工业场景部署成本高极低降低90%+ GPU开销。

MiniMax-M2不仅是一款开源大模型,更是对“高效智能体基础设施”的一次重要探索。高性能 Agent 不必依赖千亿甚至万亿级参数,通过架构创新与任务对齐,10B 激活参数足以支撑复杂工作流。

MiniMax-M2不仅是一款开源大模型,更是对“高效智能体基础设施”的一次重要探索。高性能 Agent 不必依赖千亿甚至万亿级参数,通过架构创新与任务对齐,10B 激活参数足以支撑复杂工作流。

文章优先发布在,有些文章未来得及同步,可以直接关注公众号查看。
DeepSeek 稀疏注意力机制(DSA)是一种创新的、由 闪电索引器(Lightning Indexer) 驱动的 动态细粒度稀疏注意力 机制。它将传统自注意力机制的 “选择” 过程与 “计算” 过程解耦,仅对Top-k个最相关的历史词元(Token)进行高精度注意力计算。

DeepSeek 稀疏注意力机制(DSA)是一种创新的、由 闪电索引器(Lightning Indexer) 驱动的 动态细粒度稀疏注意力 机制。它将传统自注意力机制的 “选择” 过程与 “计算” 过程解耦,仅对Top-k个最相关的历史词元(Token)进行高精度注意力计算。

Gemma 3 是 Google 首个支持图像理解的轻量级开源大模型,在消费级硬件上实现 128K 长上下文、多语言、强 STEM 能力,27B 版性能媲美 Gemini 1.5 Pro,同时以系统化安全机制保障负责任部署。

Gemma 3 是 Google 首个支持图像理解的轻量级开源大模型,在消费级硬件上实现 128K 长上下文、多语言、强 STEM 能力,27B 版性能媲美 Gemini 1.5 Pro,同时以系统化安全机制保障负责任部署。

GPT-OSS-120b 和 GPT-OSS-20b 两款模型采用专家混合(Mixture-of-Experts, MoE)架构的自回归 Transformer,集成了 RoPE、GQA、SwiGLU 和 RMS Norm 等先进技术,并辅以创新的 MXFP4 量化。








