logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【LLM大模型组件】注意力机制:Qwen3-Next的架构基石 Gated DeltaNet

维度传统方案价值记忆管理单一机制门控+增量双机制自适应遗忘/更新计算复杂度On2O(n^2)On2OnO(n)On支持100K+上下文真实任务性能次优SOTA适用于工业场景部署成本高极低降低90%+ GPU开销。

文章图片
#人工智能#计算机视觉#自然语言处理 +2
【LLM大模型组件】注意力机制:Qwen3-Next的架构基石 Gated DeltaNet

维度传统方案价值记忆管理单一机制门控+增量双机制自适应遗忘/更新计算复杂度On2O(n^2)On2OnO(n)On支持100K+上下文真实任务性能次优SOTA适用于工业场景部署成本高极低降低90%+ GPU开销。

文章图片
#人工智能#计算机视觉#自然语言处理 +2
MiniMax-M2:国产大模型的又一匹黑马

MiniMax-M2不仅是一款开源大模型,更是对“高效智能体基础设施”的一次重要探索。高性能 Agent 不必依赖千亿甚至万亿级参数,通过架构创新与任务对齐,10B 激活参数足以支撑复杂工作流。

文章图片
#人工智能#计算机视觉#自然语言处理 +1
MiniMax-M2:国产大模型的又一匹黑马

MiniMax-M2不仅是一款开源大模型,更是对“高效智能体基础设施”的一次重要探索。高性能 Agent 不必依赖千亿甚至万亿级参数,通过架构创新与任务对齐,10B 激活参数足以支撑复杂工作流。

文章图片
#人工智能#计算机视觉#自然语言处理 +1
EmbeddingGemma:最强开源轻量嵌入模型,专为端侧AI打造

文章优先发布在,有些文章未来得及同步,可以直接关注公众号查看。

#人工智能#自然语言处理#计算机视觉 +1
【LLM大模型组件】注意力机制:DeepSeek 稀疏注意力机制(DSA)

DeepSeek 稀疏注意力机制(DSA)是一种创新的、由 闪电索引器(Lightning Indexer) 驱动的 动态细粒度稀疏注意力 机制。它将传统自注意力机制的 “选择” 过程与 “计算” 过程解耦,仅对Top-k个最相关的历史词元(Token)进行高精度注意力计算。

文章图片
#人工智能#自然语言处理#计算机视觉 +2
【LLM大模型组件】注意力机制:DeepSeek 稀疏注意力机制(DSA)

DeepSeek 稀疏注意力机制(DSA)是一种创新的、由 闪电索引器(Lightning Indexer) 驱动的 动态细粒度稀疏注意力 机制。它将传统自注意力机制的 “选择” 过程与 “计算” 过程解耦,仅对Top-k个最相关的历史词元(Token)进行高精度注意力计算。

文章图片
#人工智能#自然语言处理#计算机视觉 +2
Gemma 3:轻量、多模态、长上下文、负责任开源的工业级新标杆

Gemma 3 是 Google 首个支持图像理解的轻量级开源大模型,在消费级硬件上实现 128K 长上下文、多语言、强 STEM 能力,27B 版性能媲美 Gemini 1.5 Pro,同时以系统化安全机制保障负责任部署。

文章图片
#算法#人工智能#计算机视觉 +1
Gemma 3:轻量、多模态、长上下文、负责任开源的工业级新标杆

Gemma 3 是 Google 首个支持图像理解的轻量级开源大模型,在消费级硬件上实现 128K 长上下文、多语言、强 STEM 能力,27B 版性能媲美 Gemini 1.5 Pro,同时以系统化安全机制保障负责任部署。

文章图片
#算法#人工智能#计算机视觉 +1
OpenAI被逼无奈的开源模型:GPT-OSS

GPT-OSS-120b 和 GPT-OSS-20b 两款模型采用专家混合(Mixture-of-Experts, MoE)架构的自回归 Transformer,集成了 RoPE、GQA、SwiGLU 和 RMS Norm 等先进技术,并辅以创新的 MXFP4 量化。

文章图片
#人工智能#计算机视觉#自然语言处理 +1
    共 23 条
  • 1
  • 2
  • 3
  • 请选择