logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

从零理解 MoE(Mixture of Experts)混合专家:原理、数学、稀疏性、专家数量影响与手写 PyTorch 实现

MoE,全称Mixture of Experts,混合专家模型。不再让所有 token 都经过同一个 FFN;而是准备多个“专家网络”(Experts);对于每个 token,只激活其中少数几个 expert 来处理。总参数量可以非常大,因为 expert 可以很多;单次前向计算量不一定跟着线性变大,因为每个 token 只走 top-k 个 expert,而不是走全部 expert。传统 FFN

#人工智能#python#数学 +2
Titans部分翻译

在过去十多年里,研究界一直在探索如何更有效地利用循环模型与注意力机制。循环模型试图将数据压缩到固定大小的记忆中(即隐藏状态),而注意力机制允许模型关注整个上下文窗口,从而捕获所有 token 之间的直接依赖关系。然而,这种更精确的依赖建模需要二次复杂度,因此模型只能处理固定长度的上下文。本文提出了一种新的神经长时记忆模块,它能够学习记忆历史上下文,并帮助注意力在关注当前上下文的同时利用久远过去的信

#transformer
Python手写MCP基础协议

目标读者:没有 MCP 基础,但会一点 Python。

#python#开发语言#visual studio +2
AMap_MCP_Bug_Blog

更新时间:2026-02-28环境:Windows + Conda(Ema。

#bug#python
EmaAgent

持续更新的智能体

文章图片
#python#人工智能#fastapi +1
OpenManus详解之 LLM.py

特别是在与 LLM(大语言模型)交互的时候,经常会遇到临时性的网络波动、超时、服务器繁忙等问题,这时候自动重试可以显著提升稳定性。把各种乱七八糟的消息格式(字典、对象、带图片的、不带图片的),统一整理成 OpenAI 接口能听懂的标准格式。调用一个可能会失败的方法(比如访问远程 API)时,这个装饰器会在出错后自动尝试重新执行,而不是立刻报错退出。如果没有单例机制,这两个 llm_a 和 llm_

#python#vscode#nlp +2
OpenManus详解之 LLM.py 的TokenCounter类

它的作用是:精确估算一条消息在调用大模型(如 GPT-4o、Claude)时会消耗多少 tokens。

#python#人工智能#nlp
    共 13 条
  • 1
  • 2
  • 请选择