从丿从日，避体者个人主页

@qq_51448765

从丿从日，避体者

2023-07-26 10:22:11 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

从层状稠密 Transformer 到基于微模块动态图路由的认知架构

当前主流大模型大多建立在层状堆叠的 Transformer 结构之上，其核心计算范式依赖全局注意力机制与稠密前馈网络。该范式在大规模预训练中取得了显著成功，但也暴露出三个逐渐加剧的问题：第一，计算路径固定，所有输入通常共享相似的层级流动方式，难以根据任务复杂度动态调整计算深度；第二，网络结构同构化严重，参数规模持续扩大，但结构层面的功能分化不足，导致模型在许多场景中呈现“参数增加但有效能力增益递减

#transformer #架构 #深度学习

到底了