
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
从层状稠密 Transformer 到基于微模块动态图路由的认知架构
当前主流大模型大多建立在层状堆叠的 Transformer 结构之上,其核心计算范式依赖全局注意力机制与稠密前馈网络。该范式在大规模预训练中取得了显著成功,但也暴露出三个逐渐加剧的问题:第一,计算路径固定,所有输入通常共享相似的层级流动方式,难以根据任务复杂度动态调整计算深度;第二,网络结构同构化严重,参数规模持续扩大,但结构层面的功能分化不足,导致模型在许多场景中呈现“参数增加但有效能力增益递减
到底了







