logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

从层状稠密 Transformer 到基于微模块动态图路由的认知架构

当前主流大模型大多建立在层状堆叠的 Transformer 结构之上,其核心计算范式依赖全局注意力机制与稠密前馈网络。该范式在大规模预训练中取得了显著成功,但也暴露出三个逐渐加剧的问题:第一,计算路径固定,所有输入通常共享相似的层级流动方式,难以根据任务复杂度动态调整计算深度;第二,网络结构同构化严重,参数规模持续扩大,但结构层面的功能分化不足,导致模型在许多场景中呈现“参数增加但有效能力增益递减

#transformer#架构#深度学习
到底了