
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
零基础解读MiniMind代码:基座模型全解析
本文详细解读了MiniMind项目的基座模型代码model_minimind.py。该文件实现了一个小型语言模型MiniMind,包含配置类、RMSNorm归一化、RoPE位置编码、注意力机制、前馈网络、MoE混合专家系统等核心组件。文章从零开始逐步解析了287行代码的每个模块,包括: 配置类定义模型超参数 RMSNorm作为高效归一化层 RoPE位置编码实现位置感知 注意力机制支持GQA和Fla
到底了







