logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

从0开始实现语言模型完成生成任务(bigram language model,neural network,MLP,BatchNorm,kaiming init,waveNet)

本文详细记录了从零构建神经网络语言模型生成英文名字的进阶之路:从基础的二元语法统计起步,逐步演进至包含 Embedding 层的 MLP,并通过 Kaiming 初始化与批归一化优化训练,最终实现 WaveNet 架构以捕捉长序列依赖。文章通过监控激活值与梯度分布的可视化手段,深入解析了模型从简单概率统计到深度特征提取的工程实践与数学原理。

#语言模型#人工智能#自然语言处理 +3
到底了