logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

BERT 学习笔记

BERT是Google提出的基于Transformer的双向预训练语言模型。其核心架构包含嵌入层(词嵌入、句段嵌入、位置嵌入)、Transformer编码器(多头注意力机制)和任务适配层。预训练采用掩码语言模型(MLM)和下一句预测(NSP)两个任务:MLM随机遮蔽15%的token进行预测,NSP判断句子关系。模型通过12层编码器将输入转换为768维向量,下游任务可微调输出层处理分类、问答等任务

文章图片
#bert
到底了