logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【大模型的架构】为什么 Decoder-only 能成为主流?

本文介绍了三种主流预训练语言模型架构:因果解码器(Causal Decoder)、非因果解码器(Non-causal Decoder)和编码器-解码器(Encoder-Decoder)。重点分析了因果解码器的四大优势:1)单向注意力机制具有更强的表达能力;2)能更直接利用提示词信息;3)推理效率更高,可利用KV缓存加速;4)能隐式学习词元绝对位置信息。相较其他架构,这些优势使因果解码器成为当前大模

#架构
【大模型的对齐】对齐数据构造

摘要:大模型对齐需确保输出符合人类语言习惯与伦理标准。常见标注方法包括点对点式、列表式和对偶式(Pairwise),后者因简单高效应用最广。数据量要求10K+个prompt用于SFT,100K+用于RLHF。研究表明,AI标注(RLAIF)在某些任务中表现接近甚至优于人工标注(RLHF),可降低标注成本,但人工标注质量仍更高。

#人工智能
【新手教程】如何在Win11上制作一个模仿MacOS的桌面?

如何快速在windows11中创建模仿MacOS风格的桌面。

文章图片
#windows
到底了