
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
Training Language Models to Follow Instructions with Human Feedback论文阅读
最终得到的模型被命名为InstructGPT。FLAN(Wei等人,2021)和T0(Sanh等人,2021)等工作通过在广泛公开NLP数据集上微调语言模型(通常在每个任务前添加自然语言指令),并在不同的任务集上进行评估。正如论文在讨论中所强调的,对齐研究的目标是找到通用且可扩展的方法——不仅适用于今天的语言模型,也适用于未来的、能力更强的AI系统。在人类评估中,仅有1.3B参数的Instruct
Minimind-训练过程(暂时使用kaggle)
Minimind 是一个“小”语言模型,系统较为轻量,主线最小版本体积约为GPT-3的1/2700。完整的模型同时开源了大模型的极简结构与完整训练链路,覆盖 MoE、数据清洗、预训练(Pretrain)、监督微调(SFT)、LoRA、RLHF(DPO)、RLAIF(PPO / GRPO / CISPO)、Tool Use、Agentic RL、自适应思考与模型蒸馏等全过程代码。从该模型中可以初步感
《Attention Is All You Need》阅读笔记
在如今的神经网络中,我们大量讨论的莫过于Transformer架构,这个2017年由《Attention Is All You Need》带来的变革之作。在这篇具有突破意义的论文中首次提出了Transformer这种神经网络架构,其完全基于注意力机制,摒弃了传统的卷积操作。在自注意力机制下,Transformer能够有效捕捉输入序列中的长距离依赖关系,使得模型在处理长文本时更为高效和准确。而Tra
到底了







