山月不知. 个人主页

@m0_64916256

山月不知.

2024-05-07 22:25:46 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

大模型训练中涉及到的数据格式（Alpaca、ShareGPT、RM等）

大规模语言模型（LLM）开发中，数据格式根据应用场景分为三类：预训练数据（如jsonl/txt格式的纯文本）、监督微调数据（如Alpaca指令格式和ShareGPT多轮对话格式），以及强化学习数据（含奖励模型训练的对比较数据和DPO对比学习数据）。不同格式服务于模型训练的不同阶段，从基础语言学习到任务微调再到人类偏好对齐，各自具有独特的结构特点和适用场景。选择合适的数据格式对提升模型性能至关重要。

#人工智能 #机器学习

[大模型微调]1.一文全面了解大模型微调

在微调过程中，仅有适配器的参数会根据金融领域的数据进行更新，使得模型更好地适应金融报告的写作风格和术语，同时避免对整个模型架构进行大幅度调整。训练时只更新这些适配器，而原始模型参数保持不变；在预训练的基座模型上，把所有参数都解冻，用“指令-输入 → 输出”格式的数据（SFT 数据）进行监督训练，使模型在“听懂并执行自然语言指令”这一能力上达到更高水平。适配器调整的方法，在模型的每个层或选定层（通常

#深度学习 #人工智能

大模型训练中涉及到的数据格式（Alpaca、ShareGPT、RM等）

#人工智能 #机器学习

【大模型微调】2.全指令微调

摘要：监督微调（SFT）通过解冻预训练基座模型参数，使用指令-输出格式数据提升模型执行自然语言指令的能力，目标是打造更一致的AI助手。关键步骤包括：1）高质量数据准备（格式统一、去重脱敏）；2）采用最大似然训练目标，通过因果掩码和右移输入确保模型仅预测输出；3）优化训练流程（动态批处理、混合精度等）；4）通过混合通用数据和小学习率避免灾难性遗忘；5）后续可接RLHF进一步优化。评估需结合自动指标与

#深度学习 #人工智能 #机器学习

[大模型微调]1.一文全面了解大模型微调

#深度学习 #人工智能

大模型训练中涉及到的数据格式（Alpaca、ShareGPT、RM等）

大模型训练中涉及到的数据格式（Alpaca、ShareGPT、RM等）

#人工智能 #机器学习

到底了