
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
考虑一个简单情境:一个机器人每步都要走路(动作:左/右),环境有随机风,导致同样的动作序列也可能得到不同回报。一次 episode 冒险成功,后续回报很高,导致这条轨迹中所有出现过的“冒险动作”都被大幅提升概率;的梯度在策略分布下的期望为 0,因此减去与动作无关的项不改变梯度期望,但可以显著减少方差。这相当于只在“比预期好/差”的部分推动策略,而不是让整条轨迹的随机性把梯度带飞。策略学习的目标是最
强化学习(Reinforcement Learning, RL)研究的是:智能体(Agent)在环境(Environment)中通过交互学习策略(Policy),以最大化长期累计回报(Return)。它们共同把传统 Q-learning 从“小状态空间的表格算法”推进到“可处理高维状态(如图像)的深度学习算法”,使得强化学习第一次在复杂感知输入的任务上获得可规模化的成功。你看高手的比赛录像学习(行
在马尔可夫决策过程(MDP)中,一个智能体在时间步 ttt 处于状态 St=sS_t=sSt=s,选择动作 At=aA_t=aAt=a,获得即时奖励 RtR_tRt(或写作 r(s,a)r(s,a)r(s,a)),并以转移概率 p(s′∣s,a)p(s'|s,a)p(s′∣s,a) 到达下一状态 St+1=s′S_{t+1}=s'St+1=s′。策略 π(a∣s)\pi(a|s)π(a∣s
*BPE(Byte Pair Encoding)**的核心思想:从一个初始的基本单位集合出发(通常是字符或字节),不断合并最常见的相邻 token 对,直到达到词表大小上限。如果业务场景明确(例如医疗、金融、法律、工业制造),可以把高频且语义稳定的专业词汇优先进入词表,以减少拆分带来的序列膨胀,并提升模型对专业词的稳定表征能力。同时,预训练阶段一般不优先使用以“训练灵活性”为主的通用框架来替代高度
数据多样性(Data Diversity)贯穿大模型建设的全流程:预训练、继续预训练(Continue Pretraining)、SFT(Supervised Fine-Tuning)、以及后续的偏好优化或强化学习阶段。一个常见误区是:只追求“更多数据”。实践中,在对齐/指令微调阶段往往更有效。典型代表是 “Less is More” 思路(如 LIMA),以及“只需要极少比例数据即可达到接近效果
每次前向推理会激活全部参数。典型的 Transformer 就是 Dense:每层的注意力与 FFN 都对所有 token 执行同样的计算路径。
强化学习(Reinforcement Learning, RL)是一种机器学习方法,它通过来学习如何采取最优行为,从而最大化长期累积奖励。与有监督学习不同,强化学习不仅关注预测,还强调决策与反馈循环。
上一节介绍了SFT训练参数的常见设置,本节涵盖四种常见的 SFT 训练策略与多轮对话(multi-turn)专项提升的数据与损失函数(loss)设计。







