logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

2.8 策略梯度(Policy Gradient)算法 与 Actor-critic算法

考虑一个简单情境:一个机器人每步都要走路(动作:左/右),环境有随机风,导致同样的动作序列也可能得到不同回报。一次 episode 冒险成功,后续回报很高,导致这条轨迹中所有出现过的“冒险动作”都被大幅提升概率;的梯度在策略分布下的期望为 0,因此减去与动作无关的项不改变梯度期望,但可以显著减少方差。这相当于只在“比预期好/差”的部分推动策略,而不是让整条轨迹的随机性把梯度带飞。策略学习的目标是最

#算法#深度学习#人工智能 +2
2.7 强化学习分类

强化学习(Reinforcement Learning, RL)研究的是:智能体(Agent)在环境(Environment)中通过交互学习策略(Policy),以最大化长期累计回报(Return)。它们共同把传统 Q-learning 从“小状态空间的表格算法”推进到“可处理高维状态(如图像)的深度学习算法”,使得强化学习第一次在复杂感知输入的任务上获得可规模化的成功。你看高手的比赛录像学习(行

#分类#数据挖掘#人工智能 +3
2.4 贝尔曼方程与蒙特卡洛方法

在马尔可夫决策过程(MDP)中,一个智能体在时间步 ttt 处于状态 St=sS_t=sSt​=s,选择动作 At=aA_t=aAt​=a,获得即时奖励 RtR_tRt​(或写作 r(s,a)r(s,a)r(s,a)),并以转移概率 p(s′∣s,a)p(s'|s,a)p(s′∣s,a) 到达下一状态 St+1=s′S_{t+1}=s'St+1​=s′。策略 π(a∣s)\pi(a|s)π(a∣s

#机器学习#人工智能#深度学习 +2
3.1 预训练流程

*BPE(Byte Pair Encoding)**的核心思想:从一个初始的基本单位集合出发(通常是字符或字节),不断合并最常见的相邻 token 对,直到达到词表大小上限。如果业务场景明确(例如医疗、金融、法律、工业制造),可以把高频且语义稳定的专业词汇优先进入词表,以减少拆分带来的序列膨胀,并提升模型对专业词的稳定表征能力。同时,预训练阶段一般不优先使用以“训练灵活性”为主的通用框架来替代高度

#深度学习#人工智能#python +1
2.2 数据多样性与数据配比以及实际垂域经验

数据多样性(Data Diversity)贯穿大模型建设的全流程:预训练、继续预训练(Continue Pretraining)、SFT(Supervised Fine-Tuning)、以及后续的偏好优化或强化学习阶段。一个常见误区是:只追求“更多数据”。实践中,在对齐/指令微调阶段往往更有效。典型代表是 “Less is More” 思路(如 LIMA),以及“只需要极少比例数据即可达到接近效果

#机器学习#人工智能
6.1 大模型结构:从 Transformer 到 MoE

每次前向推理会激活全部参数。典型的 Transformer 就是 Dense:每层的注意力与 FFN 都对所有 token 执行同样的计算路径。

#transformer#深度学习#人工智能
2.1 强化学习基础(概念、流程、目标)

强化学习(Reinforcement Learning, RL)是一种机器学习方法,它通过来学习如何采取最优行为,从而最大化长期累积奖励。与有监督学习不同,强化学习不仅关注预测,还强调决策与反馈循环。

#人工智能#深度学习#机器学习 +1
1.7 大模型监督微调(SFT)训练策略

上一节介绍了SFT训练参数的常见设置,本节涵盖四种常见的 SFT 训练策略与多轮对话(multi-turn)专项提升的数据与损失函数(loss)设计。

#人工智能#机器学习#深度学习
到底了