logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

强化学习笔记4:强化学习分类

1 model-free & model-based我们可以将所有强化学习的方法分为model-free和model-based,即理不理解所处环境。如果我们不尝试去理解环境, 环境给了我们什么就是什么.。我们就把这种方法叫做 model-free, 这里的 model 就是用模型来表示环境。如果一种强化学习算法理解了环境,那么这种强化学习算法就学会了用一个模型来代表环境, 这种强化学习就

#python
强化学习笔记:马尔可夫决策过程 Markov Decision Process(MDP)

1 MDP介绍相比于马尔可夫奖励过程,马尔可夫决策过程就过了一个decision,其他的定义和马尔科夫奖励过程类似的。MRP见:强化学习笔记:马尔可夫过程 &马尔可夫奖励过程_UQI-LIUWJ的博客-CSDN博客MDP里多了一个决策,多了一个动作。状态转移也多了一个条件,变成了。采取某一种动作,未来的状态会不同。未来的状态不仅是依赖于你当前的状态,也依赖于在当前状态 agent 采取的这

#深度学习#html
论文略读:Surge Phenomenon in Optimal Learning Rate and Batch Size Scaling

研究表明,使用SGD类优化器时存在关键参数B_noise和ε_max:B_noise是训练稳定性变化的临界batch大小,ε_max为最大稳定学习率。当batch大小(B)远小于B_noise时,增大batch可显著提升稳定性;但当B超过B_noise后继续增大batch只会浪费资源。学习率调整应遵循噪声主导原则:B较小时近似"batch×10,学习率×10";B接近B_noi

#batch#人工智能#开发语言
论文略读:PEARL: Towards Permutation-Resilient LLMs

现有的防御方法主要依赖于后处理,未能从根本上增强模型对输入顺序变化的鲁棒性,从而引发了对 LLM 安全性与可靠性的担忧。在合成预训练任务与真实世界的指令微调任务上的实验结果显示,PEARL 能有效缓解排列攻击,并提升模型表现。,一种基于**分布式鲁棒优化(DRO)**的新颖训练框架,旨在使模型对最不利的输入排列也能保持良好性能。下,P-Net 与 LLM 彼此对抗、共同优化,从而逐步增强模型对顺序

#人工智能
    共 410 条
  • 1
  • 2
  • 3
  • 41
  • 请选择