还有你Y 个人主页

@qq_45889056

还有你Y

2023-03-13 18:03:42 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

Agentic RL in Agent——Search-R1 与Memory-R1详解

摘要： SEARCH-R1与Memory-R1通过强化学习（RL）推动智能体自主能力进化。SEARCH-R1实现"边思考边检索"，模型自主决策检索时机与策略，结合效率奖励优化多轮搜索-推理流程。Memory-R1构建动态长时记忆系统，通过RL联合优化记忆管理（增删改）与回答生成，实现跨会话经验积累。两者互补：前者增强外部知识获取，后者提升内部记忆复用。其RL框架突破了监督学习的

#算法 #人工智能

强化学习DRL--价值学习（DQN、SARSA算法）

Q⋆Qsa;wQ∗sa。

#算法 #机器学习

强化学习DRL--策略学习（Actor-Critic）

策略学习的意思是通过求解一个优化问题，学出最优策略函数πa∣s或它的近似函数（比如策略网络）。

#学习 #深度学习 #神经网络

强化学习DRL--价值学习（DQN、SARSA算法）

Q⋆Qsa;wQ∗sa。

#算法 #机器学习

强化学习嵌入Transformer（代码实践）

在强化学习任务中，特别是在策略梯度方法中，通常不需要一个完整的Transformer模型，包括Encoder和Decoder。因此，我们可以只使用Transformer的Encoder部分，将状态作为输入，经过编码后得到一个表示状态的向量，然后将这个向量传递给策略网络（或者Critic网络）来进行动作选择或值函数估计。使用Transformer的Encoder部分可以有效地处理状态的变长输入，并且

#transformer #深度学习 #人工智能

自注意力机制和transformer

计算attention score，然后通过Soft-max层归一化（其他激活函数也行）；下一步是进一步从attention score提取信息，得到考虑了所有上下文的向量：再来看看矩阵运算的过程：计算attention score的过程：总结：只有矩阵qkv需要从学习训练得到。

#transformer #深度学习 #人工智能

PPO算法（附pytorch代码）

PPO算法是一种强化学习中的策略梯度方法，它的全称是Proximal Policy Optimization，即近端策略优化1。PPO算法的目标是在与环境交互采样数据后，使用随机梯度上升优化一个“替代”目标函数，从而改进策略。PPO算法的特点是可以进行多次的小批量更新，而不是像标准的策略梯度方法那样每个数据样本只进行一次梯度更新12。PPO算法有两种主要的变体：PPO-Penalty和PPO-Cl

#算法 #机器学习 #人工智能

信道均衡理论

什么是均衡？在得到的Y[n]当中，存在符号间干扰和噪声。在通信当中，把符号间干扰去掉的技术叫作均衡( equalization)。横向抽头滤波器图中x(t)为存在符号间干扰的模拟基带信号,y(t)是经过均衡后的信号，符号间干扰被大大降低。离散线性系统将H写成列向量的形式：很容易看出，y=Hx+z即表达出卷积运算。y=Ax+z:上面A即为得到的信道矩阵，yHx。注意一个细节，要得到x的解，就是解方程

#matlab #算法

latex的图总是在最后一页

因为有两个图（都是跨栏），都需要放在一页的top，但第一个图在top之后，第二张图就直接被挤到了新的一页。

瑞利衰落信道仿真（Python）

的情况下，实际上是指 ( h ) 的实部和虚部分别独立地服从高斯分布 ( \mathcal{N}(0,1/2) )，因为复高斯分布的功率归一化到1。瑞利衰落信道模型通常用于描述多径效应下的信号衰落，其中衰落系数 ( h ) 是复数，并且其幅度服从瑞利分布，相位服从均匀分布。这是因为复数 ( h ) 的功率是实部和虚部平方和的一半，即 ()，所以需要将方差设置为 ( 1/2 )，而标准差为 (注意，

#python #开发语言

共 15 条

请选择