m0_64785134 个人主页

@m0_64785134

m0_64785134

2023-01-06 12:18:13 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

Excel——数据可视化

Excel中的数据可视化

机器学习——神经网络

神经网络是由具有适应性的简单单元组成的广泛并行互连的网络。神经网络中最基本的成分是神经元模型。以下图常见的“M-P神经元模型”为例，在这个模型中，神经元接收到来自n个其他神经元传递过来的输入信号，这些输入信号通过带权重的连接进行传递，神经元收到的总输入值将与神经元的阈值进行比较，然后通过激活函数处理以产生神经元的输出。

#机器学习

深度强化学习DRL——价值学习

在深度强化学习DRL中，价值学习（Value-Based-Learning）和策略学习（Policy-Based-Learning）是两种核心方法，它们的区别在于学习的目标和输出形式。本次博客先介绍价值学习部分。

深度强化学习DRL——策略学习

策略学习是通过求解一个优化问题，学出最优策略函数或者它的近似函数（比如策略网络）

#算法

Rainbow DQN（DQN系列的“集大成者”和“终极缝合怪”）

Rainbow DQN是强化学习中结合6种改进技术的集成算法，包括Double DQN、Dueling架构、优先经验回放、多步学习、分布式Q值和噪声网络。该算法通过模块化融合显著提升了传统DQN的性能，在离散动作空间任务中表现优异。代码实现展示了5/6改进组件的组合，使用NoisyLinear替代ε-greedy探索，通过概率分布预测Q值而非单一期望值。该方法在样本效率、探索能力和价值估计准确性方