![](../../asset/images/user/BgImg_default.jpg)
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
神经网络层数的增加会增加模型计算负担,同时也会导致模型变得难以训练。随着网络层数的增加,数据的分布方式也会随着层与层之间的变化而变化,这种现象被称为内部协变量偏移 ICS。通常解决 ICS 问题的方法是使用较小的学习率,后来为更好的解决该问题,Sergey等提出批处理标准化算法(Batch Normalization)
![文章图片](https://img-blog.csdnimg.cn/d0ba6bdfdee74760bd6418887bc34326.png)
Dijkstra 算法是典型的单源最短路径计算算法,用于解决源点到其它所有点之间的最短路径计算的问题。它采用了贪心的思想搜索全局,求取最优解。算法优点:鉴于 Dijkstra 算法的全局遍历性,其计算结果准确性非常高,Dijkstra 算法可以避开局部最优陷阱,100%的求解出最优路径。
![文章图片](https://img-blog.csdnimg.cn/d7baeac1df1c4cf2941d74be659eed5d.png)
在同等复杂度的情况下,ShuffleNetV2 要比 ShuffleNetV1 和 MobileNetV1 更加准确。这个网络的优势在于:(1)作为轻量级的卷积神经网络,ShuffleNetV2 相比其他轻量级模型速度稍快,准确率也更高;(2)轻量级不仅体现在速度上,还大大地减少了模型的参数量,并且通过设定每个单元的通道数便可以灵活地调整模型的复杂度。
![文章图片](https://img-blog.csdnimg.cn/aecb6fe774964852bea39fc9c637b64b.png)
Double DQN 算法是 DQN 算法的改进版本,解决了 DQN 算法过估计行为价值的问题。Double DQN 算法不直接通过最大化的方式选取目标网络计算的所有可能 Q 值,而是首先通过估计网络选取最大 Q 值对应的动作。在 Double DQN 框架中存在两个神经网络模型,分别是训练网络与目标网络。这两个神经网络模型的结构完全相同,但是权重参数不同;每训练一段之间后,训练网络的权重参数才会
![文章图片](https://img-blog.csdnimg.cn/943336739f674310a07751af6acc9747.png)
EfficientNetV2 网络主要采用神经结构搜索技术(NAS)结合复合模型扩张方法获得了一组最优的复合系数,自动将网络的深度、宽度和输入图像分辨率三个参数进行合理的配置,提升了网络的性能,在 ImageNetILSVRC2012 的 Top-1 上达到 87.3%的准确率,且 EfficientNetV2 减少了模型的参数量并且进一步提升了模型的训练速度。
![文章图片](https://img-blog.csdnimg.cn/784203b267994d819d44c71d80688730.png)
A* 算法主要用在静态且周围环境已知的情况下,是建立在 Dijkstra 和BFS 基础上的启发式遍历搜索算法,在路径规划时不仅要考虑自身与最近节点位置的距离(Dijkstra 实现),还需要考虑自身位置与目标点的距离(BFS 实现)。
![文章图片](https://img-blog.csdnimg.cn/5b18bb1005d34d94bd81673d2b7786a0.png)
蚁群算法是一种用来寻找优化路径的概率型算法。将蚁群算法应用于解决优化问题的基本思路为:用蚂蚁的行走路径表示待优化问题的可行解,整个蚂蚁群体的所有路径构成待优化问题的解空间。路径较短的蚂蚁释放的信息素量较多,随着时间的推进,较短的路径上累积的信息素浓度逐渐增高,选择该路径的蚂蚁个数也愈来愈多。最终,整个蚂蚁会在正反馈的作用下集中到最佳的路径上,此时对应的便是待优化问题的最优解
![文章图片](https://img-blog.csdnimg.cn/5bc493bf570d4d25a4277f3bd6b463f6.png)
Deepmind 提出的 SAC (Soft Actor Critic) 算法是一种基于最大熵的无模型的深度强化学习算法,适合于真实世界的机器人学习技能。SAC 算法的效率非常高,它解决了离散动作空间和连续性动作空间的强化学习问题。SAC 算法在以最大化未来累积奖励的基础上引入了最大熵的概念,加入熵的目的是增强鲁棒性和智能体的探索能力。SAC 算法的目的是使未来累积奖励值和熵最大化,使得策略尽可能
![文章图片](https://img-blog.csdnimg.cn/bf3d06b96b9a4cb39363e7977ac96486.png)
行动者评论家方法是由行动者和评论家两个部分构成。行动者用于选择动作,评论家评论选择动作的好坏。Critic 是评判网络,当输入为环境状态时,它可以评估当前状态的价值,当输入为环境状态和采取的动作时,它可以评估当前状态下采取该动作的价值。Actor 为策略网络,以当前的状态作为输入,输出为动作的概率分布或者连续动作值,再由 Critic 网络来评价该动作的好坏从而调整策略。
![文章图片](https://img-blog.csdnimg.cn/343c6a0d487644beb73bceb162878be8.png)
深度确定性策略梯度算法 (Deterministic Policy Gradient,DDPG)。DDPG 算法使用演员-评论家(Actor-Critic)算法作为其基本框架,采用深度神经网络作为策略网络和动作值函数的近似,使用随机梯度法训练策略网络和价值网络模型中的参数。DDPG 算法架构中使用双重神经网络架构,对于策略函数和价值函数均使用双重神经网络模型架构。
![文章图片](https://img-blog.csdnimg.cn/5fdfe4de7ee24fdb8b20e307983dd4c2.png)