涛涛北京个人主页

@weixin_43522964

涛涛北京

2022-07-08 16:51:36 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

【强化学习实验】- 策略梯度算法

模型训练750个epoch接近收敛，而后震荡收敛，整体效果并不是很好。a、仅使用sar数据，可能会限制算法的能力上线。loss = -微分对象=-Q*log概率。② 编码核心目标函数及其 loss函数。文章中2.2 策略梯度算法。b、无偏，但是方差比较大。② 思考算法的优缺点。

#算法 #人工智能

【强化学习实验】- PPO

基于cartPole环境，实验效果，并于比较。PPO通俗理解：不见兔子不撒鹰，兔子代表优势，优势>0就提高动作概率，否则降低动作概率。相较而言，策略梯度未建模优势，朴素AC算法倒是建模了优势，两者区别是：① 朴素AC缺乏Trust-region 保护② 朴素AC的核心是log动作概率；PPO的核心是两个策略的动作比值。似乎PPO更直接粗暴。

#算法

强化学习-笔记

定义：是智能体在与环境交互中来实现目标的一种算法，这里的强化是强化智能体的策略 — 让策略更倾向于选择高价值动作最终实现累积奖励期望的最大化。基本过程：智能体agent看到状态St，采取动作At施加到环境中，得到奖励rt，同时环境转移为St+1，简称sars。关键要素：感知、决策、奖励。

#深度学习

具身智能综述1：Aligning Cyber Space with Physical World: A Comprehensive Survey on Embodied AI

具身智能入门了解调研

#搜索引擎

具身智能路线

pybullet 是用 Python 免费调用 Bullet 物理引擎的库，用来做机器人、游戏、影视、AI 的刚体／碰撞／动力学仿真。Bullet 的 C++ 内核用 CPython 接口封装，让 Python 用户也能调用工业级物理仿真功能，而不用自己写 C++。pybullet ≈ “Python 版的 Bullet 物理引擎”。类似于强化学习的gym，是更强大的环境，可以用于训练机器人。），

具身智能综述1：Aligning Cyber Space with Physical World: A Comprehensive Survey on Embodied AI

具身智能入门了解调研

#搜索引擎

具身智能路线

强化学习算法比较

核心关注概率比例优势函数。① 概率比例很简单：就是每个token位置模型的输出概率。② 优势函数从理论上讲，优势函数 A(s,a) 的定义非常简单：Q(s,a)：在状态 s 下采取动作 a 的预期长期收益。V(s)：在状态 s 下采取平均动作的预期长期收益（由 Critic 模型估计）。

#算法 #人工智能

107-agent调研

AI 先把任务抽象成一个已知的“经典算法（如：深度优先搜索、动态规划）”，然后一步步模拟这个算法的执行过程。传统的 AI 是一条路走到黑（线性思考），而树搜索让 AI 在遇到困难决策时，像下围棋一样，在脑子里把各种可能性都“推演”一遍。想计划的只管想，干活的只管干，这样哪怕搜网页搜错了，也不会把 AI 的逻辑带坑里去。用成千上万个“有计划、有逻辑”的数据集去喂它，或者让它在环境里试错（RL），做对

#人工智能

【机器学习】- EM算法

EM算法

#机器学习 #算法

共 14 条

请选择