logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

虚拟遗憾最小化(CFR)与强化学习(RL) 的异同点

虚拟遗憾最小化(CFR)是一种在不完全信息博弈中寻找纳什均衡的算法。它主要出现在扩展式博弈的环境里,这是一个不完全信息博弈框架。强化学习(RL)更倾向于使用马尔科夫决策过程(MDPs)框架,这两种框架比较相似,但信息大都是完全的(然而它有时被扩展到处理部分可观察马尔科夫决策过程(POMDPs))。CFR与传统的RL算法的不同之处在于,它并不试图使预期收益最大化。而是希望把可利用度最小化。石头剪刀布

#人工智能
pycharm下设置PYTHONPATH

在运行openspiel项目时报错"no module named pyspiel"在./venv/bin/activate 和 your ~/.bashrc执行export PYTHONPATH之后在terminal可以运行code,但是在pycharm debug仍报错参考:pycharm设置python path抄写如下:1、File->Setting2、Project:XXX-&gt

#python
到底了