Leo_Mh 个人主页

@qq_36691985

Leo_Mh

2023-08-07 11:11:29 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

虚拟遗憾最小化（CFR）与强化学习(RL) 的异同点

虚拟遗憾最小化（CFR）是一种在不完全信息博弈中寻找纳什均衡的算法。它主要出现在扩展式博弈的环境里，这是一个不完全信息博弈框架。强化学习（RL）更倾向于使用马尔科夫决策过程（MDPs）框架，这两种框架比较相似，但信息大都是完全的（然而它有时被扩展到处理部分可观察马尔科夫决策过程（POMDPs））。CFR与传统的RL算法的不同之处在于，它并不试图使预期收益最大化。而是希望把可利用度最小化。石头剪刀布

#人工智能

pycharm下设置PYTHONPATH

在运行openspiel项目时报错"no module named pyspiel"在./venv/bin/activate 和 your ~/.bashrc执行export PYTHONPATH之后在terminal可以运行code，但是在pycharm debug仍报错参考：pycharm设置python path抄写如下：1、File->Setting2、Project：XXX-&gt

#python

到底了