danyow-4 个人主页

@dannnnnnnnnnnn

danyow-4

2022-12-12 17:03:44 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

【强化学习】在Pong环境下实现策略梯度

问题描述：确定环境中的最佳操作的规则叫做策略，学习这些策略的网络称为策略网络。代码展示：import numpy as npimport gymimport tensorflow as tfimport matplotlib.pyplot as plt#Pong envenv = gym.make("Pong-v0")observation = env.reset()for i in range(

#python #人工智能

Claude-Skills 入门和使用

因为官方模型限制，我们需要替换为国内可用模型。

#python

到底了