logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

强化学习 # Policy gradient

Policy Gradients:不通过分析奖励值, 直接输出行为的方法。对比起以值为基础的方法, Policy Gradients 直接输出动作的最大好处就是, 它能在一个连续区间内挑选动作, 而基于值的, 比如 Q-learning只能适用于action数量有限的情况。Policy Gradients可以结合神经网络。强化学习里面无标签,所以Policy Gradients没有误差,那要怎么进

深度强化学习 # DDPG

Deep Deterministic Policy Gradient (DDPG)前置基础:policy gradientDDPG是一种Actor-Critic结构。基于PARL实现DDPGReferencehttps://www.bilibili.com/video/BV1yv411i7xd?p=18https://mofanpy.com/tutorials/machine-learning/r

强化学习 # Q-Learning算法

详细教程参考REF.1,本文是根据reference的个人笔记1 Introduction和监督学习算法的区别是:监督学习:已知数据、标签强化学习:一开始没有标签,通过try获得data和labelRL的一些基本算法:通过行为的价值来选取特定行为的方法, 包括使用表格学习的 q learning, sarsa, 使用神经网络学习的 deep q network, 还有直接输出行为的 policy

#算法#机器学习#python
强化学习 # 概述

博主在学习强化学习和深度强化学习中对RL/DRL的归纳总结。1 Introduction强化学习的关键是:exploitation(利用) 和 exploration (探索),也可以解读为trial和reward。和监督学习算法的区别是:监督学习:已知数据、标签强化学习:一开始没有标签,通过try获得data和labelRL的一些基本算法:通过行为的价值来选取特定行为的方法, 包括使用表格学习的

浙大知识图谱基础:学习笔记

浙江大学 知识图谱 学习笔记

文章图片
#知识图谱
QT 音视频开发 基于gstreamer框架

环境:apt-get install libgstreamer1.0-dev libgstreamer-plugins-base1.0-dev libgstreamer-plugins-bad1.0-dev gstreamer1.0-plugins-base gstreamer1.0-plugins-good gstreamer1.0-plugins-bad gstreamer1.0-plugin

#qt
模糊测试Fuzzing基础知识学习笔记

模糊测试(Fuzzing),是一种通过向目标系统提供并监视结果来发现软件漏洞的方法。在模糊测试中,用(也称做 fuzz)攻击一个程序,然后观察哪里遭到了破坏。模糊测试(Fuzz Testing)是一种自动化的软件测试技术,最初是由威斯康辛大学的巴顿·米勒于1989年开发的,通常用于识别程序中的潜在漏洞。模糊测试的核心是自动或半自动的生成随机数据输入到应用程序中,同时监控程序的异常情况,如崩溃、代码

文章图片
TensorFlow # 调试中间结果,打印神经网络中间层

TensorFlow直接print Tensor拿到的是结构不是真实值。暂时没有想到好方法,如果读者有更好的方法也请留言给博主,共同学习,谢谢。对于线性程序:import tensorflow as tfimport tensorflow.contrib.layers as layersimport numpy as npimport osos.environ["TF_CPP_MIN_LOG_LE

#tensorflow
    共 51 条
  • 1
  • 2
  • 3
  • 6
  • 请选择