真·skysys 个人主页

@qq_33583069

真·skysys

2022-06-24 21:28:34 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

强化学习 # Policy gradient

Policy Gradients：不通过分析奖励值, 直接输出行为的方法。对比起以值为基础的方法, Policy Gradients 直接输出动作的最大好处就是, 它能在一个连续区间内挑选动作, 而基于值的, 比如 Q-learning只能适用于action数量有限的情况。Policy Gradients可以结合神经网络。强化学习里面无标签，所以Policy Gradients没有误差，那要怎么进

深度强化学习 # DDPG

Deep Deterministic Policy Gradient (DDPG)前置基础：policy gradientDDPG是一种Actor-Critic结构。基于PARL实现DDPGReferencehttps://www.bilibili.com/video/BV1yv411i7xd?p=18https://mofanpy.com/tutorials/machine-learning/r

强化学习 # Q-Learning算法

详细教程参考REF.1，本文是根据reference的个人笔记1 Introduction和监督学习算法的区别是：监督学习：已知数据、标签强化学习：一开始没有标签，通过try获得data和labelRL的一些基本算法：通过行为的价值来选取特定行为的方法, 包括使用表格学习的 q learning, sarsa, 使用神经网络学习的 deep q network, 还有直接输出行为的 policy

#算法 #机器学习 #python

强化学习 # 概述

博主在学习强化学习和深度强化学习中对RL/DRL的归纳总结。1 Introduction强化学习的关键是：exploitation（利用）和 exploration （探索），也可以解读为trial和reward。和监督学习算法的区别是：监督学习：已知数据、标签强化学习：一开始没有标签，通过try获得data和labelRL的一些基本算法：通过行为的价值来选取特定行为的方法, 包括使用表格学习的

浙大知识图谱基础：学习笔记

浙江大学知识图谱学习笔记

#知识图谱

QT 音视频开发基于gstreamer框架

环境:apt-get install libgstreamer1.0-dev libgstreamer-plugins-base1.0-dev libgstreamer-plugins-bad1.0-dev gstreamer1.0-plugins-base gstreamer1.0-plugins-good gstreamer1.0-plugins-bad gstreamer1.0-plugin

#qt

Beyond Surface Alignment: Rebuilding LLMs Safety Mechanism via Probabilistically Ablating Refusal

解决大模型表面安全对齐的防御微调方法

Beyond Surface Alignment: Rebuilding LLMs Safety Mechanism via Probabilistically Ablating Refusal

解决大模型表面安全对齐的防御微调方法

模糊测试Fuzzing基础知识学习笔记

模糊测试（Fuzzing），是一种通过向目标系统提供并监视结果来发现软件漏洞的方法。在模糊测试中，用（也称做 fuzz）攻击一个程序，然后观察哪里遭到了破坏。模糊测试（Fuzz Testing）是一种自动化的软件测试技术，最初是由威斯康辛大学的巴顿·米勒于1989年开发的，通常用于识别程序中的潜在漏洞。模糊测试的核心是自动或半自动的生成随机数据输入到应用程序中，同时监控程序的异常情况，如崩溃、代码

TensorFlow # 调试中间结果，打印神经网络中间层

TensorFlow直接print Tensor拿到的是结构不是真实值。暂时没有想到好方法，如果读者有更好的方法也请留言给博主，共同学习，谢谢。对于线性程序：import tensorflow as tfimport tensorflow.contrib.layers as layersimport numpy as npimport osos.environ["TF_CPP_MIN_LOG_LE

#tensorflow

共 51 条

请选择