logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

第三篇 直接策略搜索——基于确定性策略搜索的强化学习方法

本分类专栏博客系列是学习《深入浅出强化学习原理入门》的学习总结。书籍链接:链接:https://pan.baidu.com/s/1p0qQ68pzTb7_GK4Brcm4sw提取码:opjy文章目录基于确定性策略搜索的强化学习方法一、基于确定性策略搜索的强化学习方法一、...

#人工智能
第三篇 直接策略搜索——基于置信域策略优化的强化学习方法

本分类专栏博客系列是学习《深入浅出强化学习原理入门》的学习总结。书籍链接:链接:https://pan.baidu.com/s/1p0qQ68pzTb7_GK4Brcm4sw提取码:opjy文章目录基于置信域策略优化的强化学习方法一、基于置信域策略优化的强化学习方法一、...

#人工智能
CAS-KG——课程安排

说明:CAS是国科大的简称,KG是知识图谱的缩写,这个栏目之下是我整理的国科大学习到的知识图谱的相关笔记。课程目标了解以知识图谱为代表的大数据知识工程的基本问题和方法掌握基于知识图谱的语义计算关键技术具备建立小型知识图谱并据此进行数据分析应用的能力教学安排详情请见博客:文章目录第一讲 知识图谱概述 (赵军)第二讲 机器学习基础 (何世柱)第三讲 图算法基础 (何世柱)第四讲 知...

#人工智能#知识图谱
CAS-KG——实体消岐

说明:CAS是国科大的简称,KG是知识图谱的缩写,这个栏目之下是我整理的国科大学习到的知识图谱的相关笔记。文章目录1.2.3.1.2.3.

#人工智能#知识图谱
6. 文本分类——transformer模型

文章目录一、简介二、transformer结构三、用于文本分类的transformer1. embedding layer(嵌入层)2. positional encoding(位置编码)3. Scaled dot-product attention(缩放的点乘注意力机制)4. Multi-head attention(多头注意力)5. Padding mask6. 残差连接7. Layer No

#自然语言处理
CNN的Python实现——第三章:神经网络

文章目录第三章:神经网络3.1 数学模型3.2 激活函数3.3 代码实现3.4 学习容量和正则化3.5 生物神经科学基础第三章:神经网络神经网络是对线性模型的升级,使之能对线性不可分的训练集达到好的分类效果,同时也是理解卷积神经网络的基础,其核心是引入非线性激活函数和多层结构。3.1 数学模型线性模型只能对线性可分的训练集达到较好的分类效果,那么怎么对其升级,使之能对线性不可分的训练集也达到好的分

#机器学习
机器学习之 SVM原理介绍

文章目录一、简介二、线性SVM1. 什么是线性分类器?2. 分类间隔解释——最小化∣∣w∣∣||w||∣∣w∣∣3. 数学解释——最小化∣∣w∣∣||w||∣∣w∣∣4. SVM 的求解问题三、SVM 对 非线性数据——加松弛变量3.1 硬间隔与软间隔3.2 加松弛变量3.3 hinge loss四、SVM的对偶问题五、核方法参考一、简介支持向量机在解决小样本、非线性及高维模式识别中表现出许...

#支持向量机#机器学习
RL策略梯度方法之(一): REINFORCE算法

本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结 。文章目录原理解析基于值 的RL的缺陷策略梯度蒙特卡罗策略梯度REINFORCE算法REINFORCE简单的扩展:REINFORCE with baseline算法实现总体流程代码实现原理解析基于值 的RL的缺陷基

RL策略梯度方法之(一): REINFORCE算法

本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结 。文章目录原理解析基于值 的RL的缺陷策略梯度蒙特卡罗策略梯度REINFORCE算法REINFORCE简单的扩展:REINFORCE with baseline算法实现总体流程代码实现原理解析基于值 的RL的缺陷基

到底了