logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【大模型应用极简开发入门(2)】GPT模型简史:从GPT-1到GPT-4:从小数据量的微调到大数据量的强化学习不断优化模型

【大模型应用极简开发入门(2)】GPT模型简史:从GPT-1到GPT-4:从小数据量的微调到大数据量的强化学习不断优化模型

文章图片
【计算机视觉(6)】边缘与直线检测基础篇:从Canny到Hough变换

【计算机视觉(6)】边缘与直线检测基础篇:从Canny到Hough变换

#计算机视觉#人工智能
【AI Engineering】什么是Agent?如何构建和评估AI Agent?

【AI Engineering】什么是Agent?如何构建和评估AI Agent?

#人工智能
【AI Engineering】什么是Agent?如何构建和评估AI Agent?

【AI Engineering】什么是Agent?如何构建和评估AI Agent?

#人工智能
【强化学习基础(2)】被动强化学习:学习价值函数

被动强化学习(Passive Reinforcement Learning)是指智能体有一个固定的策略π(s),它按照这个策略行动,学习状态的价值函数U(s)。价值函数表示"从状态s开始,按照策略π,期望能获得多少累积奖励"。在被动学习中,智能体不知道环境的转移模型P(s’|s, a)和奖励函数R(s, a, s’)。它只能通过观察来学习:执行动作,观察结果状态和奖励,然后更新对状态价值的估计。这

文章图片
#学习
【强化学习基础(2)】被动强化学习:学习价值函数

被动强化学习(Passive Reinforcement Learning)是指智能体有一个固定的策略π(s),它按照这个策略行动,学习状态的价值函数U(s)。价值函数表示"从状态s开始,按照策略π,期望能获得多少累积奖励"。在被动学习中,智能体不知道环境的转移模型P(s’|s, a)和奖励函数R(s, a, s’)。它只能通过观察来学习:执行动作,观察结果状态和奖励,然后更新对状态价值的估计。这

文章图片
#学习
【系统架构设计(34)】计算机网络架构与技术基础

【系统架构设计(33)】计算机网络架构与技术基础

#系统架构#计算机网络#架构
【大模型应用开发极简入门】提示工程二:零样本学习、少样本学习与改善提示效果

【大模型应用开发极简入门】提示工程二:零样本学习、少样本学习与改善提示效果

文章图片
#学习#人工智能
【HDFS运维】HDFS回收箱机制:原理、配置、配置可能导致的问题分析

【HDFS运维】HDFS回收箱机制:原理、配置、配置可能导致的问题分析

文章图片
#hdfs#运维#hadoop
    共 71 条
  • 1
  • 2
  • 3
  • 8
  • 请选择