
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
【大模型应用极简开发入门(2)】GPT模型简史:从GPT-1到GPT-4:从小数据量的微调到大数据量的强化学习不断优化模型

【计算机视觉(6)】边缘与直线检测基础篇:从Canny到Hough变换
【AI Engineering】什么是Agent?如何构建和评估AI Agent?
【AI Engineering】什么是Agent?如何构建和评估AI Agent?
被动强化学习(Passive Reinforcement Learning)是指智能体有一个固定的策略π(s),它按照这个策略行动,学习状态的价值函数U(s)。价值函数表示"从状态s开始,按照策略π,期望能获得多少累积奖励"。在被动学习中,智能体不知道环境的转移模型P(s’|s, a)和奖励函数R(s, a, s’)。它只能通过观察来学习:执行动作,观察结果状态和奖励,然后更新对状态价值的估计。这

被动强化学习(Passive Reinforcement Learning)是指智能体有一个固定的策略π(s),它按照这个策略行动,学习状态的价值函数U(s)。价值函数表示"从状态s开始,按照策略π,期望能获得多少累积奖励"。在被动学习中,智能体不知道环境的转移模型P(s’|s, a)和奖励函数R(s, a, s’)。它只能通过观察来学习:执行动作,观察结果状态和奖励,然后更新对状态价值的估计。这

【系统架构设计(33)】计算机网络架构与技术基础
【大模型应用开发极简入门】提示工程二:零样本学习、少样本学习与改善提示效果

【HDFS运维】HDFS回收箱机制:原理、配置、配置可能导致的问题分析









