一寸绿柚时光个人主页

@weixin_60150720

一寸绿柚时光

2023-07-20 21:28:36 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

强化学习基础概念----状态、动作、策略、奖励

本文介绍了强化学习中的基本概念：状态（S）表示智能体在环境中的位置，动作（A）是状态间的转移行为，策略（π）是状态到动作的概率映射。状态转移描述动作导致的状态变化，奖励函数r(s,a)提供环境反馈，通过正/负奖励鼓励/抑制特定行为。这些要素了强化学习的基础框架。

#python #人工智能

强化学习-----＞轨迹、回报、折扣因子和回合

本文继续探讨强化学习的四个核心概念：轨迹描述智能体与环境交互的"状态-动作-奖励"序列；回报是未来奖励的累计值，用于评估策略；折扣因子γ∈(0,1)调节近期与远期奖励的权重，γ接近0更短视，接近1更远视；回合指智能体从开始到终止状态的完整交互过程，其轨迹可能因环境或策略的随机性而不同。这些概念共同构成了强化学习的基础框架。

#python #人工智能

从 RAG 到故障链图谱：一次设备运维诊断系统的工程反思

从 RAG 转向故障链图谱，并不是否定大模型，而是重新划分职责：模型负责理解与表达图与程序负责推理与收敛当系统开始接受“不完整”“不确定”和“逐步逼近”时，它反而更接近真实世界的运维工作方式。这可能不是最快实现的方案，但往往是最不容易崩的那一种。

#人工智能

到底了