
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
强化学习基础概念----状态、动作、策略、奖励
本文介绍了强化学习中的基本概念:状态(S)表示智能体在环境中的位置,动作(A)是状态间的转移行为,策略(π)是状态到动作的概率映射。状态转移描述动作导致的状态变化,奖励函数r(s,a)提供环境反馈,通过正/负奖励鼓励/抑制特定行为。这些要素了强化学习的基础框架。
强化学习----->轨迹、回报、折扣因子和回合
本文继续探讨强化学习的四个核心概念:轨迹描述智能体与环境交互的"状态-动作-奖励"序列;回报是未来奖励的累计值,用于评估策略;折扣因子γ∈(0,1)调节近期与远期奖励的权重,γ接近0更短视,接近1更远视;回合指智能体从开始到终止状态的完整交互过程,其轨迹可能因环境或策略的随机性而不同。这些概念共同构成了强化学习的基础框架。
从 RAG 到故障链图谱:一次设备运维诊断系统的工程反思
从 RAG 转向故障链图谱,并不是否定大模型,而是重新划分职责:模型负责理解与表达图与程序负责推理与收敛当系统开始接受“不完整”“不确定”和“逐步逼近”时,它反而更接近真实世界的运维工作方式。这可能不是最快实现的方案,但往往是最不容易崩的那一种。
到底了







