机器学习中的开发与探索

人们认为,Exploitation 和 Exploration 这两个词是强化学习中的重要概念,可帮助个人或开发人员适当而准确地建立在线决策。

除此之外,强化学习是处理计算机程序的机器学习,这意味着智能代理学习与给定环境进行交互或行为以在各种情况下有效地采取行动并最大化奖励。

此外,很明显机器学习已经获得了信息技术领域以及许多其他领域的大部分内容,如下所示:

• 在医疗保健领域。

• 在医学领域。

• 在教育领域。

• 在汽车领域也是如此。

• 还有很多。

然而,在各自的强化学习中,特定的开发人员或代理并不十分了解各种相关状态以及每个状态、奖励和过渡到下一个状态的特定类型的动作。尽管如此,所有这些只有在它通过探索环境来学习时才有可能。

有人指出,特定机构获得的关于特定事物的知识,例如:状态、行动、相关奖励以及结果状态更有可能成为部分,这反过来导致“探索与开发。”

在本教程中,我们将了解探索和利用,但在此之前,作为其中的一部分,我们将讨论以下其他概念:

1)你所说的强化学习是什么意思?

2)提及与强化学习相关的各个要点。

  1. 你对强化学习中的时间利用有什么理解?

  2. 你对强化学习中的探索一词了解多少?

强化学习这个词是什么意思?

强化学习可以定义为机器学习 (ML)的一部分;简而言之,强化学习就是针对特定情况选择合适且最适合的动作,以便最大化奖励。这种学习可以被许多不同的软件和机器有效地利用,它们用于找到机器在各自的环境或情况下应该采取的最佳或适当的行为。

此外,强化学习与监督学习有很大不同之处在于,在各自的监督学习中,训练数据几乎内置了答案键,因此模型本身就使用正确答案进行训练。尽管如此,在强化学习中,没有像监督学习那样的答案关键,但在这种学习中,代理在决定如何执行已发生任务的动作方面起着至关重要的作用。

提及与强化学习相关的各个要点。

与强化学习相关的各种关键点如下:

• 输入:假设信息应该在特定模型开始的初始状态下可用。

• 输出:可以看出有相当多的解决方案可用,因此有可能产生各种产品或结果。

• 培训:培训基于输入。相应的模型将返回到特定状态。然后,用户或代理要么必须根据模型生成的输出奖励模型,要么根据各自模型生成的工作给予惩罚 t。

• 与强化学习相关的最引人注目的一点是,强化学习需要任何标记数据来获取知识,而不是强化学习通常借助代理或个人主要执行的动作的反馈来学习。

• 此外,强化学习旨在实现最大数量的积极反馈,以有效提高绩效。

• 还有更多等等。

你如何理解强化学习中的开发这个术语?

开发被定义为一种贪婪的方法,在这种方法中,各个代理尝试或付出更多努力来获得奖励(更多的数量)在估计价值而不是实际价值的帮助下。因此得出结论,在这种技术中,代理主要根据当前信息做出最佳决策。

你对强化学习中的探索这个词是怎么理解的?

现在转向探索技术,在这些技术中,代理或个人专注于提高他们对每个定义的动作的各自知识,而不是获得或专注于带来更多的奖励,以便在这种情况下,他们可以受益长期利益。因此,在探索技术中,个人或代理人致力于获取或收集大量信息以做出更好的决策,并将其作为一个整体进行实际决策。

与机器学习中的探索和利用相关的示例

煤矿开采:让我们假设两个人,ALEX 和 BEN,正在煤矿中挖掘寻找(希望)的钻石。 BEN 通常在 ALEX 找到钻石之前就成功地找到了钻石。他不寻常的愉快地走了,但是在看到BEN在采矿时得到了煤矿的钻石(奖励)后,ALEX变得贪婪,并开始认为他也可以在挖掘的同一个地方得到钻石。 BEN 早先已经做到了。

因此,从这个示例中,我们可以得出结论,ALEX 执行的操作是贪婪的,因此该操作称为廉价操作,而针对这些操作的策略称为贪婪。

然而,在一颗巨大的钻石离开之前,ALEX 并不知道他在哪里挖掘,他被从那里移走了。在这种情况下,称为贪婪方法的策略最初会失败。

在上面的例子中,ALEX 只了解了 BEN 通常在哪里挖掘。尽管如此,他对深处的东西一无所知。

然而,在实际场景中,特定的钻石深埋在 ALEX 正在挖掘的地方,然后才贪婪地看到 BEN 的奖励地点。这就是为什么它被告知代理的部分知识会导致他陷入是利用他的专业知识还是进行探索的两难境地。

Logo

华为、百度、京东云现已入驻,来创建你的专属开发者社区吧!

更多推荐