
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
在TOGAF的四大架构域(业务架构、数据架构、应用架构、技术架构)中,数据架构占据着独特而关键的位置。业务架构定义了“我们需要做什么”,应用架构回答“用什么系统来做”,技术架构解决“需要哪些基础设施支撑”,而数据架构则贯穿始终——它既是业务架构的信息投射,又是应用架构的设计约束,更是技术架构的选型依据。
作者:Massimiliano Patacchiola到目前为止,我们已经通过查找表(或者矩阵)表示效用函数。这种方法有一个问题,当潜在的马尔可夫决策过程很大时,有太多的状态和动作存储在内存中。此外,在这种情况下,访问所有可能的状态是非常困难的,这意味着我们无法估计这些状态的效用值。关键问题是泛化:如何产生一个只有很小子集的大状态空间的良好近似。在这篇文章中,我将向您展示如何使用特性的线性组合..
作者:Massimiliano Patacchiola欢迎来到“剖析强化学习”系列的第三部分。在第一篇和第二篇文章中,我们分析了动态规划和蒙特卡罗(MC)方法。第三部分要讲的强化学习技术称为时间差分(TD)方法。TD学习解决了MC学习中出现的一些问题,在第二部分的结论中我描述了这个问题之一,使用MC方法,需要等到episode结束才更新效用函数,这是一个严重的问题,因为一些应用程序可能会有很长..
Agent可以在自己的梦境中学习吗?概述我们探索建立支撑流行强化学习环境的生成型神经网络模型,我们的世界模型可以以无监督的方式快速训练,以学习针对环境的压缩时空表示。通过使用从世界模型中提取的特征作为agent的输入,我们可以训练一个非常紧凑和简单的策略,可以解决所要求的任务,甚至可以完全在其世界模型生成的梦境中训练agent,并将此策略迁移到实际环境。介绍世界模特,来自斯科特麦...
作者:Massimiliano Patacchiola欢迎来到“剖析强化学习”系列的第三部分。在第一篇和第二篇文章中,我们分析了动态规划和蒙特卡罗(MC)方法。第三部分要讲的强化学习技术称为时间差分(TD)方法。TD学习解决了MC学习中出现的一些问题,在第二部分的结论中我描述了这个问题之一,使用MC方法,需要等到episode结束才更新效用函数,这是一个严重的问题,因为一些应用程序可能会有很长..
作者:Massimiliano Patacchiola你好!欢迎来到“解剖强化学习”系列的第六部分。到现在我们已经了解了强化学习如何工作。然而,我们将大部分技术应用于机器人清洁示例,我决定采用这种方法的原因,是因为我认为应用于不同技术的同一个例子,可以帮助读者更好地理解从一种场景到另一种场景的变化。现在是将这些知识应用于其他问题的时候了。在下面的每一节中,我将介绍一个强化学习问题,并且将向您展..







