logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

强化学习之父 Richard Sutton :大模型是死路一条

AI先驱理查德·萨顿警示:大语言模型存在根本性缺陷,而非真正的智能路径。作为强化学习奠基人,他指出当前大模型只是"博闻强识的模仿者",依赖静态文本数据,缺乏对现实世界的理解和交互能力。真正的智能应像婴儿般通过"一手经验"学习,在动态环境中试错、预测和构建世界模型。萨顿认为,未来AI发展需转向"大模拟"环境,培养自主决策能力,而非依赖人类知识结晶。这一观点或将引发AI研究范式转移,从大数据转向实时物

文章图片
专业学习|改进的多种群竞争粒子群优化算法

本文提出了改进的多种群竞争粒子群优化算法(IMCPSO),通过Logistic映射初始化粒子速度和位置,引入混沌性提高多样性;将种群分为主从种群,通过竞争与合作策略提升寻优能力;采用参数自适应更新策略动态调整惯性权重和学习因子,以适应问题变化;引入种群多样性引导策略,根据多样性值选择速度更新方式,避免局部最优解;最后,加入粒子变异机制,进一步增强群体的随机性和探索能力,从而提高粒子群的全局搜索能力

文章图片
#启发式算法
学术思维如何真正落地?从“解释世界”到“改变世界”的关键一跃

学者常误将研究问题等同实践痛点,导致方案难落地。关键在于区分三层问题:实践问题(真实业务痛点)、研究问题(解决方案方向)与科学问题(底层机理)。在AI与风控领域,落地能力体现在将智能体嵌入业务流程,形成感知、决策、行动的闭环,最终解决“谁在何种场景下的具体问题”,完成从解释世界到改变世界的跨越。

文章图片
#人工智能#机器学习
强化学习|一文读懂深度Q网络(DQN)

深度 Q 网络(deep Q-network,DQN):基于深度学习的 Q 学习算法,其结合了价值函数近似(value function approximation)与神经网络技术,并采用目标网络和经验回放等方法进行网络的训练。状态-价值函数(state-value function):其输入为演员某一时刻的状态,输出为一个标量,即当演员在 对应的状态时,预期的到过程结束时间段内所能获得的价值。状

文章图片
强化学习|一文读懂深度Q网络(DQN)

深度 Q 网络(deep Q-network,DQN):基于深度学习的 Q 学习算法,其结合了价值函数近似(value function approximation)与神经网络技术,并采用目标网络和经验回放等方法进行网络的训练。状态-价值函数(state-value function):其输入为演员某一时刻的状态,输出为一个标量,即当演员在 对应的状态时,预期的到过程结束时间段内所能获得的价值。状

文章图片
计量经济学|学习笔记以及学习感悟

本博文介绍了初级和中级计量经济学的不同内容和重点。初级计量经济学注重介绍基本的统计工具和经济模型,帮助人们理解经济数据和经济现象之间的关系。这包括回归分析、假设检验和预测方法等。中级计量经济学则更加深入研究这些方法的理论基础和实际应用,探讨更复杂的模型和技术,如面板数据分析、时间序列分析和因果推断等。同时,中级课程还会涉及更多计量经济学理论,比如内生性问题、工具变量和因果推断的困难等。通过学习中级

文章图片
QCA组态如何科学命名?

在得到QCA分析组态后如何对组态进行解释是我们面对的一个核心问题,本文介绍了 Santi等学者所提出的由三个迭代阶段组成的组态理论化过程模型来推进组态理论化,即范围界定、链接和命名。

文章图片
专业学习|随机规划概观(性质、针对问题与分类)

本文主要介绍随机规划、多目标随机规划模型能解决什么问题(什么性质的问题)、包含什么变体、优缺点是什么。最后并介绍了随机规划的多种最新解法。

文章图片
#算法#神经网络
论文研读|信息科技风险管理模型的主要内容、定位、目标企业、风险管理机制, 以及相应的风险评估流程和风险应对策略

本文研究了国际上普遍使用的风险管理基本模型、并针对主流的信息科技风险管理的框架进行研究、分析,重点研究当前信息科技风险管理模型的主要内容、定位、目标企业、风险管理机制, 以及相应的风险评估流程和风险应对策略,作为商业银行数据中心风险管理研究 工作的基础。

文章图片
#大数据
专业学习|动态规划(概念、模型特征、解题步骤及例题)

本文详细介绍了动态规划的基本构成、分类扩展、例题及解题步骤,通过本文可建立对动态规划的总体认识。

文章图片
#动态规划
    共 66 条
  • 1
  • 2
  • 3
  • 7
  • 请选择