logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

强化学习之父:大语言模型是一个错误的起点

有趣的是,您却认为大语言模型并没有真正吸取“苦涩的教训”。**Dwarkesh Patel:**不知道您是否认同,我想关键点或许在于,有人认为模仿学习能够为模型提供一种先验知识,让它们在进入您所谓的“经验时代”之前,就已经具备一种合理的解决问题的能力。**Richard Sutton:**在每一个“苦涩的教训”的案例中,你都可以先从人类知识入手,然后再去做那些可扩展的事情。相比之下,大语言模型的预

文章图片
#语言模型#人工智能#自然语言处理
DeepMind基础世界模型Genie:一张草图即为一个世界,通用AI智能体要来了?

据介绍,Genie 它由一个时空视频 tokenizer、一个自回归动力学模型和一个简单且可扩展的潜在行动模型组成,具有 11 B 参数,可以用它从未见过的图像(如现实世界的照片或草图)进行提示,使人们能够与自己想象中的虚拟世界进行互动——本质上就是充当一个基础世界模型。

文章图片
#人工智能#深度学习#机器学习 +1
智谱、清华团队发布GLM-5V-Turbo技术报告:多模态Agent基座模型探索

GLM-5V-Turbo 作为新一代多模态基座模型,在保持纯文本场景下编程、推理、工具调用等能力的前提下,在多模态 Coding、Tool Use、GUI Agent 等方面取得了极具竞争力的性能。

文章图片
#人工智能#深度学习#机器学习 +1
智谱、清华团队发布GLM-5V-Turbo技术报告:多模态Agent基座模型探索

GLM-5V-Turbo 作为新一代多模态基座模型,在保持纯文本场景下编程、推理、工具调用等能力的前提下,在多模态 Coding、Tool Use、GUI Agent 等方面取得了极具竞争力的性能。

文章图片
#人工智能#深度学习#机器学习 +1
强化学习之父:大语言模型是一个错误的起点

有趣的是,您却认为大语言模型并没有真正吸取“苦涩的教训”。**Dwarkesh Patel:**不知道您是否认同,我想关键点或许在于,有人认为模仿学习能够为模型提供一种先验知识,让它们在进入您所谓的“经验时代”之前,就已经具备一种合理的解决问题的能力。**Richard Sutton:**在每一个“苦涩的教训”的案例中,你都可以先从人类知识入手,然后再去做那些可扩展的事情。相比之下,大语言模型的预

文章图片
#语言模型#人工智能#自然语言处理
一周热门|重磅!AI无限学习、进化,研究登上Nature;Meta提出多模态模型训练方法Transfusion

一周热门|重磅!AI无限学习、进化,研究登上Nature;Meta提出多模态模型训练方法Transfusion

文章图片
#人工智能#学习#语言模型 +1
全球首个!Nature重磅研究:计算机视觉告别“偷数据”时代

索尼 AI 推出首个公开可用的、全球多元化的、基于用户同意的数据集。

文章图片
#计算机视觉#人工智能#语言模型
任意Agent皆可强化学习!微软推出Agent Lightning框架,无需修改任何代码

AI Agent 已逐渐从科幻走进现实——不仅能够执行编写代码、调用工具、进行多轮对话等复杂任务,甚至还可以进行端到端的软件开发,已经在金融、游戏、软件开发等诸多领域落地应用。然而,当前的 AI Agent 在训练与优化环节却面临着严峻挑战,传统强化学习(RL)方法也在复杂、动态交互场景下表现不佳。为此,微软团队推出了一个灵活、可扩展的框架 —— Agent Lightning,其可对任何 AI

文章图片
#人工智能#科技
解读!清华、谷歌等10篇强化学习论文总结

强化学习(Reinforcement Learning,RL)正成为当下机器学习中最热门的研究领域之一。与常见的监督学习和非监督学习不同,强化学习强调智能体(agent)与环境(environment)的交互,交互过程中智能体需要根据自身所处的状态(state)选择接下来采取的动作(action),执行动作后,智能体会进入下一个状态,同时从环境中得到这次状态转移的奖励(reward)。强化学习..

    共 287 条
  • 1
  • 2
  • 3
  • 29
  • 请选择