logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Hinton,Lecun和Bengio三巨头联手再发万字长文:深度学习的昨天、今天和明天

来源:ACM编辑:Priscilla Emil2018年,ACM(国际计算机学会)决定将计算机领域的最高奖项图灵奖颁给Yoshua Bengio、Yann LeCun 和 Geoffrey...

#神经网络#大数据#编程语言 +2
【干货51页PPT】深度学习理论理解探索

来源:专知普林斯顿大学计算机科学系教授Sanjeev Arora做了深度学习理论理解探索的报告,包括三个部分:Why overparametrization and or...

深度学习之父Hinton:下一代神经网络

例如,假设我的名字是June。如果句子中还有其他几个女性的名字,则June的表征将变得更接近女性人名的表征,如果句子中出现了月份相关的单词,June的表征将变得更接近“六月”的表征。表征的对比学习(contrastive learning of representations)被证明非常有效,但是它存在一个主要缺陷:要学习具有N位互信息的成对的表征向量,我们需要将正确的对应向量和大约2^N个错误的

#深度学习#神经网络#人工智能 +1
强化学习也涌现?自监督RL扩展到1000层网络,机器人任务提升50倍

虽然大多数强化学习(RL)方法都在使用浅层多层感知器(MLP),但普林斯顿大学和华沙理工的新研究表明,将对比 RL(CRL)扩展到 1000 层可以显著提高性能,在各种机器人任务中,性能可以提高最多 50 倍。在所有实验中,深度指的是 actor 网络和两个 critic encoder 网络的配置,这些网络被共同扩展。普林斯顿大学和华沙理工的最新研究提出,通过将神经网络深度从常见的 2-5 层扩

#机器人
向深度学习三剑客学习四种科研精神(上)

来源:陈德旺科学网博客深度学习,尤其是深度神经网络学习算法的兴起和大数据的加持,结合GPU的算力,如同 “三英战吕布”,终于搞定了人工智能这一反复无常的“吕布”, 使得人工智能得以第三次...

3万字长文!通俗解析大语言模型LLM原理

来源:Datawhal作者:陈思州本文将完全聚焦于大语言模型本身解答一个关键问题:现代智能体是如何工作的?我们将从语言模型的基本定义出发,通过对这些原理的学习,为理解LLM如何获得强大的知识储备与推理能力打下坚实的基础。一、语言模型与 Transformer 架构语言模型 (Language Model, LM) 是自然语言处理的核心,其根本任务是计算一个词序列(即一个句子)出现的概率。一个好的语

#语言模型#人工智能#自然语言处理
前沿综述:面向深度学习的集体智能

导语在过去的十年里,我们见证了深度学习的崛起,逐渐在人工智能领域占据主导地位。人工神经网络以及具有大内存的硬件加速器的进步,加上大型数据集的可用性,使得从业者能够训练和部署复杂的神经网络模型,并在跨越计算机视觉、自然语言处理和强化学习等多个领域的任务上取得最先进的性能。然而,随着这些神经网络变得更大、更复杂、应用更广泛,深度学习模型的基本问题变得更加明显。众所周知,最先进的深度学习模型存在各种问题

中科院自动化所介绍深度强化学习进展:从AlphaGo到AlphaGo Zero

来源:德先生概要:2016年初,AlphaGo战胜李世石成为人工智能的里程碑事件。其核心技术深度强化学习受到人们的广泛关注和研究,取得了丰硕的理论和应用成果。深度强化学习进展:  从AlphaGo到AlphaGo Zero唐振韬, 邵坤, 赵冬斌 , 朱圆恒中国科学院 自动化研究所 复杂系统管理与控制国家重点实验室, 北京 100190中国科学院大学, 北京 100190摘要: 2016年初,Al

深度解读:深度学习在IoT大数据和流分析中的应用

来源:网络大数据(ID:raincent_com)摘要:这篇论文对于使用深度学习来改进IoT领域的数据分析和学习方法进行了详细的综述。在物联网时代,大量的感知器每天都在收集并产生着涉及各个领域的数据。由于商业和生活质量提升方面的诉求,应用物联网(IoT)技术对大数据流进行分析是十分有价值的研究方向。这篇论文对于使用深度学习来改进IoT领域的数据分析和学习方法进行了详细的综述。从机器学习视角,作者将

深度长文|多模态 Scaling Laws 新篇章:Chinchilla 范式已破?数据、模型、算力最优平衡点正在重塑

选择早期融合,虽然可能意味着更彻底的重构,但它指向的是一条构建更原生、更高效、可能也更“智能”的多模态系统的新路径。Shukor 等人的研究发现,无论是采用早期融合(模型从一开始就处理原始多模态输入)还是晚期融合(类似 LLaVA,连接预训练模块)的 NMMs,其验证损失(L)随着总计算量(C)的增加而下降的速率(指数 c 约为 -0.049),与。等模型的成功所展示的那样,多采用“晚期融合”——

    共 1533 条
  • 1
  • 2
  • 3
  • 154
  • 请选择