
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
杨灵:普林斯顿大学 Research Fellow,北京大学博士,研究方向为大语言模型、扩散模型和强化学习。田野:北京大学智能学院博士生,研究方向为扩散模型、统一模型及强化学习。沈科:字节跳动 Seed 大模型团队的 AI 研究员,研究方向为大语言模型预训练和统一学习范式。童云海:北京大学智能学院教授,研究领域涵盖多模态大模型、图像/视频的生成与编辑。
为了突破以上DocVQA方法的局限性,作者推出了M3DOCRAG(Multi-modalMulti-pageMulti-DocumentVisualQuestionAnswering,多模态多页多文档检索增强生成):一个新的多模态RAG框架,能够灵活适应各类文档情境(封闭域和开放域)、问题跳转(单跳和多跳)以及内容形式(文本、图表、图形等)。如上图,M3DOCRAG框架借助多模态检索模型检索相关文

就在昨天,《自然》杂志对Pachocki做了一次专访,探讨了AI能否做出独立研究、通用人工智能(AGI),及公司即将推出的开源模型等热门话题。我们已经看到,像OpenAI的Deep Research这种AI工具,可以在没有人监督的情况下持续工作10到20分钟,给出一份有用的结果。预训练的模型学到了一些关于世界的知识,但它并没有真正理解它是如何学会这些事情的,也搞不清它学习这些事情的时间顺序。所以,
传统的机械可解释性(MI)通常依赖于分析神经网络激活或使用监督探测另一方面,所提出的算法提供了一种新颖的方法,可以直接从智能体的策略行为中提取世界模型,即使在模型内部无法访问的情况下也能适用。从能力强大的智能体中提取世界模型的能力,为验证和校准提供了一种新的工具,因为模型保真度会随着智能体能力的提升而扩展。更进一步,实验证明,这样的模型可以从智能体的策略中提取出来,而提升智能体的性能或其可实现目标
2012 年出了 AlexNet,当时正值大数据集出现(ImageNet)、算力大幅提升(Nvidia)的时期,AlexNet 把当时的神经网络扩大了两个数量级,取得了巨大成功延续做大神经网络的思路,在 12-16 年读博期间,宽度放大:做了 MSRA Init,比较好解决了模型不好开始训起来的问题;深度放大:做了 ResNet(听说当时他们显存最大装下 ResNet 152层),甚至后续用一些技
与所提出的 B-SiLU 替代函数结合使用时,VGG-16 在 CIFAR-10 和 CIFAR-100 数据集上的测试准确率分别提升了 10 个百分点和 16 个百分点,而 ResNet-18 与未使用 SUGAR 的最佳模型相比,分别提升了 9 个百分点和 7 个百分点。对 VGG-16 层激活的深入分析表明,当应用 SUGAR 时,激活分布发生了明显的变化,为其在缓解消亡 ReLU 问题中的
2015~2016年,AlphaGo引发了第一次人工智能的热潮,但冷静下来8年后回头看,当时吹得神乎其神的AlphaGo及其相关产业,除了一些计算机视觉公司(所谓“四小龙”)被抬高了估值,最后实际并没有形成产业化、社会化的广泛影响。我曾经写过一篇文章,提到了“乌鸦与鹦鹉的范式”(指当前AI多停留在“鹦鹉式”的大规模模仿,距离“乌鸦式”的认知与推理仍存在本质差距),批评过这种“泡沫化的融资神话”,今
在未使用Dify平台之前,顺丰的开发流程面临着诸多挑战。开发应用前后端、集成和封装LLM能力需要花费大量时间,尤其是开发前端应用时,往往需要从零开始搭建。然而,引入Dify平台后,开发效率得到了显著提升。
来源 | 新智元最近,图灵奖获得者、强化学习之父Richard Sutton,联同DeepMind强化学习副总裁David Silver共同发布了一篇文章。论文链接:https://storage.googleapis.com/deepmind-media/Era-of-Experience%20/The%20Era%20of%20Experience%20Paper.pdf有人称,这篇文章就犹如
本文描述了ORM(OutcomeRewardModel)的定义和作用。并基于OpenRLHF源码详细解读了ORM的训练过程。在RM的研发范式中,还有最近比较火热的PRM(ProcessRewardModel)。








