logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

比Gemini Diffusion更全能!首个多模态扩散大语言模型MMaDA发布,同时实现强推理与高可控性

杨灵:普林斯顿大学 Research Fellow,北京大学博士,研究方向为大语言模型、扩散模型和强化学习。田野:北京大学智能学院博士生,研究方向为扩散模型、统一模型及强化学习。沈科:字节跳动 Seed 大模型团队的 AI 研究员,研究方向为大语言模型预训练和统一学习范式。童云海:北京大学智能学院教授,研究领域涵盖多模态大模型、图像/视频的生成与编辑。

#语言模型#人工智能#自然语言处理
「全球首个自回归视频生成大模型」,刚刚,Swin Transformer作者创业团队重磅开源!

同时,Sand AI 也提供了视频扩展功能,可以沿着之前生成视频或用户上传视频继续生成新的视频片段,并且无需用户自己手动拼接 —— 会直接输出经过扩展后的更长视频。在开源模型中,MAGI-1 实现了最先进的性能(超过 Wan-2.1,明显优于 Hailuo 和 HunyuanVideo),尤其是在指令遵循和运动质量方面表现出色,使其成为 Kling 等闭源商业模型的潜在有力竞争者。镜头开始缓慢地顺

#回归#音视频#transformer
M3DocRAG:文档问答用哪个多模态大模型效果最好?

为了突破以上DocVQA方法的局限性,作者推出了M3DOCRAG(Multi-modalMulti-pageMulti-DocumentVisualQuestionAnswering,多模态多页多文档检索增强生成):一个新的多模态RAG框架,能够灵活适应各类文档情境(封闭域和开放域)、问题跳转(单跳和多跳)以及内容形式(文本、图表、图形等)。如上图,M3DOCRAG框架借助多模态检索模型检索相关文

文章图片
#人工智能
不要自回归!扩散模型作者创业,首个商业级扩散LLM来了,编程秒出结果

打造 Mercury 系列模型的是一家创业公司,名为 Inception Labs,该公司的创始人之一 Stefano Ermon 实际上也正是扩散模型(diffusion model)的发明者之一,同时他也是 FlashAttention 原始论文的作者之一。Inception Labs 今天发布的 Mercury 具有巨大的性能和效率优势,据 Kuleshov 推文介绍,基于来自 MidJou

文章图片
#回归#数据挖掘#人工智能
美团发布全员信:优选转型升级,正式员工不裁员

对于优选转型升级内部通知显示,公司承诺所有优选正式员工不裁员,已完成与食杂内部快驴小象的业务接收计划,正对接其他业务相关岗位,妥善安排员工到新岗位;经食杂零售管理团队研究讨论,美团优选决定进行战略转型升级,继续探索“次日达+自提”模式和社区零售新业态,同时退出部分亏损区域,以更高效的业务模式去满足消费者对好商品、好服务的需求。充分重视在此次调整涉及到的人员安排,公司已完成和食杂内部快驴小象的业务接

#人工智能#深度学习#科技
强化学习之父当头一棒:RL版「苦涩的教训」来了!通往ASI,绝非靠人类数据

来源 | 新智元最近,图灵奖获得者、强化学习之父Richard Sutton,联同DeepMind强化学习副总裁David Silver共同发布了一篇文章。论文链接:https://storage.googleapis.com/deepmind-media/Era-of-Experience%20/The%20Era%20of%20Experience%20Paper.pdf有人称,这篇文章就犹如

#人工智能
刚刚,DeepSeek公布了推理引擎开源路径,OpenAI也将开始连续一周发布

对于未来的模型发布,我们将对开源社区和硬件合作伙伴保持开放和协作的态度。今天下午,DeepSeek 默默地在自己的 open-infra-index 库中发布了一份题为「开源 DeepSeek 推理引擎的路径」的文档,宣布将开源自己的内部推理引擎(internal inference engine)并与开源社区建立更广泛的合作。对于 OpenAI 这次发布周,目前最可信的信息还是来自 OpenAI

#开源
大语言模型与小语言模型协同机制综述

广义上讲,大小模型协同是指在一个系统中,大型语言模型与小型语言模型协同工作、优势互补的机制。这一范式可细分为多个研究方向,包括:流水线协同、并行协同、条件触发推理、知识蒸馏等(Wang, Zhang, & Hu, 2024;例如,流水线协同是一种串行执行模式,其中一个模型的输出作为另一个模型的输入(Wang et al., 2024)。通常 SLM 负责前置处理或生成候选结果,再由 LLM 进行复

#语言模型#搜索引擎#人工智能
重返母校,李沐深入畅谈LLM与个人生涯,演讲内容全收录!

图源:上海交通大学特聘教授俞勇朋友圈。Hi!大家好,说我是计算机杰出校友有点不敢当。很多年没有回来,这次回国想见一见本科导师。我的 AI 启蒙导师李老师说,来都来了,要不做个报告吧。本来我想讲一些关于语言模型的知识,但听讲座的各位不一定都是这个方向,所以我加了一些这些年转了很多地方、做出的不同选择的感想。第一部分我会讲得稍微技术一点,是有关整个语言模型的现在,以及未来情况的预测。语言模型可以分为三

文章图片
#智能电视
“这才是科技圈恐惧DeepSeek的真正原因” |参考独家

这也是一种推进AI发展的方式,即相比于依靠重大科技突破,会更多地采用“上规模”的“大力出奇迹”策略:构建更大的模型,使用更大的数据集,部署更大的算力。DeepSeek-R1的颠覆性在于对这种方式提出了疑问,展示出最优秀的生成式AI模型可以靠不那么大的算力和不那么多的资金投入来实现。DeepSeek-R1模型真正的影响不在AI的技术层面,而在AI的经济层面。本文由英国《卫报》网站于2月2日发表,原题

文章图片
#科技#人工智能
    共 255 条
  • 1
  • 2
  • 3
  • 26
  • 请选择