我自己的原文哦~                   https://blog.51cto.com/whaosoft/14247354

#OpenAI员工流失的背后

地盘争夺、倦怠、薪酬要求

近日,OpenAI的CTO Mira Murati宣布离职,同一天,首席研究官Bob McGrew、研究副总裁Barret Zoph也宣布离职。

近日,OpenAI的CTO Mira Murati宣布离职,同一天,首席研究官Bob McGrew、研究副总裁Barret Zoph也宣布离职。

据统计,这已经是2024年第11起OpenAI高管离职事件了。

至今,开启“ChatGPT时刻”的四位OpenAI领袖,只剩下CEO——Sam Altman挑大梁。其余三人中有两位离职,还有一位总裁Greg Brockman,正在“报复式”地享受他攒了九年的年假。

而OpenAI最初的十一位联创,至今也只剩下三位:总裁、CEO、以及机器人和机器学习领域专家Wojciech Zaremba。

自创立至今,这不是OpenAI第一次面对大规模内部分裂风波了,从Elon Musk“分手”,到Altman遭弹劾,再到如今高管各奔前程,OpenAI的内部斗争,一直没断过。

2018年第一次人事地震:对OpenAI又爱又恨的马斯克离开

OpenAI立项于2015年,支撑OpenAI成立的有十一位联合创始人,其中包括我们熟知的OpenAI首席科学家Ilya Sutskever,首席架构师John Schulman、倾注人工智能教育的Andrej Karpathy,以及金主Elon Musk等等。

就在2018年,OpenAI陷入了一次大规模内部人事危机,这次危机的罪魁祸首,恰恰是OpenAI联创之一:“金主爸爸”Elon Musk。

这位可是名正言顺的OpenAI摇钱树:早在2015年门洛帕克的一顿晚宴上,OpenAI刚刚立项时,Musk就联合了多名著名企业家、知名企业和机构,给OpenAI送来了十亿美元的投资。OpenAI初创三年间,马老板又贡献了数千万美元的资金,还招募一群顶尖AI人才加入OpenAI。

不过,众所周知,马老板是出了名的AI怀疑主义——他总是担心AI发展过盛会毁灭人类。

另一边,Sam Altman则是典型的疯狂科学家——我就是要把那个最强的AI给研究出来,也就是最终实现AGI。

那这两个对立的思想是咋走到一块去的?

当时,微软和谷歌等大型企业也在研究AI,Musk与他们的高管聊天谈到AI风险问题时,大型公司的普遍思维是:我不care!

而Altman不一样啊,他是这样想的:虽然我要研究AGI,但是我跟那些大公司不同,我是打算开源的。如果最强的AI让一家公司独立掌控,那也太可怕了。

于是,再加上其他几位联创,11个人一拍即合,马老板出钱,其他人出力,OpenAI就这么水灵灵地诞生了~

而OpenAI的最初愿景,正是“以最有可能造福全人类的方式,开发人工智能的非营利组织”。谁也没有想到,几年后,这个愿景变成了打向OpenAI的回旋镖。

一直到2018年,OpenAI一度陷入发展瓶颈期。因为非盈利组织的身份限制,再加上商业化进程难以推进,马老板估计是慌了,在想:我投了那么多钱,怎么连一点水花都没有?

于是,Musk在董事会上,提出了一个新的运营方案:让我来全权掌管并亲自运营OpenAI。

而这个方案,很快就遭到了董事会的拒绝,带头的恰恰是Sam Altman:我们不能让OpenAI成为Musk的“一言堂”。

其实,Musk早就有过类似的“前科”:在特斯拉,Musk成功以一名投资者的身份,把特斯拉真正的创始人兼第一任CEO——Martin Eberhard挤走了。而现在,Musk成了特斯拉的真正“话事人”,并想尽一切办法将原主的影响抹去……

OpenAI的董事们自然不会让Musk得偿所愿。但正是这次冲突,让OpenAI痛失多名大将。

2018年2月20日,Musk宣布离开OpenAI,还挖走了一位联创,Andrej Karpathy,送到特斯拉担任自动驾驶项目总负责人。另外,到了2023年,Musk创立了一个新的AI公司——xAI,正式与OpenAI交锋。这也是OpenAI第一次最大的内部纷争。

说实话,笔者还挺心疼Musk的,投了那么多钱,那么多精力和时间,最后换来的是这样的结果。如果让现在的Musk重新选一次,不知道他还会选择离开吗?

2023年第二次内部纷争:Ilya强行弹劾Altman

说到OpenAI发家史,就不得不提一下Ilya Sutskever与Sam Altman的爱恨情仇。

Musk的事情告一段落后,OpenAI相继推出了GPT-2、GPT-3.5、GPT-4,生成式AI由此开始火爆全球,热度空前绝后,而OpenAI也相对平稳的运行了这么一段时间。

时间来到2023年年底,此时,OpenAI已收到大量微软的融资,微软占股49%。董事会组成成员有6人,分别是:CEO Sam Altman;总裁Greg Brockman;首席科学家Ilya Sutskever;以及三名外部董事。

说起来,Musk和Altman等人成立OpenAI,不就是为了避免大厂独吞AI成果吗,怎么现在OpenAI最大的股东还是微软?

回归正题,就是这样的董事会,出事了。

OpenAI迎来了第二次内部纷争:由Ilya领导了一次对Sam Altman发起的政变,将Altman与Greg Brockman踢出局。

这次政变是安全派的Ilya,针对进步派的Altman发起的一次激进攻击,而Brockman恰好又是Altman的忠实迷弟。但是要同时弹劾两个人,该怎么办呢?Ilya只有一个选择:提前与三位外部董事串通一气。

11月16日,Sam Altman收到了来自Ilya Sutskever发来的一条会议链接,表示要在第二天跟他聊一聊。此时,Sam Altman工作团队的成员,Mira Murati,已经得到了Altman将被解雇的消息,但Mira并没有通知Altman,具体为什么我们往下看。

11月17日中午的会议上,Altman参会时发现,除了Brockman,OpenAI其他董事全员到场,而Ilya代表董事会正式通知Sam:你被解雇了,并让其他董事会成员进行投票决议。Sam可以代表未出席的Brockman投票,但三名外部董事和Ilya早已串通好,结果4票通过,2票反对。Ilya成功将Altman打出局。 紧接着,Ilya立刻向Greg Brockman发出会议邀请,用同样的方式罢免了Brockman董事会身份,但保留了公司职务。

到下午,OpenAI正式官宣,Altman已经出局,由Mira Murati接任CEO。 Sam Altman也发推进行证实,而Greg Brockman转发了Altman的推文,表示会与Altman同进退,并宣布辞职。

这场政变,过程仅用了半天的时间。速度之快让OpenAI成员和股东们一脸懵逼。

不过,新的OpenAI董事会很快受到了舆论声讨,OpenAI内部大量人员表示对政变非常不满。截至11月18日,三名高级研究人员宣布辞职,同时还有很大数量的技术人员宣布“即将辞职”。第一大股东微软和第二大股东Thrive Capital表示:WTF?然后很快开始对OpenAI董事会施加压力。

在OpenAI之外,早就跟Altman结下梁子的Musk,却私下对这次政变表示支持,并发推文声称:“Ilya有着良好的道德底线,对权力没有兴趣。除非绝对有必要,否则他是不会采取这种极端行动的。”

然而,空有Musk声援是不够的,新董事会顶不住股东和人员流失等巨大的压力啊。于是事情出现了反转:11月18号,政变的第二天,临时的CEO Mira就开始邀请Sam Altman回公司谈判了。同时,Altman发帖称“自己很喜欢OpenAI的团队”,而Mira转发还点了爱心。

19日,Altman和Brockman回到OpenAI旧金山总部进行谈判。然而谈判破裂,Ilya宣布Altman不会回归OpenAI,临时CEO Mira意图使Altman回归的想法,也让Ilya很不满意,于是取消了Mira的临时职位,由Twitch联合创始人Emmett Shear接任CEO。

11月20日,微软开始有动作了,其CEO Satya宣布将Altman和Brockman招入微软。

眼看Sam回归无望,OpenAI员工开始疯狂离职跳槽微软。Ilya召开内部员工会,向大家介绍了新任CEO时,参加的员工现场怒怼Ilya,问为什么要如此随意地弹劾Altman。

同时,Mira开始倒戈,她在推特上发起一封公开信,强硬要求Ilya及其新董事会辞职,让Altman和Brockman回归,否则她也会跳槽微软。以及,OpenAI高管和员工们在推特起义:“OpenAI is nothing without its people”,舆论压力直逼新董事会。大量员工联合签名,超过95%的员工签署联合信辞职,成为商业史上最大的辞职运动。

新董事会终于承受不住压力,开始一系列骚操作:

首先是Ilya公开忏悔:“我从未想过要伤害OpenAI,我会尽我所能让公司重新团结起来。” 新任CEO Emmett Shear也开始质疑董事会,表示如果不明确说明政变的原因,自己也会选择离职。

  • 另外,据外媒The Information报道,OpenAI试图合并到竞争对手Anthropic公司中,但被对方果断拒绝。

Anthropic,与OpenAI走相同的大模型赛道,影响力仅次于OpenAI。其创始人Dario Amodei曾经是OpenAI的员工,他的核心观点就是“倾注观察AI道德和伦理风险”,与Altman理念相悖,于是2020年离职创立Anthropic。

至于OpenAI这波操作,很明显就是Ilya向Anthropic抛了一次橄榄枝,请Amodei同志对OpenAI发展未来“拨乱反正”。

但是,但是Anthropic不接这橄榄枝啊。

事情解决无果,Ilya只能向Altman低头。11月21日,OpenAI新董事会重新邀请Altman进行谈判,而Altman让自己的朋友,爱彼迎的CEO——Brian Chesky代表自己谈判。

谈判以Altman方胜利结束,Altman回归OpenAI担任CEO,并组建新董事会:成员包括Bret Taylor(担任主席)、Larry Summers和Adam D'Angelo。

最顶尖的AI公司之一,OpenAI,本次政变,从发动到翻盘时长仅106个小时, 让一众吃瓜群众属实有些应接不暇。

其中,微软真的赢麻了,Altman胜利后发推庆祝,表示会加强与微软的合作。此外,他还点名赞扬了Mira,暗指自己已经原谅了她,不会进行报复。

跟峰回路转的故事相比,深究这场政变背后原因,就会发现事情细思极恐。

不出意外的话,政变的原因很可能是:Ilya与Altman理念不和——Altman顺应微软的意见,一路推动OpenAI从非盈利组织转型商业化,并无视AI安全、激进冲击IPO。这是一次Altman和Ilya的理念对抗,也是AI史上最大的进步派与安全派、加速主义与安全主义的斗争。

Ilya是图灵奖得主Geoffrey Hinton的学生,他们都是典型的安全主义,AI安全与对齐是Ilya的观点核心:

“人类喜欢动物,并自发的保护他们的生存,但我们并不会在两个城市间修高速的时候,征求动物的许可,我们这么做只是因为我们很需要。如果在刚开始AI进化时,不能够让AI诞生无条件的爱,那么以AI自我进化的速度,人类终究无法掌控。”

23年7月时,Ilya就宣布要成立一个名为“超级对齐”的项目,目的就是让AI对人类产生无条件的爱。但是超级对齐还没实现,就爆发了此次弹劾,导火索大概是之前沸沸扬扬的“Ilya在OpenAI时看到了无法处理的先进模型”。

按时间线推断,当时Altman在APEC会议上曾有一次令人毛骨悚然的发言,暗示了OpenAI已经开发出了比GPT-4更强大、更先进的东西。现在想来大概是Q* 项目(也就是草莓模型,现在的OpenAI o1)。这个模型在当时,一度被认为是“迈出了接近AGI的第一步”。

在商业化突飞猛进的背景下,AI进步派与安全派逐渐产生了微妙的对立,本次政变,则是以Ilya为首的安全派第一次对进步派发起进攻的信号。

但很明显,AI发展没有一条明确的主线,初期的参与者们也相对比较纯粹,多数OpenAI员工都把精力倾注在研发上,没有明确安全or进步的倾向,也没有宏大到拯救人类命运的理想和路线,Ilya如此果断的弹劾,反而给员工们传出了一个危险的信号。

这场政变,属实有些欧亨利了。

高层人事地震:联创仅剩3人

2024年,OpenAI又接二连三的发生高层人事变动。

似乎是被政变事件的后果给吓到了,为了防止OpenAI再度发生大规模罢工事件,现在OpenAI的高管离职,都要单独发一篇长文,公布前因后果。

  • 2月13日,OpenAI联创Andrej Karpathy宣布离职。此前,Karpathy被Musk挖走,从事于特斯拉自动驾驶领域,但他在2023年2月回到了OpenAI。

而这次离开OpenAI,Karpathy宣称原因是为自己的理想创业。7月份,他创办了一个人工智能教育平台,名为Eureka Labs,期望消除教育水平差距。

  • 5月14日:联合创始人兼首席科学家,策划了政变的Ilya Sutskever宣布离职。在离职前,Ilya一直在从事OpenAI的超级对齐工作;Ilya离职后,该团队也随之解散。

到6月份,Ilya宣布,联合创办了一家安全超级智能公司(Safe Super intelligence,简称SSI)。这个月他还筹集了10亿美元融资,用于开发安全超级智能系统,但此前该公司并没有任何产品。

  • 5月16日,OpenAI另一名高层,与Ilya共事的Jan Leike同样离职。在离职前,他痛批OpenAI,认为公司过快地发展AI却漠视AI安全的重要性。

于是5月月底,他就义无反顾地跳槽到Anthropic去了。

  • 8月6日,OpenAI联创John Schulman,跳槽加入竞争对手Anthropic。他在OpenAI中,领导了大模型后训练(post-training)的团队,在Ilya离职后还从事于对齐工作,现在他与Jan Leike在Anthropic又重新会合了。

当然Schulman也挽尊了一下:“并不是说OpenAI的对齐工作做得不够好……”

但很明显,被称为“ChatGPT架构师”的Schulman,如此重要的一号人物会离职退出,自然是与OpenAI的矛盾,到了不能化解的那一步……

  • 而雪上加霜的是,8月6日同一天,OpenAI总裁Greg Brockman宣布开始长期休假,并计划休假到年底;产品负责人Peter Deng,也宣布离开OpenAI。

Greg Brockman吐槽,自己已经9年没有好好放过假了……虽然ChatGPT还需要砥砺前行,但是我真的需要好好休息一下。

有阴谋论的网友问,是不是跟Altman吵架了?你去放假了,还在任职的联创就只剩Altman,还有研究员Wojciech Zaremba了。而Zaremba是典型的不参与争斗的技术流,OpenAI不就成为Altman的一言堂了吗?

但是想想,好像Brockman本来就跟Altman就是一个阵营的?

  • 9月10日,OpenAI高级语音模式#Her项目负责人Alexis Conneau宣布离职,并计划独立创业。
  • 9月26日,OpenAI首席技术官Mira Murati离职,称离职的原因是希望腾出时间做自己的的事。目前尚不知晓去向。

这位姐就是政变事件中,两头受气的临时CEO;另外,她还是今年OpenAI的GPT-4o发布会的主持人。

有网友怀疑,Mira的离职是Altman关于政变事件的报复。但笔者认为,时间线拉的太长了,解决速度如此之慢,不像Altman的行事风格(倒是像OpenAI实现期货的速度)。

  • Mira宣布离职几个小时后,OpenAI首席研究官Bob McGrew,以及研究副总裁Barret Zoph也陆续发文宣称离职。

感情OpenAI就是个人才输出机构啊,所有人都很牛,而每个人都可以在OpenAI以外的任何地方找到归宿(憋笑)。

说实话,除了Jan Leike表现出了非常强大的怨念以外,其他人的离职长文都没有实质性可以扒出来的内幕,但是仔细咬文嚼字的话,倒是能发现一些盲点:很多人感觉在OpenAI工作很累,尤其是Greg Brockman和Bob McGrew,大家都想拥有一些自己的时间。

大概总结一下的话,这些高层离职的原因基本上是:

  1. 理念不和

理念不和,说到底就是安全派与进步派之争。Altman是极致的AI进步派,想必,安全派在进步如此快的公司中待着,只会越来越内耗吧。此外,由于2023年的政变翻盘,安全派在OpenAI的地位也是日渐走低。

虽然Ilya在OpenAI中组起超级对齐团队倾注安全,但并没有得到太多的资源支持;随着ILya离职,超级对齐团队也人走鸟散,安全团队更是成为OpenAI中最没地位的团队。

  1. 工作受气

这个就挺有意思的,根据外媒The Information对Altman的副手及共事成员的采访,很多人表示Altman并不是一个优秀领袖:

  • Altman有时会向其他人传达不准确信息,最后导致员工不知道到底该怎么做;
  • Altman喜欢先斩后奏,而不是先商议后执行。

在这种工作环境下,OpenAI成员不仅工作难以执行,还会窝一肚子火,但是出于对Altman报复自己的担心,大部分人还是选择了哑巴吃黄连;实在受不了了,也只能辞职。

  1. 加班push

这个得到了很多OpenAI工作人员的证实:Altman很喜欢给别人上压力,为了加快新研究投产落地,他经常要求员工一周工作6天,加班加点从早干到半夜,在OpenAI内部属于是常态。

怪不得在OpenAI待了9年的Brockman承受不住,打算放长假……另外工作了8年的McGrew跟同事吐槽,他觉得工作很累,家里有一个几乎没时间用的游泳池,他很想找个机会好好享受一次。

  1. 钱没给到位

这个是真的,OpenAI在创立之初就是一个非盈利组织,而随着OpenAI员工不断扩张,现在的OpenAI也不得不向盈利低头。

OpenAI的员工拿到的报酬是“薪资+股权”,但很多有能之士认为,自己拿到的报酬,与OpenAI蒸蒸日上的现状不匹配,遂申请加薪,或者售卖自己的利润份额,当然也有一部分人选择跳槽,追求高薪工作。

而今年5月,OpenAI被曝光出离职协议的一条霸王条款。协议要求离职员工终身不得针对OpenAI发表批评言论,甚至不允许暴露这份协议存在。如果离职员工拒绝在协议上签字,或违反协议,那么OpenAI将会回收该员工拥有的股权。

协议曝光后,一石激起千层浪。Altman赶紧撇清关系:“确有此事,但我不知道这件事,过去没有收回过股权,未来也不会这样干。”但外媒扒出一份相关协议,文件上赫然印着Altmam的大名,啪啪打脸。

在这次的离职潮中,Mira离职似乎成为了压死骆驼的最后一根稻草。面对舆论风波,Altman不得不再次出面“嘴硬”解释:“领导层有变动很正常。”

有人搬出了政变时期的口号,反讽现在的Altman:你钻钱眼里了?现在你都众叛亲离了。

当然还有一种可能:Altman正在OpenAI中排除异己,剩下的就都是Altman的心腹了。

Sam Altman:是关键先生,还是精致的骗徒?

OpenAI如此多的纷争旋涡中,有一个人贯穿全局,始终站在风口浪尖,他就是OpenAI的CEO、公司的灵魂角色,Sam Altman 。

反对Musk一言堂的,是他;被Ilya弹劾后翻盘的,是他;被高管们众叛亲离的,也是他。

在去年政变事件中,Altman还是OpenAI员工口中的“关键先生”,享受众星捧月的感觉:当时有一个观点深入人心——没了Altman,OpenAI也活不久了。

然而时间回到当下,Ilya和Altman处境互换,现在轮到Altman陷入舆论旋涡了。目前最大的矛盾就是:Altman推崇的商业化策略,与OpenAI初衷、以及团队其他人的理念相悖。

今年2月底的时候,Elon Musk对OpenAI及Altman提起了一项诉讼,声讨Altman和Brockman欺骗了他,让他以为OpenAI是一家非营利组织。Musk指控,现在OpenAI公司和Altman已经背离了最初的使命。

这种指控并非空穴来风。Musk离开OpenAI后,OpenAI很快就面临一个难题:非营利组织的架构无法持续吸引顶级人才,无论是薪资期权还是资源环境,人才似乎没有选择OpenAI的理由。

为了摆脱非困境,Altman在ChatGPT推出之前,就创立了一个盈利实体OpenAI LP,试图解决为非营利组织名义下进行营利操作的问题。这家公司完全由OpenAI控制,但可以进行营利操作。

不得不承认,Altman的商业化策略,确确实实帮OpenAI实现了一定程度上的经济独立,也或多或少的刺激了技术的进步速度。

Ilya的政变,更是成为了Altman推动商业化策略的垫脚石。

如果说Ilya是理想主义的科学家,那Altman更像是现实主义的商人。此前这两个势力总是保持着微妙的平衡,随着Ilya董事会的全面倒台,天平逐渐向Altman方倾斜。在《大西洋月刊》上,它是这样写的:

在ChatGPT之后,赚取收入和利润的道路变得清晰,你再也无法为“理想主义研究实验室”的身份做辩护了。那里有客户正等着服务。

借着这一势头,OpenAI产品部门加速推进商业化的进程。2023年2月,付费版本的ChatGPT问世;3月份,OpenAI又推出了API工具;之后GPT-4问世,又一次刺激了人们的AI消费热情。

Altman尝到甜头后,越来越中意OpenAI产品的变现能力。说实话,如果我是Altman,我也会想尽办法利用这种变现能力的。

于是,Altman做了一个违背祖宗的决定。9月26日,外媒The Information报道,OpenAI计划将其核心业务重组为营利性公司,未来不再受非营利性董事会的控制。

对于OpenAI来说,最初的愿景——以最有可能造福全人类的方式,开发人工智能的非盈利组织——就像回旋镖一样打在这里了。

这也不是Altman第一次“行骗”了。

  1. 违背OpenAI初衷,走向商业化;
  2. 否认知晓离职协议霸王条款,却被扒出一份亲笔签名过的文件;
  3. 不向员工表达真实需求,工作流对接困难;
  4. Sora AI期货无限期延期;
  5. (更多事例欢迎补充)

但是你直接问他算不算违背了OpenAI初心,他会说:没有!

相关人士透露,OpenAI的新结构将类似于Anthropic和xAI,注册为公益性公司。这是一种营利性公司,旨在除了盈利之外还促进社会责任和可持续性。同时,OpenAI将继续保留一个非营利部门,追求慈善目标并持有营利性公司的股份。

目前尚不清楚这个非营利部门的有什么独立使命,该不会是负责对齐任务吧?如果是那样的话就太戏剧化了……

OpenAI一位发言人表示,其核心使命仍然是非营利组织,从未动摇过:

我们仍然专注于打造让所有人受益的人工智能,正如之前所述,我们与董事会合作,确保以最佳状态完成使命。非营利组织是我们使命的核心,并将继续存在。

9月26日,同样有媒体称OpenAI公司正商讨给Altman 7%的股权,这也会是Altman第一次获得OpenAI股份。

Altman知道后,跟员工们说“这很荒唐,别信”。

回到这一part标题的问题上,Altman到底是“关键先生”,还是“骗徒”?

我认为,虽然Altman的领导能力不被很多人认可,但Altman的炒作能力可是一流的啊。无论如何,站在OpenAI的角度来看,姑且给Altman打上“关键先生”的标签吧。

...

#给机器人装上「虫脑」

非Transformer液态神经网络终于来了!MIT CSAIL负责人创业成果

一个受线虫启发的全新架构,三大「杯型」均能实现 SOTA 性能,资源高度受限环境也能部署。移动机器人可能更需要一个虫子的大脑。

在大模型时代,谷歌 2017 年开创性论文《Attention Is All You Need》中提出的 Transformer 已经成为主流架构。

然而,刚刚一家由 MIT 计算机科学与人工智能实验室 (CSAIL) 前研究人员共同创立的初创公司 Liquid AI 却走出了不一样的路线。

Liquid AI 表示他们的目标是「探索构建超越生成式预训练 Transformer (GPT) 基础模型的方法」。

为了实现这一目标,Liquid AI 推出了其首批多模态 AI 模型:Liquid Foundation Models(LFM)。这是基于第一原理构建的新一代生成式 AI 模型,其 1B、3B 和 40B LFM 在各个规模上均能实现 SOTA 性能,同时保持更小的内存占用和更高效的推理。

Liquid AI 后训练主管 Maxime Labonne 在 X 上表示,LFM 是他职业生涯中最自豪的版本 ,LFM 的核心优势在于它们能够胜过基于 Transformer 的模型,同时占用更少的内存。

有人表示,LFM 是 Transformer 的终结者。

还有网友盛赞 LFM 是游戏规则的改变者。

更有网友认为「可能是时候放弃 Transformers 了,这种新架构看起来很有前途。」

Liquid AI 发布三款模型

LFM 系列拥有三种不同的尺寸和变体:

  • 密集型 LFM 1.3B(最小),非常适合资源高度受限的环境。
  • 密集型 LFM 3B,适合在边缘部署优化。
  • LFM 40.3B MoE 模型(最大,类似于 Mistral 的专家混合模型),专为处理更复杂的任务而设计。

SOTA 性能

LFM-1B 与同等规模模型的比较。LFM-1B 在各项基准测试中均取得最高分,成为该规模下最先进的模型。这是非 GPT 架构首次显著优于基于 Transformer 的模型。举例来说,LFM 1.3B 在第三方基准测试中优于 Meta 的 Llama 3.2-1.2B 和微软的 Phi-1.5。

图片

LFM-3B 实现了令人难以置信的性能,在与 3B transformer 模型、混合模型和 RNN 模型的比较中名列第一。在多个基准测试中也与 Phi-3.5-mini 相当,同时规模小了 18.4%。可以看出 LFM-3B 是移动和其他边缘文本应用的理想选择。

图片

LFM-40B 在模型大小和输出质量之间实现了新的平衡。它在运行时可以激活 12B 参数,其性能媲美更大的模型,而 MoE 架构可实现更高的吞吐量,并可在更具成本效益的硬件上进行部署。

图片

内存高效

与 Transformer 架构相比,LFM 占用的内存更少。对于长输入尤其如此,因为基于 Transformer 的 LLM 中的 KV 缓存会随着序列长度线性增长。通过高效压缩输入,LFM 可以在相同硬件上处理更长的序列。与其他 3B 类模型相比,LFM 占用的内存最少。举例来说,LFM-3B 仅需要 16 GB 内存,而 Meta 的 Llama-3.2-3B 则需要超过 48 GB 内存。

图片

LFM 真正利用了上下文长度

 下表比较了几种模型在不同上下文长度下的表现。 

图片

这种高效的上下文窗口首次在边缘设备上实现了长上下文任务。对于开发者来说,它解锁了新的应用,包括文档分析和摘要、与上下文感知聊天机器人进行更有意义的交互,以及改进的检索增强生成 (RAG) 性能。

这些模型不仅在原始性能基准方面具有竞争力,而且在运营效率方面也具有竞争力,使其成为各种用例的理想选择,从金融服务、生物技术和消费电子产品领域的企业级应用程序到边缘设备的部署。

用户可以通过 Lambda Chat 或 Perplexity AI 等访问。

Liquid 如何超越生成式预训练 Transformer (GPT)

 Liquid 使用了一种混合的计算单元,这些计算单元深深植根于动态系统理论、信号处理和数值线性代数的理论中。结果就是开发出了通用的人工智能模型,这些模型能够用来模拟任何类型的序列数据,包括视频、音频、文本、时间序列和信号,以此来训练其新的 LFM。 

图片

早在去年,Liquid AI 就使用了一种名为 LNN(Liquid Neural Networks)的方法,与需要数千个神经元来执行复杂任务的传统深度学习模型不同,LNN 表明,更少的神经元(结合创新的数学公式)可以实现相同的结果。

Liquid AI 的新模型保留了这种适应性的核心优势,允许在推理过程中进行实时调整, 而不会带来传统模型相关的计算开销。可以高效处理多达 100 万个 token,同时将内存使用量降至最低。

例如,在推理内存占用方面,LFM-3B 模型的表现优于 Google 的 Gemma-2、Microsoft 的 Phi-3 和 Meta 的 Llama-3.2 等流行模型,尤其是在 token 长度扩展的情况下。

图片

虽然其他模型在处理长上下文时内存使用量会急剧增加,但 LFM-3B 占用的空间却小得多,因此非常适合需要大量顺序数据处理的应用程序,例如文档分析或聊天机器人。

Liquid AI 已将其基础模型构建为跨多种数据模态(包括音频、视频和文本)的通用模型。

凭借这种多模态能力,Liquid 旨在解决从金融服务到生物技术和消费电子产品等各种行业特定挑战。

Liquid AI 正在为多家硬件制造商的产品优化其模型,包括 NVIDIA、AMD、Apple、Qualcomm 和 Cerebras。

Liquid AI 正在邀请早期用户和开发者测试他们的新模型并提供反馈。虽然目前模型还不完美,但公司计划利用这些反馈来改进产品。他们将于 2024 年 10 月 23 日在麻省理工学院举行正式发布会。

为了保持透明度和推动科学进步,公司计划在发布会前发表一系列技术博客文章。他们还鼓励用户进行红队测试,探索模型的极限,以帮助改进未来版本。

Liquid AI 推出的 LFM 结合了高性能和高效的内存使用,为传统的基于 Transformer 的模型提供了一个有力的替代选择。这使得 Liquid AI 有望成为基础模型领域的重要玩家。

Liquid AI :从一条小虫子开始

这家公开与 OpenAI 和其他大语言模型公司竞争的创业公司,由 MIT 计算机科学和人工智能实验室 CSAIL 孵化,成立于 2023 年 3 月。

2023 年 12 月,公司拿到种子轮融资 3750 万美元,估值达到 3 个亿。

投资人包括 GitHub 联合创始人 Tom Preston Werner、Shopify 联合创始人 Tobias Lütke 、 Red Hat 联合创始人 Bob Young,等。

MIT CSAIL 主任 Daniela Rus 是公司创始人之一,这位著名的机器人学家和计算机科学家也是该实验室的首位女性主管。

除了 Daniela Rus,Liquid AI 另三位联合创始人都曾是 MIT CSAIL 博士后研究人员。

联合创始人兼 CEO Ramin Hasani 在 MIT CSAIL 从事博士后研究之前,曾是美国最大的基金管理公司之一先锋集团( Vanguard )的首席人工智能科学家。

联合创始人兼 CTO Mathias Lechner 早在维也纳工业大学读书时,就和 Hasani 一起研究过线虫的神经结构。

联合创始人兼首席科学官 Alexander Amini 曾是 Daniela Rus 的博士生。

四位创始人(从左到右)CEO Ramin Hasani,Daniela Rus,首席科学官 Alexander Amini 和 CTO Mathias Lechner

2017 年,Daniela Rus 将 Hasani 和 Lechner 「挖到 」MIT CSAIL,Rus 和她的博士生 Amini 也加入到液态神经网络的研究中。

Daniela Rus 指出,生成式 AI 在安全、可解释性以及算力等方面存在明显局限性,很难被用于解决机器人问题,特别是移动机器人。

受科研界的「常客」秀丽隐杆线虫的神经结构启发,Daniela Rus 和她的实验室博士后人员研发出一种新型的灵活神经网络,也被成为液态神经网络。

秀丽隐杆线虫也是唯一完成连接组(connectome)测定的生物体(截至 2019 年)。虽然大脑简单,但在学习和适应环境方面也比当下任何人工智能系统都要好得多。

秀丽隐杆线虫体长仅 1 毫米、只有 302 个神经元、96 块肌肉,但却具备感知、逃逸、觅食、交配等复杂智能行为。

它是最简单的生命智能体,也是通过生物神经机理模拟实现通用人工智能的最小载体。

近几年来,科研人员也在利用线虫神经的研究成果进行计算机生物仿真。通过研究线虫大脑如何工作,Daniela Rus 等人设计出一种「液态时间常数网络」( Liquid Time-constant Networks):

一个连续时间模型,由多个简单的动态系统组成,这些系统通过非线性门相互调节。

如果说,标准的神经网络犹如一层层间隔均匀的水坝,每层水坝上安装了许多阀门(权重),计算的洪流每流经一层水坝,都要透过这些阀门,汇总后再奔向下一层。

那么,液态神经网络不需要水坝,因为,每个神经元都由微分方程 (ODE)控制。

这种网络的特点是时间常数可变,输出通过求解微分方程得到。研究表明,它在稳定性、表达能力和时间序列预测方面都优于传统模型。

后来,Daniela Rus 等人又提出一种近似方法,可以用闭式解来高效地模拟神经元和突触之间的相互作用( Closed-form continuous-time neural networks ),不仅大大提高了模型的计算速度,也显示出更好的可扩展性,在时间序列建模方面表现出色,优于许多先进的循环神经网络模型。

Liquid AI 团队成员曾声称,该架构适合分析任何随时间波动的现象,包括视频处理、自动驾驶、大脑和心脏监测、金融交易(股票报价)和天气预报等。

除了像液体一样的灵活性,与动辄数十亿参数规模的生成 AI 模型相比,液态神经网络的另一个特点是规模小得多。

例如,可在资源高度受限环境中部署的 LFM 1.3B,参数仅 1.3B(与 GPT-2 最大版本 1.5B 相近),同时保持了更小的内存占用和更高效的推理,可以在各种机器人硬件平台上运行。

另外,由于尺寸小、架构简单,液态神经网络也有可解释性方面的优势。

不过,全新架构将如何与 OpenAI 等竞争对手的主流模型相抗衡还有待观察。

Hasani 曾表示,目前 Liquid AI 没有计划为消费者开发像 ChatGPT 这样的应用程序。公司首先关注希望为金融和医学研究建模的企业客户。

参考链接:

​https://venturebeat.com/ai/the-tireless-teammate-how-agentic-ai-is-reshaping-development-teams/​

​https://arxiv.org/abs/2106.13898​

​https://arxiv.org/abs/2006.04439​

​https://www.jiqizhixin.com/articles/2023-12-12?from=synced&keyword=Liquid%20AI​

...

#全方位评估OpenAI o1

Leetcode刷题准确率竟这么高

计算机科学、数学、自然科学、医学、语言学、社会科学……OpenAI o1擅长什么?还有哪些不足? 

OpenAI 的 o1-preview 模型已经发布两周了,网上也有了很多零星的测评。不过,大部分测评都侧重于某一个方面,对于 o1-preview 的系统评估目前还比较匮乏。

在一篇长达 280 页的论文中,来自加拿大阿尔伯塔大学等机构的研究者报告了他们对 o1-preview 的系统评估结果,非常具有参考价值。

  • 论文标题:Evaluation of OpenAI o1: Opportunities and Challenges of AGI
  • 论文链接:https://arxiv.org/pdf/2409.18486

具体来说,这项综合研究评估了 o1-preview 在各种复杂推理任务中的性能,涵盖多个领域,包括计算机科学、数学、自然科学、医学、语言学和社会科学。通过严格的测试,o1-preview 展示了非凡的能力。

主要结论如下:

  • 编程挑战:在解决复杂的竞赛性编程问题上,o1-preview 的成功率达到了 83.3%,超过了众多的人类专家。
  • 放射学报告生成:在生成连贯且准确的放射学报告方面,o1-preview 的表现优于其他评估过的模型。
  • 高中数学推理:在高中水平的数学推理任务中,o1-preview 达到了 100% 的准确性,并提供了详细的解题步骤。
  • 自然语言推理:无论是在通用领域还是医疗等专业领域,o1-preview 都展现出了高级的自然语言推理能力。
  • 芯片设计任务:在 EDA 脚本生成和错误分析等芯片设计任务中,o1-preview 的表现超过了专门的模型。
  • 人类学和地质学:o1-preview 在人类学和地质学这两个专业领域展示了深刻的理解和推理能力。
  • 量化投资:o1-preview 具有全面的金融知识和统计建模技能,在量化投资领域表现良好。
  • 社交媒体分析:在包括情感分析和情绪识别在内的社交媒体分析任务中,o1-preview 也有有效的表现。

图片

尽管 o1-preview 在一些简单的问题上偶尔会出现错误,并且在某些高度专业的概念面前遇到了挑战,但总体结果表明,该模型在向通用人工智能(AGI)迈进的过程中取得了显著进展。

评估不仅突显了 o1-preview 目前的优势和局限性,还指出了未来发展的关键领域,如多模态集成、特定领域的验证和实际应用中的伦理考虑。这些发现为大型语言模型在众多领域的潜力提供了宝贵的见解,并为 AI 研究和应用的进一步发展铺平了道路。

论文目录如下:   

图片

以下是论文中的部分结果展示。

代码生成

为了评估 o1-preview 的编码能力,作者在 Leetcode 竞赛环境中对其性能进行了扩展测试。

如表 2 所示,o1-preview 成功通过了 12 个问题中的 10 个,通过率高达 83.3%。该模型在 Weekly Contest 413 中只答错了一个问题,在 Biweekly Contest 138 中又答错了一个问题。值得注意的是,这两个问题都被归类为「hard」级别。虽然花了几分钟才能生成解决方案,但 o1-preview 无法在三次提交尝试中通过这些挑战。

图片

尽管存在这些挑战,但与顶级人类竞争者相比,01 -preview 展示了相当或更快的代码生成速度。这说明 01 -preview 具有较强的推理能力,可以有效处理大部分的编码任务。然而,在特别复杂或计算密集的情况下,模型的性能仍然有限,正如在这些困难的问题中观察到的那样。

图 3 和图 4 演示了编码评估中的两个示例。在图 3 中,01 -preview 展示了它有效解决简单问题的能力,用最少的计算时间完成任务并成功通过所有测试用例。然而,如图 4 所示,该模型遇到了一个难题。在这个失败案例中,01 -preview 最初生成了一个正确的解决方案,但是解决方案超出了时间限制。在第一次提交之后,模型陷入了试图优化代码时间复杂度的循环中,这在随后的尝试中导致了不正确的解决方案。这个例子突出了该模型在处理需要显著优化的复杂问题时的挣扎,它为提高效率所做的努力导致了重复的错误。

图片

图片

放射学报告生成

为了评估 o1-preview 的医学报告生成能力,作者使用了来自中南大学湘雅二医院的中文放射学报告数据集 SXY。它包含 317,339 份放射学报告,分为五个类别:胸部报告、腹部报告、肌肉骨骼报告、头部报告和头颈面部报告。

作者通过比较 o1-preview 与基线模型(如 gpt-4-turbo、gpt-4o 等)的 ROUGE 指标,评估了 o1-preview 生成医学报告的能力。表 3 提供了 o1-preview 与另外五种模型的详细性能对比。

图片

如表 3 所示,与医生撰写的报告相比,o1-preview 生成的报告的 ROUGE 评分为:R-1: 0.3019, R-2: 0.0448, R-L: 0.2841,在 6 种模型中排名最高。值得注意的是,o1-preview 的平均报告生成时间也最长,为 15.051 秒。

图 5 和图 6 展示了两个例子,说明了作者对放射学报告生成的评估结果。在评估过程中,o1-preview 展示了在零样本情况下快速生成可靠放射学报告的能力,突显了其强大的推理和知识迁移能力,以及在医疗领域的潜力。作者观察到,o1-preview 的报告与人类写作模式高度一致,结构清晰,语言简洁。尽管其他模型未能达到最高的相似度分数,但大多数模型能够遵循指令并完成任务。

图片

图片

自然语言推理

在本节中,作者评估 o1-preview 在自然语言推理(NLI)任务上的表现。NLI 任务涉及确定两个句子之间的逻辑关系,结构化为一个分类任务,其中第二个句子要么从第一个句子逻辑上推导出来,要么与第一个句子矛盾,要么是中立的(可能是真实的)。

作者从每个数据集的测试集中随机抽取两个测试样本,共进行 10 个测试用例。表 4 给出了每个数据集的示例,其中 01 -preview 准确地分析了逻辑关系,展示了高级推理能力和特定于领域的知识。这展示了它在各种复杂场景中的实际应用的潜力。

图片

芯片设计

o1-preview 在芯片设计中的实验涵盖工程助手聊天机器人、EDA 脚本生成和错误总结分析三大关键任务,展示了其在技术咨询、代码生成和错误检测方面的强大能力。这些应用不仅有望彻底改变半导体行业,减少时间和错误成本,优化设计性能,还标志着向实现通用人工智能(AGI)的重要迈进,证明了 AI 在处理复杂、高风险专业任务中的潜力。

在评估 o1-preview 作为工程助手聊天机器人的表现时,作者发现其在多个任务中展现出比 ChipNeMo 更高级的解决问题能力。比如在第一个例子中(图 21),询问如何使用 testgen 框架运行多个随机测试种子。ChipNeMo 的回应虽然功能正确,但较为基础,缺乏对大规模模拟优化的深入见解。相比之下,o1-preview 不仅覆盖了基本配置步骤,还详细解释了如何并行化测试过程,确保测试的随机性和可扩展性,展示了更高水平的专业知识,特别是在处理大规模模拟中的随机数生成完整性和错误处理等关键问题上。

图片

在 EDA 脚本生成任务中,作者测试了 o1-preview 和 ChipNeMo 生成 EDA 工具脚本的能力。

在图 24 所示的第一个例子中,任务是编写 TOOL1 代码来统计给定矩形边界内的触发器单元数量,这是物理设计中常见的操作,用于确定逻辑分布和优化布局。ChipNeMo 的回应提供了一个基本的解决方案,涵盖了如何遍历设计层次结构并在指定区域内计数触发器的基本机制。虽然其结构和功能正确,但灵活性有限,未涉及处理边缘情况(如重叠区域或边界条件)或优化搜索算法以适应更大设计的高级特性,这些在生产环境中是至关重要的。

相比之下,o1-preview 的回应更为细致。除了提供核心代码外,o1-preview 还讨论了潜在的优化策略,如如何高效遍历大型设计和更优雅地处理边界条件。此外,o1-preview 还包括了扩展功能的注释和建议,如添加计数其他类型单元的功能或将脚本集成到更大的设计规则检查自动化流程中。这一回应展示了对实际 EDA 环境中复杂性的深刻理解,强调了灵活性和可扩展性的重要性。o1-preview 能够预见工程师在大规模设计中部署此脚本时可能遇到的问题,使其回应在专业环境中更具实用性。

图片

图片

在 Bug Summary & Analysis 任务中,作者测试了 o1-preview 和 ChipNeMo 分析与芯片布线电流测量相关的错误报告的能力,这是一个在芯片功率优化中至关重要的任务。半导体设计中的错误分析不仅涉及识别问题的根本原因,还需要以一种使团队能够高效优先处理和解决的方式总结问题。

ChipNeMo 的技术总结详细列出了功耗测量的条件,如测试模块的活动百分比和所需的电压角。管理总结仅传达了用户之间的讨论,没有深入分析或提供明确的行动计划。ChipNeMo 的回应主要集中在总结错误报告的即时事实,缺乏对功耗测量对未来设计影响的深入分析,也没有提出将硅数据与预硅估计相关联的策略。

相比之下,o1-preview 不仅涵盖了与 ChipNeMo 相同的技术和管理方面,还深入分析了功耗测量的更广泛影响。它讨论了布线功耗数据如何影响未来的芯片设计,特别是优化功耗密度和提高面积效率,这些因素在现代芯片开发中至关重要。

此外,o1-preview 提供了更详细的请求解读,建议使用更精细的隔离技术和数据分解方法。它还提供了一个更清晰的任务分配框架,确保工程团队能够优先处理任务,并设定具体的时间表和里程碑,以隔离和测量布线宏单元的功耗。

图片

图片

图片

高中数学推理

为了调查 o1-preview 的数学性能,作者设计了一系列涵盖不同难度级别的测试。本节首先从高中数学竞赛题目开始,随后在下一节中涉及大学水平的数学问题,以便观察模型在不同复杂度层次上的逻辑推理能力。

在本节中,作者选择了两个主要的数学领域:代数和计数与概率。选择这两个领域是因为它们高度依赖于问题解决技能,并且常用于评估逻辑和抽象思维。

具体来说,作者进行了 10 项测试,包括 5 个代数问题和 5 个计数与概率问题,难度等级从 1 到 5 不等。o1-preview 表现出色,所有 10 个测试案例均达到了 100% 的准确率。这一稳定的表现表明,它能够处理从简单到复杂的各类数学问题。除了提供正确的最终答案外,o1-preview 的解决方案还详细地展示了每一步的推理过程,这些步骤与参考答案中的关键步骤一致。这种详细的解答方式表明,模型在数学领域的逻辑推理能力已接近人类水平。

以下是一些测试案例:  

图片

图片

大学数学推理

本节中的问题由作者手动创建。这些问题因其高度的抽象性和所需的复杂推理而特别具有挑战性。这些问题可以大致分为以下几类:

  • 基本离散数学问题。
  • 高级离散数学问题。
  • 微积分问题。
  • 高级定理的证明。

表 5 列出了 o1-preview 在各类问题中的答题情况。

图片

总的来看,o1-preview 在大学数学推理中表现出了以下优点:  

  • 全面的数学知识:o1-preview 对大学水平的数学术语和经典定理有全面的理解。即使问题涉及高级概念,模型也能轻松理解问题陈述。当问题可以通过直接应用一两个定理(无论多高级)解决时,模型能够有效地识别并应用适当的定理。
  • 初步的创造性推理能力:o1-preview 展示了一定的创造性推理能力,能够做出深刻的观察,有时还会构建小例子来辅助观察。然而,这种能力尚处于初级阶段,还不够成熟。
  • 类似人类的错误:o1-preview 的一些错误非常像人类的错误。与早期模型(如 GPT-4o)的错误(常常模糊、重复且充满无关细节)不同,新模型的错误更加相关和可理解。实际上,这些错误类型类似于大学生可能会犯的错误。

但同时,他们也观察到了一些局限性:  

  • 观察和泛化的局限:虽然 o1-preview 能够做出深刻的观察并从构建的例子中识别模式,但也可能被自己的观察误导,导致不当的泛化,误以为巧合适用于更广泛的情况。总体来看,没有证据表明模型真正理解逻辑原则。在面对长推理链时,模型甚至可能陷入循环推理。
  • 缺乏对问题难度的意识:o1-preview 似乎缺乏对问题难度的意识,往往优先考虑效率而非适当性。例如,在问题 7 中,它应用了过于先进的技术来解决一个中等难度的问题。
  • 处理不同类型问题的能力差异:总体而言,模型在处理高度抽象、需要高级定理但推理链较短的问题时表现更好,如最后五个问题。而在处理陈述简单但需要较少高级知识且推理过程较长的问题时表现较差,如三个高级离散数学问题。

作者在论文中针对很多问题都给出了详细分析。

结论

作者对 o1-preview 在不同领域的全面评估揭示了几个主要观点: 

  • 高级推理能力:o1-preview 在高中数学、量化投资和芯片设计等多个领域都表现出卓越的逻辑推理能力。它显示出很强的逐步解决问题的能力,以及处理复杂、多层次任务的能力。
  • 特定领域知识:该模型在医学遗传学、放射学、人类学和地质学等不同领域的知识广度令人印象深刻。在这些领域,它的表现经常达到或超过研究生或早期职业专业人士的水平。
  • 创造性和实际应用:在三维布局生成和艺术教育等领域,o1-preview 展示了创造力和实际应用技能,生成了功能设计和结构化教案。不过,在这些领域,它仍然缺乏人类专家的灵活性和适应性。
  • 自然语言理解:该模型在情感分析、社交媒体分析和内容摘要等需要细微语言理解的任务中表现出色。它展示了捕捉复杂表达(如讽刺和挖苦)的能力,但在处理非常微妙的情感细微差别时仍有困难。
  • 科学与医学推理:o1-preview 在医学诊断、放射报告生成和回答复杂的医学考试问题方面表现出了很强的能力。虽然它在这些方面表现出色,但其推理过程有时与训练有素的医学专家有所不同。
  • 局限和有待改进的地方:尽管 o1-preview 的表现令人印象深刻,但它在处理极其抽象的逻辑谜题、适应实时动态情况以及在高等数学和随机过程等领域的最复杂任务中始终表现出色方面仍存在局限性。
  • 现实世界的应用潜力:该模型的性能表明,它在教育支持、医疗援助、金融分析和科学研究等各个领域都有巨大的应用潜力。不过,在关键的实际应用场景中部署之前,还需要进一步完善和验证。

.....

#国防科大提出灵巧手抓取策略迁移新方案

一手训练,多手应用

本文来自国防科技大学智能图形计算团队,主要研究方向包括智能图形学、具身智能、机器学习、三维视觉等。团队拥有多名国家级人才,在国际上较早开展了数据驱动三维感知、建模与交互工作,发表TOG/TPAMI/TVCG等A类论文200余篇,获得湖南省自然科学一等奖、中国计算机学会自然科学一等奖、军队科技进步奖、军队教学成果奖、湖南省优秀研究生导师团队等。

在机器人研究领域,抓取任务始终是机器人操作中的一个关键问题。这项任务的核心目标是控制机械手移动到合适位置,并完成对物体的抓取。近年来,基于学习的方法在提高对不同物体的抓取的泛化能力上取得了显著进展,但针对机械手本身,尤其是复杂的灵巧手(多指机械手)之间的泛化能力仍然缺乏深入研究。由于灵巧手在不同形态和几何结构上存在显著差异,抓取策略的跨手转移一直存在挑战。

为了解决这个问题,来自国防科技大学和深圳大学的研究者提出了一种新颖的策略学习方法。通过利用对不同灵巧手的一致性表征设计,以及分离灵巧手高层运动生成和低层关节控制,该方法实现了将在一个灵巧手上训练的策略以低代价迁移到其他灵巧手,并同时保持抓取性能和对物体的泛化性。

  • 论文标题:Learning Cross-hand Policies of High-DOF Reaching and Grasping
  • 论文地址:https://arxiv.org/abs/2404.09150
  • 项目主页:https://qijinshe.github.io/IBS-Retargeting.github.io/

该工作的创新点主要有以下部分:

运动和控制分离的层次化框架:将高层次的抓取运动预测与低层次的关节控制分离开来,通用的策略负责规划灵巧手整体的运动,专用的控制模块负责将运动转化为对特定机械手关节的控制,这一设计提高了模型在多种灵巧手上的适应性;

手无关的状态和动作表示:提出了一种通用的表示方法,这种表示结合了灵巧手间通用的关键点以及侧重刻画手和场景交互的几何特征,分别避免了灵巧手结构和几何差异对策略泛化带来的影响,使其能够在不同的机械手之间转移,无需针对每个机械手单独训练策略模型;

基于 Transformer 的策略网络结构设计:通过注意力机制,模型能够在各种灵巧手上整合不同手指和表示的信息,并使其适用于不同手指数量的灵巧手,进一步提高了抓取策略的泛化能力。

相关工作

静态抓取生成:现有的抓取生成技术可以分为分析法和数据驱动法。分析法通过采样或优化技术寻找确保物理稳定性的抓取姿态,尽管适用于不同抓手的抓取规划,但运行速度较慢 [1]。数据驱动法直接根据物体特征预测抓取姿态,运行速度快,但是缺乏对机械手本身的泛化性。为了跨越不同机械手,一些改进方法通过预测接触点并结合逆运动学 [2] 或强化学习 [3] 生成抓取姿态, 其他方法如 AdaGrasp [4] 和 GenDexGrasp [5] 则通过接触图(contact map)进行抓取预测。然而,这些方法主要关注最终抓取姿态,缺少对整个抓取过程的规划调整。

运动重定向:运动重定向用于将一个实体的动作转移到另一个实体,可分为基于学习的方法和启发式方法。学习法将其视为序列生成问题 [6][7],启发式方法通过匹配关节或关键点计算目标机器人的姿态 [8]。在抓取任务中,已有一些方法将人手动作实时转移到灵巧手上来收集灵巧手的运动轨迹 [9]。然而,由于动态环境中的误差,重定向动作的可复现性仍然是挑战,因此通常仅用作策略训练中的数据[10]。

动态策略转移:一些研究通过将机器人形态结构信息整合到策略中,实现了机器人步态控制的策略转移 [11]。用图神经网络 [12] 或 Transformer [13] 来编码机器人组件之间的连接和关系被验证是提高策略对机器人本体结构泛化能力的有效方法。然而,在灵巧手抓取这种需要和场景产生大量接触的任务中,机器人的几何差异以及和场景交互关系也需要被充分考虑以实现策略迁移。

方法描述

该工作提出了一种可以在不同灵巧手间迁移的抓取策略及其学习方法,总体框架如图所示。整个方法分为两个关键阶段:基于通用的几何和结构无关的状态动作表示的抓取策略模型,以及面向特定灵巧手的自适应模型。前者负责把控灵巧手总体的运动生成,而后者则将相应的运动转化为灵巧手实时的关节动态变化。

图片

图 1 跨手迁移的抓取策略学习的整体框架图

为了使得学习的策略模型可以在不同灵巧手之间实现泛化,该工作设计了一套不同灵巧手普适的状态和动作表征。它使用了灵巧手上的语义关键点作为表征,来克服灵巧手的结构差异。这些语义关键点不仅可以统一指代不同灵巧手上具有相同语义的部分(比如指尖),也可以很好地概括灵巧手手指的运动信息,因此可以将关键点的位置信息作为策略的状态表示,而将其的位置变化作为策略的动作表示。此外,为了克服不用灵巧手的几何差异对策略的影响,该工作使用了交互二分曲面(Interaction Bisector Surface)[15] 这种特殊几何表示作为策略的状态表示的补充。这种表示被定义成到空间中到两个物体距离相等的平面,在该工作中则用来表示抓手和场景之间的等距离面。这种表示被验证可以提升抓取策略对灵巧手几何的鲁棒性。

在网络的实现上,该工作设计了一个基于 Transformer 网络结构的通用策略模型。它通过多层自注意力机制来融合不同输入特征,并整合各手指之间的信息。这种设计使得学习的策略可以适用不同数量手指的灵巧手,进一步提升了泛化性。在下层的灵巧手关节控制上,该工作用轻量的多层感知机网络构建了特定手适配模型,负责将关键点位移映射到抓取器的关节变化,确保不同抓取器都能够被统一的高层策略模型控制。

模型训练分为两个阶段:联合训练和迁移训练,以确保模型在不同抓取器上的通用性和性能。在联合训练阶段,策略模型和特定手适配模型会在一个灵巧手上同时训练,但它们各自独立优化。策略模型的训练采用强化学习方法,通过奖励函数优化抓取成功率和避免碰撞的能力。而适应模型则通过自监督的循环损失进行训练,确保关键点位移能够精确映射到关节角度变化同时避免自碰撞。

至于迁移训练,其重点是将先前训练的策略模型应用到新的灵巧手上。在这个过程中,策略模型保持固定,只对新的灵巧手重新训练特定手适配模型,以适配其不同的关节结构。由于适应模型较为轻量且可以通过自监督方式训练,这个过程可以被快速高效的完成。

通过这两阶段的训练,模型不仅具备了跨灵巧手的通用能力,还能在新灵巧手上迅速适应并执行高精度抓取任务。

实验结果

该工作对所提出的框架和设计进行了广泛的实验验证,并评估了其在不同抓取器和物体上的性能。实验使用了多种灵巧抓取器,并在 YCB 物体集和 ContactPose 物体集上测试了详细实验,图 2 展示了该工作方法在不同灵巧手以及不同物体上抓取的可视结果,证明了方法的泛化性。

图片

图 2. 跨手迁移的抓取策略在不同灵巧手和物体上的泛化效果

定量测试方面,该工作首先测试了方法中的主要设计对灵巧手抓取策略性能和泛化性的影响,包括两阶段分离的策略设计,通用的表征设计,基于 transform 的网络结构设计。实验结果表明这些设计可以帮助策略实现不同灵巧手之间的,高性能的策略迁移。

图片

表 1. 跨手迁移的抓取策略的消融实验

为了进一步证明该工作方法的性能优势,该工作和一些基于现有方案的基线方法进行了进一步的性能对比,如表 2 所示。这些方法包括使用不同特征(关节匹配和关键点匹配)的基于运动重定向的方法以及对策略输入输出进行映射的方法,实验结果证明了该工作方法的优越性。

图片

表 2. 跨手迁移的抓取策略和基线方法的对比实验

....

#多模态非Transformer模型——液体基础模型LFM

MIT系初创打破Transformer霸权!液体基础模型刷新SOTA,非GPT架构首次显著超越Transformer

就在刚刚,MIT系初创公司Liquid AI推出液体基础模型LFM,1B模型在基准测试中成为SOTA,这是非GPT架构首次显著超越Transformer模型!背后功臣,就是基于团队提出的液体神经网络(LNN)。

就在刚刚,MIT系初创公司Liquid AI团队官宣:推出首批多模态非Transformer模型——液体基础模型LFM。

作为通用人工智能模型,LFM可用于建模任何类型的顺序数据,包括视频、音频、文本、时间序列和信号。

目前,LFM有三种不同的规模:

  • 1.3B的稠密模型,适用于资源高度受限的环境
  • 3.1B的稠密模型,为边缘部署进行了优化
  • 40.3B的混合专家(MoE)模型,专为处理更复杂的任务而设计

在各种规模上,这三个模型都实现了最佳质量表现,同时保持了更小的内存占用和更高效的推理能力。whao开发板商城测试设备​​www.143ai.com​

公司的后训练主管Maxime Labonne表示,LFM是「我职业生涯中发布的最自豪的产品」

这是因为,Liquid AI的新模型保留了液体神经网络适应性的核心优势,允许在推理过程中进行实时调整,而不会产生与传统模型相关的计算开销,能够高效处理多达100万个token,同时将内存使用保持在最低水平。

其中LFM-1B在1B类别的公共基准测试中表现良好,成为该尺寸模型中的SOTA。

这是非GPT架构首次显著优于基于Transformer的模型!

而LFM-3B的性能也优异得令人难以置信。

在3B参数的Transformer、混合模型和RNN模型中,它都取得了第一名;不仅如此,它的性能也优于前代的7B和13B模型。

在多项基准测试中,它的性能和Phi-3.5-mini相当,规模却小了18.4%。

可以说,LFM-3B是移动端侧和和其他边缘文本应用的理想选择。

LFM-40B在模型尺寸和输出质量之间实现了新的平衡。

在运行时,它利用了12B的激活参数。

这样,它的性能就可以媲美更大的模型,而其MoE架构,则可以实现更高的吞吐量,并且能部署在更具成本效益的硬件上。

现在,LFM模型已经可以免费体验了:

​https://playground.liquid.ai​

​https://lambda.chat/liquid-ai​

​https://labs.perplexity.ai​

Attention Is Not All You Need

Liquid AI是由MIT计算机科学与人工智能实验室(CSAIL)的前研究人员共同创立的初创公司。

公司的后训练主管Maxime Labonne表示,LFM是「我职业生涯中发布的最自豪的产品」。

LFM的核心优势,就是使用显著更少内存的同时,超越基于Transformer的模型。

的确,LFM的内存效率十分显著,Liquid的LFM-3B仅需16 GB内存,而Meta的Llama-3.2-3B模型则需要超过48 GB内存。

在目前,Transformer架构还是GenAI浪潮中大多数模型的主流。

然而Liquid AI却另辟蹊径,希望探索构建超越生成式预训练Transformer(GPT)的基础模型的方法。

新的LFM,是从第一性原理出发,以工程师构建发动机、汽车和飞机的相同方式来构建的。

果然,他们做到了这一点。新的LFM模型,在性能上已经超越了同等规模基于Transformer的模型,如Meta的Llama 3.1-8B和微软的Phi-3.5 3.8B。

为何如此?

LFM是由深深植根于动力系统、信号处理和数值线性代数理论的计算单元构建的大型神经网络。

这种大型神经网络可用于建模任何类型顺序数据的通用人工智能模型,包括视频、音频、文本、时间序列和信号,从而用于训练新的LFM模型。

LFM的一大特点,就是高效内存。与Transformer架构相比,LFM的内存占用更少。

对于长输入尤其如此,而这种情况下,基于Transformer的LLMs中的KV缓存会随着序列长度而线性增长。

LFM-3B模型在推理内存占用率方面优于谷歌的Gemma-2、微软的Phi-3和Meta的Llama-3.2,特别是在token长度扩展时

相比之下,LFM真正利用了它们的上下文长度。

在预览版本中,团队优化了模型,提供了一流的32k token上下文长度,直接突破了这一尺寸的效率边界!

随后的RULER基准测试,更是证实了这一点。

高于85.6分时,上下文长度才是「有效的」

显然,LFM通过Liquid AI团队设计的全新算法进展,直接推进了大规模AI模型的帕累托边界。

这些算法可以增强模型的知识容量、多步骤推理能力和上下文记忆能力,还能用于高效训练和推理。

Liquid AI为计算单元建立了新的设计空间的基础,从而能够根据不同的模型和硬件要求进行定制。

不过,团队也承认,LFM也有很多不擅长的任务:

- 零样本学习的代码任务

- 精确的数值计算

- 时效性信息

- 数「Strawberry」中有几个「r」

而且,人类偏好优化方法尚未广泛应用于LFM模型中。

目前,LFM擅长的领域包括:

- 一般知识和专业知识

- 数学和逻辑推理

- 高效且有效的长上下文任务

- 主要语言为英语,辅助语言为西班牙语、法语、德语、中文、阿拉伯语、日语和韩语

其他模型在长文本处理时内存使用急剧增加,但LFM-3B保持显著较小的内存占用,这就使它非常适合需要大量顺序数据处理的应用,比如文档分析或聊天机器人。

LFM基础模型还具备多模态的功能,包括音频、视频和文本。这种多模态能力,让它在金融服务、生物技术、消费电子等行业都有应用空间。

它不仅在性能基准测试上具有竞争力,在操作效率上也经过了精心设计,成为各种用例的理想选择,包括上述领域的企业级应用,以及在「边缘设备」上的部署。

不过要注意,LFM并不是开源的,用户需要通过Liquid的推理Playground、Lambda Chat或Perplexity AI来访问模型。

如何「超越」GPT?

立下大功的「液体神经网络」,究竟是什么原理?

液体神经网络(Liquid Neural Networks,LNN)是团队提出的一种全新架构,可以使人工「神经元」或用于转化数据的节点更高效、适应性更强。

与需要数千个神经元来执行复杂任务的传统深度学习模型不同,LNN只用较少的神经元——结合创新的数学公式——就可以达到相同的结果。

Liquid Time-constant Networks

有趣的是,MIT CSAIL主任Daniela Rus介绍称,液体神经网络的灵感起源于线虫的神经结构。

秀丽隐杆线虫的大脑

作为一种受大脑启发的系统,LNN即使在训练后,也能保持适应性和对变化的鲁棒性。

论文地址:https://www.nature.com/articles/s42256-020-00237-3

团队通过理论分析和实验证明,这套系统:

  • 是通用近似器(universal approximators)
  • 在处理序列数据方面,是具有强大表现力的连续时间机器学习系统
  • 在学习新技能方面具有极高的参数效率

论文地址:https://www.nature.com/articles/s42256-022-00556-7

  • 具有因果性和可解释性
  • 在线性化时,可以高效建模序列数据中的超长期依赖关系

论文地址:https://www.science.org/doi/10.1126/scirobotics.adc8892

团队开发了一类非线性神经微分方程序列模型,并将其推广到了图结构上。

并且,利用混合数值方法和时间并行方案,对连续时间模型进行扩展和优化,从而在控制和预测任务中实现了SOTA。

此外,还发布了最为全面的神经微分方程开源库之一,目前在各种应用中被广泛用于基于扩散的生成建模和预测任务。

论文地址:https://physical-reasoning.github.io/assets/pdf/papers/03.pdf

值得一提的是,团队提出了首个高效的基于并行扫描的线性状态空间架构,以及基于有理函数的SOTA时间序列状态空间模型。

此外,还首次提出了用于时间序列的生成式状态空间架构,以及适用于视频处理的状态空间架构。

论文地址:https://arxiv.org/pdf/2208.04933

团队提出了一个新的神经算子框架。在解决微分方程和预测任务方面,性能超越了包括傅里叶神经算子在内的多种方法。

论文地址:https://proceedings.neurips.cc/paper_files/paper/2022/file/342339109d7d756ef7bb30cf672aec02-Paper-Conference.pdf

团队共同发明了一系列能够有效扩展到长上下文的深度信号处理架构,如Hyena、HyenaDNA和StripedHyena等。

其中,基于StripedHyena的Evo是一个创新的DNA基础模型。它不仅可以在DNA、RNA和蛋白质之间进行泛化,还能够生成设计新的CRISPR系统。

值得一提的是,他们是首个基于深度信号处理和状态空间层来扩展语言模型的团队。

不仅对超越Transformer架构的模型进行了迄今为止最广泛的扩展法则分析,而且还在此基础上提出了性能超越现有开源替代方案的全新模型变体。

团队主导开发了许多最佳的开源LLM微调和合并技术。

最后,团队的研究还在多个领域做出了重要贡献:为图神经网络和几何深度学习模型做了开创性工作;为神经网络的可解释性定义了新的衡量标准;开发了SOTA的数据集蒸馏算法。

论文地址:https://arxiv.org/pdf/2312.04501

实际上,相关的研究论文有数十篇之多,感兴趣的朋友可以去官方博客了解。

博客地址:​​https://www.liquid.ai/blog/liquid-neural-networks-research​

全新的模型架构

这次,团队在此前研究的基础上开发了一个全新的基础模型设计空间,专注于不同的模态和硬件需求。

目标也很明确——探索构建超越生成式预训练Transformer(GPT)的基础模型的方法。

通过LFM,团队将在过去几个月中开发的新原则和方法付诸了实践,用于指导模型设计:

1. LFM由结构化操作单元组成

模型基于一组计算单元构建而成。这些架构的基本组成部分,属于一个全新的设计空间。

Liquid系统及其组成将知识容量和推理能力最大化,同时实现了更高的训练效率,降低了推理过程中的内存消耗,并提高了视频、音频、文本、时间序列和信号等数据的建模性能。

2. LFM架构是可控制的

模型的设计反过来也为扩展、推理、对齐和模型分析方面的策略提供了信息。

通过运用经典的信号处理分析方法,团队能够深入分析LFM的动态特性,并全面探究其行为特征,包括模型输出和内部运作机制等等。

3. LFM具有自适应能力,可作为各种规模AI的基础

模型架构能够被自动优化,进而适配特定硬件平台(例如,苹果、高通、Cerebras和AMD)或满足特定的参数要求和推理缓存大小限制。

全新的设计空间

具体来说,Liquid的设计空间主要由两个维度定义:架构及其核心运算符的特征化和计算复杂度。

- 特征化是指将输入数据(如文本、音频、图像、视频)转换为结构化的特征集或向量的过程。这些特征或向量被用来以自适应方式调节模型内部的计算过程。例如,与语言和多模态数据相比,音频和时间序列数据通常由于信息密度较低,在运算符中需要较少的特征化处理。

- 另一个关键维度是运算符的计算复杂度,即完成操作所需的计算资源。通过探索和完善结构化自适应运算符的设计空间,团队能够在控制计算需求的同时最大化模型性能。

在核心层面,LFM是由一系列计算单元构建而成的。这些计算单元可以表示为自适应线性算子,其行为由输入数据动态决定。

LFM设计框架统一并涵盖了深度学习中广泛存在的各种计算单元,为系统性探索模型架构空间提供了方法论基础。

具体而言,可以通过改进以下三个关键方面来指导模型构建:

1. token混合结构:算子如何在输入序列中混合嵌入

2. 通道混合结构:如何混合通道维度

3. 特征化:负责根据输入上下文调整计算

推进大规模AI模型的帕累托边界

为了实现这些突破性成果,团队对训练前准备和训练后处理的全流程进行了优化,同时也升级了相关的计算硬件和软件系统。

1. 知识储备

在任何特定模型规模下,都能在各种领域和任务中展现广泛而深入的信息处理能力。

团队通过改进模型架构,以及采用新的预训练、训练中优化和后训练策略等方式,使得LFM能够在需要丰富知识储备的任务上与更大规模的模型相抗衡。

2. 多步推理

这种能力指的是将复杂问题拆解并运用严密逻辑进行思考的技能。

团队通过在训练的关键阶段对系统2任务进行蒸馏和优化,在有限的计算资源和紧凑的模型架构下,赋予了模型更高级的认知功能和强大的分析能力

3. 长上下文召回

需要注意的是,模型的最大输入大小与其有效上下文长度并不相同。

团队专门对大语言模型进行了训练,目的是在所有可能的输入长度范围内,最大化其记忆和提取信息的能力,以及根据上下文进行学习和推理的能力。

4. 推理效率

基于Transformer的模型在处理长输入时内存使用量会急剧增加,这使得它们不适合在资源受限的边缘设备上部署。

相比之下,LFM具有近乎恒定的推理时间和内存复杂度。这意味着,即使输入的上下文长度增加,也不会显著影响文本生成速度或增加所需的内存量。

5. 训练效率

训练类GPT的基础模型需要大量的计算资源。而LFM在训练长上下文数据时效率更高。

团队介绍

Ramin Hasani,CEO

Ramin Hasani是Liquid AI的联合创始人兼首席执行官,同时也是MIT CSAIL的机器学习研究合作伙伴。

在此之前,他以优异成绩获得维也纳工业大学(TU Wien)的计算机科学博士学位。随后,来到CSAIL MIT进行博士后研究,与Daniela Rus教授一起负责关于智能建模和序列决策的研究。

他的研究主要集中在复杂动态系统中的鲁棒性深度学习和决策制定。

Mathias Lechner,CTO

Mathias Lechner是Liquid AI的联合创始人兼首席技术官,同时也是MIT CSAIL的研究合作伙伴。

他于2022年在奥地利科学技术研究所(ISTA)获得了博士学位,分别于2017年和2016年在维也纳工业大学(TU Wien)获得了计算机科学硕士和学士学位。

在MIT的研究工作中,他专注于开发鲁棒且可信的机器学习模型。

Alexander Amini,CSO

Alexander Amini是Liquid AI的联合创始人兼首席科学官,同时也是MIT的研究合作伙伴,并担任MIT官方深度学习入门课程——「MIT 6.S191:深度学习导论」的主办者和讲师。

他分别于2022年、2108年和2017年获得了MIT的计算机科学博士学位、理学硕士和学士,辅修数学。

他的研究目标是发展自主性科学与工程,并将其应用于自主智能体的安全决策,曾研究过自主系统的端到端控制,神经网络的置信度形成,人类移动的数学建模,以及构建复杂的惯性优化系统。

Daniela Rus

Daniela Rus是MIT电气工程和计算机科学系的Andrew和Erna Viterbi教授,同时担任CSAIL主任。

她是美国计算机学会(ACM)、美国人工智能协会(AAAI)和电气电子工程师学会(IEEE)的会士,并且是美国国家工程院和美国艺术与科学学院的院士。

她在康奈尔大学获得了计算机科学博士学位。研究兴趣包括机器人学、移动计算和数据科学。

Liquid:在每个规模上,创造同类最佳的系统

Liquid AI的官方博客介绍道——

第一代液体基础模型LFM,是一种从基本原理构建的新一代生成式AI模型。

我们的使命,是在每个规模上创造同类最佳、智能和高效的系统——这些系统旨在处理大量的顺序多模态数据,实现高级推理,并达成可靠的决策制定。

LFM计算单元和动力系统理论、信号处理和数值线性代数的独特融合,使我们能在追求各个规模智能的过程中,利用这些领域数十年的理论进展。

而「Liquid」这个名字,恰恰体现了公司在动态和自适应学习系统领域的根源。

参考资料:

​https://x.com/maximelabonne/status/1840770427292958749​

​https://x.com/LiquidAI_/status/1840768716784697688​

​https://www.liquid.ai/blog/liquid-neural-networks-research​​​

....

#微软COCO数据集获经典论文奖

你去现场参会了吗?

近日,位列计算机视觉领域三大国际顶级会议的 ECCV 2024 在意大利米兰开幕,本届会议的各奖项已经揭晓。

据大会官方统计,今年共有 2395 篇论文被录用,录用率为 18%,创下近年新低。

昨晚,大会公布了一系列奖项,哥伦比亚大学的研究者摘得最佳论文奖,还有 2 篇论文获得了最佳论文荣誉提名奖。与往届一样,大会还公布了经典论文 Koenderink 奖和 PAMI Everingham 奖。

最佳论文奖

本届最佳论文由来自哥伦比亚大学的两位学者摘得。

论文地址:

​https://cave.cs.columbia.edu/Statics/publications/pdfs/Klotz_ECCV24.pdf​

这篇论文由两位研究者共同完成,他们分别是 Shree Nayar 和 Jeremy Klotz。

Shree Nayar 是哥伦比亚大学计算机科学系的 T. C. Chang 教授。他领导着哥伦比亚视觉实验室(CAVE),该实验室致力于开发计算成像和计算机视觉系统。他的研究主要集中在三个领域:创造提供新形式视觉信息的新型相机,设计基于物理的视觉和图形学模型以及开发从图像中理解场景的算法。他的工作旨在应用于以下领域:成像、计算机视觉、机器人学、虚拟现实、增强现实、视觉通信、计算机图形学和人机交互界面。

Jeremy Klotz 哥伦比亚大学的三年级博士生,导师是 Shree Nayar,在攻读博士学位之前,曾在卡内基梅隆大学(CMU)与 Aswin Sankaranarayanan 一起工作。

摘要:论文介绍了一种创新的极简主义视觉系统概念。这种系统使用最少数量的像素来完成视觉任务,与传统相机使用大量方形像素网格不同,极简相机采用可任意形状的自由形式像素,以增加信息含量。实现上,这种系统的硬件被建模为神经网络的第一层,通过训练来确定自由形式像素的形状。每个像素由光电探测器和光学掩模实现。研究者设计了几种应用案例,如用 8 个像素进行室内空间监控和光照测量,以及用 8 个像素估算交通流量。尽管像素数量极少,这些系统的性能却与使用多个数量级更多像素的传统相机相当。

极简主义视觉系统具有两个显著优势。首先,它天然地保护了个人隐私,因为捕获的信息不足以提取详细的视觉细节。其次,由于测量次数很少,系统可以完全自供电,无需外部电源或电池。这种创新方法在保护隐私和节能方面展现出巨大潜力,同时又能有效完成特定的视觉任务,为未来视觉技术的发展提供了新的思路。

最佳论文荣誉提名奖

与此同时,ECCV 2024 也公布了最佳论文荣誉提名奖,共有 2 篇论文获奖。

论文 1:Rasterized Edge Gradients: Handling Discontinuities Differentially

论文地址:https://arxiv.org/abs/2405.02508

机构:Meta Reality Labs Research

摘要:计算渲染过程的梯度对于计算机视觉和图形学中的各种应用至关重要。然而,由于不连续性和渲染近似,准确计算这些梯度具有挑战性,特别是对于基于表面的表示和基于光栅化的渲染。研究人员提出了一种新方法,用于计算基于光栅化的可微渲染器在可见性不连续处的梯度。我们的方法通过精心设计的近似策略,优雅地简化了传统上复杂的问题,从而实现了一个直接、有效且高性能的解决方案。

研究人员引入了一个新概念 —— 微边缘,它允许我们将光栅化图像视为一个可微的、连续过程的结果,与本质上不可微的离散像素光栅化相一致。这种技术消除了对渲染近似或前向传递其他修改的需求,保持了渲染图像的完整性,使其适用于光栅化的掩码、深度和法线图像,而在这些情况下滤波是不可行的。利用微边缘简化了不连续处的梯度解释,并能够处理几何交叉,相比于先前的方法具有优势。

研究者在动态人头场景重建中展示了该方法的应用,证明了其在处理相机图像和分割掩码方面的有效性。

论文 2:Concept Arithmetics for Circumventing Concept Inhibition in Diffusion Models

论文地址:https://arxiv.org/abs/2404.13706

机构:Boston University、University of Washington、University of Pittsburgh

摘要:出于伦理和法律考虑,科学界正在积极开发方法,以限制文本到图像扩散模型的滥用,防止在生成的图像中复制受版权保护的、暴力的、露骨的或个人信息。同时,研究人员通过扮演对手的角色来测试这些新开发的安全措施,以寻找其中的漏洞和后门。

研究人员利用扩散模型的组合属性,这允许在单个图像生成中利用多个提示。这种属性使他们能够结合其他本不应受到抑制影响的概念,重构负责目标概念生成的向量,即使这个向量的直接计算不再可访问。研究人员提供理论和实证证据,说明为什么提出的攻击是可能的,并讨论这些发现对安全模型部署的影响。

他们认为,考虑对手可能采用的所有可能的扩散模型图像生成方法是至关重要的。这项工作开启了关于概念算术和组合推理对扩散模型安全机制影响的讨论。

经典论文:Koenderink 奖

Koenderink 奖旨在表彰计算机视觉领域的基础性贡献研究,获奖论文均为发表时间超过十年并经受住时间检验的研究。

本届的获奖论文是  Microsoft COCO: Common Objects in Context,于 2014 年发表,引用超过 5 万多次。当时,几位作者分别来自康奈尔大学和微软研究院、加州大学伯克利分校、康奈尔大学、布朗大学、加州理工学院、加州大学欧文分校以及 Facebook AI 研究院。

获奖原因指出,该团队在物体识别、场景理解和图像描述领域做出了基础性贡献,通过创建了一个大规模的数据集来推进了计算机视觉研究。

得知获奖后,论文一作、英伟达首席研究科学家 Tsung-Yi Lin 在社交媒体上表示,「我对多模态理解和生成的未来感到兴奋 —— 数据仍将是关键,而我们才刚刚开始。」

摘要:Microsoft COCO (Common Objects in Context) 数据集的目标是通过将物体识别问题置于更广泛的场景理解背景中,来推进物体识别技术的发展。为实现这一目标,研究者收集了包含日常场景中常见物体的复杂图像,这些物体都处于自然的环境中。

数据集使用实例级分割标注来帮助精确定位物体。它包含了 91 种 4 岁儿童容易识别的物体类型,总共有 328,000 张图像,2.5 百万个标注实例。数据集的创建过程利用了新颖的用户界面,通过众包方式进行类别检测、实例定位和实例分割。

研究者还提供了与 PASCAL、ImageNet 和 SUN 等数据集的详细统计比较。此外,他们使用可变形部件模型(Deformable Parts Model)提供了边界框和分割检测结果的基准性能分析。

COCO 数据集的创新之处在于关注日常场景中的常见物体,强调了物体与环境的关系;使用实例级分割标注,提高了物体定位的精确度;数据集规模大,覆盖面广,有助于训练更强大的模型;通过众包和创新的标注工具,保证了数据的质量和多样性。这些特点使 COCO 成为计算机视觉领域,特别是在物体检测、实例分割和场景理解方面的重要基准数据集,推动了相关技术的快速发展。

论文地址 https://arxiv.org/abs/1405.0312

Everingham 奖

该奖项旨在纪念 Mark Everingham,鼓励其他人向他学习,推进整个计算机视觉社区进一步发展。PAMI Everingham 奖授予对计算机视觉社区做出无私贡献的研究者或研究团队,由 IEEE 计算机协会模式分析与机器智能(PAMI)技术委员会颁发。

本届获奖者有两个。

一个是人脸属性数据集 CelebA 团队,成员包括 Ziwei Liu、Ping Luo、Xiaogang Wang 和 Xiaoou Tang。

获奖原因,该团队开发了「一系列数据集,加速了生成式图像建模和许多其他任务的进展。」

CelebA,全称为 CelebFaces Attributes Dataset,一个专为人脸属性识别和分析设计的大规模数据集,由香港中文大学的研究团队开放提供。它包含超过 20 万张名人图像,每张图像都附有 40 个二进制属性注释。这些属性包括但不限于性别、年龄、发型、是否佩戴眼镜等,为研究者提供了丰富的数据样本和详细的标注信息。

另一位本届获奖者是 David Forsyth,因其持续在监督计算机视觉界的会议和期刊方面提供建议和智慧。

David A. Forsyth,出生于南非的美国计算机科学家,是伊利诺伊大学厄巴纳・香槟分校终身教授、计算机视觉领域顶级科学家。现任伊利诺伊州立大学香槟分校正教授、Fulton-Watson-Copp 计算机科学专业主席。

 Forsyth 发表了 100 多篇关于计算机视觉、计算机图形学和机器学习的论文。他于 2000 年担任 IEEE 计算机视觉和模式识别项目联合主席、IEEE CVPR 2006 项目联合主席、ECCV 2008 项目联合主席、IEEE CVPR 2011 项目联合主席、IEEE CVPR 2015 项目联合主席和 IEEE CVPR 2024 项目委员顾问。他是所有主要计算机视觉国际会议的程序委员会的正式成员。他在国际计算机视觉会议和欧洲计算机视觉会议上获得了最佳论文奖。Forsyth 的研究兴趣还包括图形和机器学习,他曾担任 ICML 2008 的委员会成员。

......

#Pika 1.5

王者归来!将一切压扁、膨胀、融化、爆炸,化身为了超强特效利器

「I am back !」

去年 11 月,「横空出世」的 Pika 展现出了令人惊艳的视频生成效果,并点燃了视频生成领域。今年 6 月 5 日,Pika 宣布已完成 8000 万美元(约合人民币 5.8 亿元)的 B 轮融资,总融资额达到 1.35 亿美元,较 2023 年末,公司投后估值实现翻倍至 4.7 亿美元。

但是,面对以 Sora 为代表的各种「后辈」视频生成模型的冲击,Pika 迟迟没有大的版本更新。

就在几个小时前,Pika 官方推特(X)时隔数月后,终于「发声」了。新版本 Pika 1.5 正式与大家见面了。

据介绍,Pika 1.5 拥有了令人惊叹的镜头效果、更长的剪辑、令人瞠目结舌的动作。总之,这个新模型有能力生成任何疯狂的视频内容。

,时长01:00

具体来讲,Pika 1.5 具备了以下三大特性:

  • 虚幻的「Pikaffects」:超越你用相机可以捕捉到的范围。爆炸、融化、粉碎或膨胀任何你想要的东西。
  • 大屏幕镜头:使用各种电影镜头,比如子弹时间、眩晕、向左移动、低镜等。
  • 新动作:让生成场景中的主角更加栩栩如生,比如跑步、滑板、飞行等。

眼见为实,我们来看几个示例。

提示词「Crush it. Melt it. Cake-ify it. Explode it. Squish it. Inflate it. Pikaffect it. 粉碎它,融化它,将它制成蛋糕,爆炸,压扁,充气。」可以说概括了 Pika 1.5 所能实现的不可思议的功能。

,时长00:13来源:https://x.com/bilawalsidhu/status/1841195247184781420

更多「充气、膨胀」的示例:

,时长00:16

来源:https://x.com/justin_hart/status/1841144350572413259

,时长00:04

提示词:给泰国爆红小河马「弹跳猪 Moo Deng」充气。来源:https://x.com/minchoi/status/1841189035454447636

Pika 1.5 将彻底改变 meme 游戏,可以「压扁」一切,提示词只需要简单的「Squish it」。

,时长00:05

,时长00:05来源:https://x.com/ytjessie_/status/1841168925301842263

,时长00:05来源:https://x.com/Art_For_Joy/status/1841229359149146482

这也无怪乎网友表示,Pika 成为了 meme 工具了。

如今,Pika 1.5 化身为了特效制作利器,上传任何图像然后让它融化或变成蛋糕。

,时长00:05

,时长00:05

图源:https://x.com/itsandrewgao/status/1841148103157825759

当然,还有其他一些比较有意思的生成视频。

,时长00:05图源:https://x.com/psuraj28/status/1841204074617905237

效果一出,各方网友对 Pika 1.5 极为赞赏,有人评论称「史诗级的工作」。

试玩地址:https://pika.art/login

至此,Pika 再次成为视频模型之争中的强劲选手。

....

#第二届OpenAI开发者大会

乏善可陈的第二届OpenAI开发者大会,果然没有掀起太大波澜

OpenAI宫斗后的 DevDay 开发者大会,没有什么惊喜。

OpenAI 的宫斗大戏刚落下帷幕,今日凌晨就在旧金山召开了第二届 DevDay 开发者大会。

不过,与去年盛大的活动相比,今年略显低调,他们没有推出重大产品,而是选择对其现有的 AI 工具和 API 进行增量改进。

在这次活动中,OpenAI 发布了四大API新功能:视觉微调(Vision Fine-Tuning)、实时 API(Realtime API)、模型蒸馏(Model Distillation)和提示缓存(Prompt Caching)。

这些新工具突出了 OpenAI 的战略转变,即转向赋予其开发者生态系统更多能力,而不是直接在最终用户应用领域竞争。

Sam Altman 也在 X 上表示,从 GPT-4 到 4o mini,每个 token 的成本降低 98%,同时处理 token 的数量暴涨 50 倍。

最后,Altman 还不忘「鼓舞士气」:通往 AGI 的道路从未如此清晰。

实时 API:构建快速的语音到语音体验

OpenAI 在开发者大会上正式推出实时 API 的公测版,允许所有付费开发者在他们的应用程序中构建低延迟、多模态的体验。

与 ChatGPT 的高级语音模式类似,实时 API 支持使用 API 中已经支持的 6 种预设语音进行自然的语音到语音对话。这意味着开发者可以开始将 ChatGPT 的语音控制添加到应用程序中。

他们还推出了聊天完成 API(Chat Completions API)中的音频输入和输出功能,以支持那些不需要实时 API 低延迟优势的使用场景。

以前,要创建类似的语音助手体验,开发者需要使用像 Whisper 这样的自动语音识别模型来转录音频,然后将文本传递给文本模型进行推理,最后使用文本到语音模型播放模型的输出。这种方法常常导致情感和口音的丢失,以及明显的延迟。

现在有了聊天完成 API,开发者可以用一个 API 调用来处理整个流程,尽管它仍然比人类对话慢。实时 API 通过直接流式传输音频输入和输出来改进这一点,使得会话体验更加自然。它还可以自动处理中断,就像 ChatGPT 中的高级语音模式一样。

实时 API 本质上简化了构建语音助手和其他会话 AI 工具的过程,消除了将多个模型组合用于转录、推理和文本到语音转换的需要。

例如,一个名为 Speak 的语言学习平台,使用实时 API 来驱动其角色扮演功能,鼓励用户练习用新语言进行对话。

,时长00:54

实时 API 使用文本和音频 token 价格也已出炉。

文本输入 token 的价格是每 100 万个 5 美元,输出 token 每 100 万个 20 美元。

音频输入的价格是每 100 万个 100 美元,输出是每 100 万个 200 美元。这相当于每分钟音频输入约 0.06 美元,每分钟音频输出约 0.24 美元。

对于希望创建基于语音的应用程序的开发者来说,这个价格还是比较公道的。

视觉微调:使用图像和文本微调 GPT-4o

自从 OpenAI 在 GPT-4o 上首次引入微调功能以来,已经有成千上万的开发者使用仅限文本的数据集定制模型,以提高特定任务的性能。然而,在许多情况下,仅对文本进行模型微调并不能提供预期的性能提升。

因此,此次 OpenAI 宣布为 GPT-4o 引入视觉微调功能,允许开发者使用图像和文本来自定义模型的视觉理解能力,从而实现增强的视觉搜索功能、改进自动驾驶汽车或智能城市的物体检测,以及更准确的医学图像分析等应用。

例如,东南亚的一家食品配送和共享出行公司 Grab 已经利用这项技术来改进其地图服务。仅使用 100 个示例的视觉微调,Grab 在车道计数准确率上提高了 20%,在限速标志定位上提升了 13%,超过了基础 GPT-4o 模型。

这一现实世界的应用展示了视觉微调的可能性,即使用少量的视觉训练数据,也能显著增强各行各业的人工智能服务。

目前,所有付费用户都可以使用视觉微调功能,直到 2024 年 10 月 31 日,OpenAI 每天为开发者提供免费的 100 万个训练 token,用于通过图像微调 GPT-4o 模型。

2024 年 10 月 31 日之后,微调 GPT-4o 模型的费用将是每 100 万个 token 25 美元,推理的费用是每 100 万个输入 token 3.75 美元,每 100 万个输出 token 15 美元。

提示缓存:成本可降低50%

许多开发者在构建 AI 应用程序时会在多个 API 调用中重复使用相同的上下文,比如在编辑代码库或与聊天机器人进行长时间、多轮次的对话时。

今天,OpenAI 引入了提示缓存(Prompt Caching),这是一个旨在降低开发者成本和延迟的功能。

该系统会自动对模型最近处理过的输入 tokens 应用打 50% 的折扣,对于频繁重复使用上下文的应用来说,这可能会带来成本的大幅降低。

提示缓存将自动应用于最新版本的 GPT-4o、GPT-4o mini、o1-preview 和 o1-mini,以及这些模型的微调版本。

(来源:OpenAI)OpenAI 在 2024 DevDay 上公布的定价表显示,AI 模型使用成本大幅降低,缓存输入 tokens 相比未缓存 tokens 在各种 GPT 模型中最多可节省 50% 的费用。新的 o1 模型展示了其高级功能的溢价定价。

「我们一直很忙,」OpenAI 平台产品负责人奥利维尔・戈德蒙特(Olivier Godement)在公司旧金山总部举行的小型新闻发布会上说,「就在两年前,GPT-3 还处于领先地位。现在,我们已经将成本降低了近 1000 倍。我试图想出一个在两年内将成本降低了近 1000 倍的技术示例 —— 但我想不到这样的例子。」

这种显著的降成本,为初创企业和企业探索新应用提供了重大机遇,这些应用此前由于成本高昂而无法触及。

模型蒸馏:让小模型拥有尖端模型功能

OpenAI 此次还引入了模型蒸馏(Model Distillation)。这种集成的工作流程允许开发者使用 o1-preview 和 GPT-4o 等高级模型的输出,来提高像 GPT-4o mini 这样更高效模型的性能。

模型蒸馏涉及使用更强大的模型的输出来微调更小、更经济的模型,使它们能够在特定任务上以更低的成本匹配高级模型的性能。

直到现在,蒸馏一直是一个多步骤、容易出错的过程,需要开发者手动协调多个操作,从生成数据集到微调模型和测量性能提升。由于蒸馏本质上是迭代的,开发者需要重复运行每一步,增加了显著的工作量和复杂性。

OpenAI 新模型蒸馏套件包括:

存储完成:开发者现在可以通过自动捕获和存储我们的 API 生成的输入输出对,轻松地为蒸馏生成数据集,比如 GPT-4o 或 o1-preview。有了存储完成,你可以轻松地使用生产数据构建数据集来评估和微调模型。开发者可以查看这个集成指南来学习如何选择存储完成。

评估(beta):开发者现在可以在我们平台上创建和运行自定义评估,以测量模型在特定任务上的性能。与手动创建评估脚本和整合不同的日志工具相比,评估提供了一种集成的方式来测量模型性能。你可以使用存储完成的数据或上传现有数据集来设置你的评估。评估也可以独立于微调使用,以定量评估模型在用例中的性能。

微调:存储完成和评估完全集成到我们现有的微调服务中。这意味着开发者可以在他们的微调作业中使用存储完成创建的数据集,并使用评估在微调模型上运行评估,所有这些都在我们的平台上完成。

这种方法可以使小型公司利用与高级模型相似的能力,而不必承担相同的计算成本。它解决了 AI 行业中长期存在的一个分歧,即尖端、资源密集型系统与更易访问但能力较弱的对应系统之间的分歧。

比如一家小型医疗技术初创公司,该公司正在为农村诊所开发一个 AI 驱动的诊断工具。使用模型蒸馏,该公司可以训练一个紧凑的模型,该模型在标准笔记本电脑或平板电脑上运行时,能够捕捉到更大模型的大部分诊断能力。这可能会将复杂的 AI 能力带到资源受限的环境中,有可能改善服务不足地区的医疗保健结果。

总体来说,今年 OpenAI 的开发者大会稍显低调,甚至可以说是乏善可陈。

要知道,2023 年 DevDay 开发者大会上,OpenAI 推出了 GPT Store 和自定义 GPT 创建工具,不少网友将其称为「iPhone 时刻」。

这似乎也意味着,OpenAI 正进行战略转变,优先考虑生态系统的发展,而不是仅发布吸引人眼球的重磅产品。

参考链接:

​https://venturebeat.com/ai/openai-devday-2024-4-major-updates-that-will-make-ai-more-accessible-and-affordable/​

​https://x.com/sama/status/1841191074003341798​

#mini-GPT4o

能看、能听、会说,还情感丰富的多模态全能助手EMOVA

本文作者来自香港科技大学、香港大学和华为诺亚方舟实验室等机构。其中第一作者陈铠、苟耘豪、刘智立为香港科技大学在读博士生,黄润辉为香港大学在读博士生,谭达新为诺亚方舟实验室研究员。

随着 OpenAI GPT-4o 的发布,大语言模型已经不再局限于文本处理,而是向着全模态智能助手的方向发展。这篇论文提出了 EMOVA(EMotionally Omni-present Voice Assistant),一个能够同时处理图像、文本和语音模态,能看、能听、会说的多模态全能助手,并通过情感控制,拥有更加人性化的交流能力。以下,我们将深入了解 EMOVA 的研究背景、模型架构和实验效果。

,时长03:23

  • 论文题目:EMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotion
  • 论文地址:https://arxiv.org/abs/2409.18042
  • 项目网页:https://emova-ollm.github.io/

研究背景:全模态交互的挑战

近年来,多模态大模型得到广泛关注,尤其是可以同时处理视觉和语言信息的模型,如 LLaVA [1] 和 Intern-VL [2],或者语音文本交互的模型,如 Mini-Omni [3]。然而,当前的研究多偏向于双模态组合,要让大语言模型在 “看、听、说” 三个方面同时具备优越表现依然充满挑战。传统的解决方案往往依赖外部语音生成工具,无法实现真正的端到端语音对话。而 EMOVA 的出现填补了这个空白,在保持图文理解性能不下降的前提下,让模型具备情感丰富的语音交流能力,实现了一个全能型、情感丰富、能看能听会说的智能助手。

模型架构:情感对话与多模态理解的有效结合

EMOVA 的架构如图一所示,它结合了连续的视觉编码器和离散的语音分词器,能够将输入的图像、文本和语音信息进行高效处理,并端到端生成文本和带情感的语音输出。以下是其架构的几个关键点:

1. 视觉编码器:采用连续的视觉编码器,捕捉图像的精细视觉特征,保证领先的视觉语言理解性能;

2. 语音分词器:采用了语义声学分离的语音分词器,将输入的语音分解为语义内容(语音所表达的意思)和声学风格(语音的情感、音调等)。这种设计将语音输入转化为 “新的语言”,不仅降低了语音模态的合入难度,更为后续个性化语音生成以及情感注入提供了灵活度;

3. 情感控制模块:引入了一个轻量级的风格模块,支持对语音情感(如开心、悲伤等)、说话人特征(如性别)、语速、音调的控制,在保持语义不变的情况下,根据对话上下文动态调节语音输出的风格,使人机交互更加自然。

图片

图一:EMOVA 模型架构

对齐方法:开源双模态数据实现全模态对齐

EMOVA 提出了数据高效的全模态对齐,以文本模态作为媒介,通过公开可用的图像文本和语音文本数据进行全模态训练,而不依赖稀缺的图像 - 文本 - 语音三模态数据。实验发现:

1. 模态间的相互促进:在解耦语义和声学特征的基础上,语音文本数据和图像文本不仅不会相互冲突,反而能够互相促进,同时提升模型在视觉语言和语音语言任务中的表现;

2. 同时对齐优于顺序对齐:联合对齐图像文本和语音文本数据的效果明显优于顺序对齐(先图像文本对齐,再语音文本对齐,或反之),有效避免 “灾难性遗忘”;

3. 全模态能力激发:少量多样化的全模态指令微调数据,可以有效激发模型面对图像、文本和语音组合指令的响应能力和遵从性。

这种双模态对齐方法利用了文本作为桥梁,避免了全模态图文音训练数据的匮乏问题,并通过联合优化,进一步增强了模型的跨模态能力。

图片

图二:全模态同时对齐提升模型在视觉语言和语音语言任务中的表现

实验效果:性能领先,情感丰富

在多个图像文本、语音文本的基准测试中,EMOVA 展现了优越的性能:

1. 视觉理解任务:EMOVA 在多个数据集上达到了当前的最佳水平,特别是在复杂的图像理解任务中表现尤为突出,如在 SEED-Image、OCR Bench 等榜单的性能甚至超过了 GPT-4o;

2. 语音任务:EMOVA 不仅在语音识别任务上取得最佳性能,还能生成情感丰富、自然流畅的语音,展示了其语义声学分离技术和情感控制模块的有效性;

总的来说,EMOVA 是首个能够在保持视觉文本和语音文本性能领先的同时,支持带有情感的语音对话的模型。这使得它不仅可以在多模态理解场景表现出色,还能够根据用户的需求调整情感风格,提升交互体验。

图片

图 3 EMOVA 在视觉文本和语音文本任务上的性能测试

总结:提供 AI 情感交互的新思路

EMOVA 作为一个全模态的情感语音助手,实现了端到端的语音、图像、文本处理,并通过创新的语义声学分离和轻量化的情感控制模块,展现出优越的性能。无论是在实际应用还是研究前沿,EMOVA 都展现出了巨大的潜力,为未来 AI 具备更加人性化的情感表达提供的新的实现思路。

......

#LEGO

第一视角下的动作图像生成,Meta等提出LEGO模型

本文的作者主要来自于 Meta 和佐治亚理工大学。第一作者是佐治亚理工机器学习专业的博士生赖柏霖(目前也是 UIUC 的访问学生),导师为 James Rehg 教授(已转入 UIUC),主要研究方向是多模态学习,生成模型和视频理解,并在 CVPR、ECCV、BMVC、ACL 等会议发表相关论文,参与 Meta 主导的 EgoExo4D 项目,本文工作是赖柏霖在 Meta 的 GenAI 部门实习时完成,其余作者均为 Meta 的研究科学家。

作者主页:https://bolinlai.github.io/

当人们在日常生活和工作中需要完成一项自己不熟悉的任务,或者习得一项新技能的时候,如何能快速学习,实现技能迁移(skill transfer)成为一个难点。曾经人们最依赖的工具是搜索引擎,用户需要自己从大量的搜索结果中筛选出答案。最近几年出现的大语言模型(LLM)可以依据用户的问题归纳生成答案,极大地提升了回复的准确率和针对性 (如图 1 所示),然而大语言模型生成的回复通常非常繁琐冗长,而且包含诸多笼统的描述,并没有针对特定用户当下的环境进行定制化的回应。

图片

图 1:对于同一个问题,本文提出的 LEGO 模型直接生成图片教程,相比于大语言模型的回应更加具有针对性。

随着大语言模型逐渐获得理解图片的能力,一个简单直接的解决方案是用户在提出问题的同时也提供一张包含眼前场景的照片,这样模型便可以根据用户当下的环境来生成更准确直接的指令,从而让人们更容易跟随指令完成任务。那是否有比这更简单直接的方法呢?之前的神经科学研究表明,人类大脑处理图片的速度要远快于处理文字,如果模型可以直接生成一张图片来给用户展示如何执行下一步,便可以进一步提升人们的学习效率。

在今年的 ECCV Oral Session,来自 Meta、佐治亚理工(Georgia Tech)和伊利诺伊香槟分校(UIUC)的研究者们提出一个新的研究问题:如何基于用户的问题和当前场景的照片,生成同一场景下的第一视角的动作图像,从而更准确地指导用户执行下一步行动?

论文地址:https://arxiv.org/pdf/2312.03849

项目主页:https://bolinlai.github.io/Lego_EgoActGen/

开源代码:https://github.com/BolinLai/LEGO

挑战和解决方案

目前有众多大模型在图片生成任务上取得了极佳的效果,但这些模型在应用到本文提出的动作图像生成的问题时,有两个尚未解决的挑战(如图 2 所示):(1)当下的数据集中的动作标注非常简略(通常为动词 + 名词),这使得模型难以理解动作的细节;(2)现存模型的预训练数据基本上都是第三视角的物体或者场景图片,并且文本中鲜有动作相关的描述,这与本文任务中所使用的数据之间存在很明显的差距(domain gap)。

图片

图 2:面临的挑战:(1)动作细节的缺失,(2)训练数据与现存模型存在差别。

针对这两个问题,研究者们提出使用第一视角的动作数据对大语言模型进行微调(visual instruction tuning)来丰富动作的具体细节,同时将大语言模型的图像和文本特征作为扩散模型的额外输入,从而缩小 domain gap。

基于 GPT 的数据收集

为了对大语言模型进行训练,本文使用 GPT-3.5 来收集详细的动作描述作为训练数据(见图 3),具体方法为对于少量数据(本文中为 12 个动作)进行人工扩写动作细节,然后将这些人工撰写的描述放入 GPT 的输入(prompt)中进行基于上下文的学习(in-context learning),同时本文作者还将物体和手部的包围框(bounding box)一起输入,从而使 GPT 可以理解当前环境下物体与手的空间位置信息,通过这种方案,GPT 可以模仿少量人工标注的数据来生成大量的动作描述,这些采集到的数据会被用于大语言模型的微调。

图片

图 3:基于 GPT-3.5 的详细动作描述采集。

模型结构和方法

图片

图 4:模型结构。

本文提出的 LEGO 模型分为两个步骤:(1)大语言模型基于视觉指令的微调(visual instruction tuning),(2)动作图像生成(action frame generation)。

  • 基于视觉指令的微调(如图 4a 所示):本文将用户提供的包含当前环境信息的图片输入预训练好的图片编码器,然后使用一层线性层将特征映射到 LLM 的特征空间,与用户的问题一起输入 LLM 中,LLM 可以基于图片信息来生成可以直接应用于当前环境的详细动作指令,从而为动作图像生成提供更多的细节,解决了现有数据集中动作标注过于简略的问题。
  • 动作图像生成(如图 4b 所示):本文使用隐空间扩散模型(latent diffusion model)来进行图像生成,考虑到本文数据和现有模型预训练数据之间的差异,作者将大语言模型中的图像特征以及文本特征一起作为额外的条件(condition),和动作描述一起输入到扩散模型中。为了连接大语言模型和扩散模型的特征空间,作者使用了线性层来映射图片特征;对于文本特征,本文在线性层之外使用了两层自注意力(self-attention)层来获得文本整体的语义;对于动作描述,则直接使用预训练的文本编码器进行特征提取。

对比及消融实验

本方法在两个大型第一视角动作数据集 -- Ego4D 和 Epic-Kitchens 上进行验证,研究者们定义了每个动作开始和正在进行时的关键帧,并且过滤掉部分低质量的数据。

图片

表 1:图像对图像(image-to-image)评测结果。

图片

表 2:图像对文字(image-to-text)评测结果。                             

图片

图 5:用户评测(user study)结果。

实验中,作者将提出的方法与多个图生成模型在多个指标下进行对比,除此之外还用人工评测的方式进一步巩固实验结果。可以看到,在图像对图像(image-to-image)的六个指标中,LEGO 在两个数据集上基本都超过了对比的模型,即使在 Epic-Kitchens 的 FID 指标中略低于 IP2P,但依然是第二好的效果。除此之外,本文还使用图像对文本(image-to-text)的指标来评测生成的图片是否正确体现了动作描述,从结果可以看到,LEGO 依然在两个数据集上获得最好效果。在人工评测(user study)中,研究者们将四个模型生成的图片打乱顺序让用户选择生成质量最高的图片,结果表明,超过 60% 的用户认为 LEGO 生成的图片最符合他们的需求。

图片

表 3:消融实验。

本文还对提出的模型进行了消融实验,结果表明详细的动作描述、LLM 的图片和文字特征均可以提升生成图片的质量,其中图片特征对于性能的提升最为明显。

可视化成果展示

图片

图 6:LEGO 模型在多种场景下的动作生成。

从生成图片的效果(图 6)可以看出,LEGO 模型能够很好地理解用户提问的动作细节,并生成准确的动作图像,除此之外,生成图片很好地保留了原图的背景信息,从而用户可以更简单直接地遵循图片指导来完成每一步动作。

图片

图 7:LEGO 模型生成同一场景下的不同动作图像。

研究者们还成功验证了 LEGO 可以在同一场景下生成多种动作图像(包括未训练过的动作),从而说明 LEGO 可以泛化到更广泛的场景。

总结

1. 本文提出了一个全新的问题:第一视角下的动作图像生成,从而可以提升人们学习新技能的效率。

2. 本文创新性地提出了对大语言模型进行微调来丰富动作细节,同时使用大语言模型的特征来提升扩散模型生成图像的性能。

3. 本文提出的 LEGO 模型在两个大型数据集和多个指标上均取得目前最好的效果。

....

#xxx

...

#xxx

...

#xxx

...

#xxx

...

#xxx

...

#xxx

...

#xxx

...

#xxx

...

#xxx

...

#xxx

...

Logo

更多推荐