1.产品发布

1.1贾佳亚团队推出 LLaMA-VID 多模态大模型

发布时间:2023-12-12

贾佳亚团队新作LLaMA-VID,2token让大模型学会看好莱坞大片_科技魔方-中文AI大模型门户网站

主要内容:贾佳亚团队在推理分割领域发布了新的多模态大模型LLaMA-VID,能支持长达3小时电影的输入处理。该模型采用了一种大道至简的方法,将每一帧编码成只有2个词的Token,从而实现了对长视频的处理。相比现有方法,该模型在16个视频、图片理解及推理数据集上实现了promax的效果,并在多个视频问答和推理的榜单上实现了SOTA。此外,该模型还收集了400部电影并生成9K条长视频问答语料,并结合之前发布的长文本数据集LongAlpaca-12k,可拓展现有多模态模型支持长视频输入。通过在线Demo,用户可以与电影进行交流和互动

1.2海通证券发布“泛海言道”金融大模型

发布时间:2023-12-12

海通证券“泛海言道”大模型全新发布

主要内容:在第五届上海金融科技国际论坛智慧金融平行论坛上,海通证券正式发布了名为"泛海言道"的大模型。据介绍,"泛海言道"综合应用了前沿的大模型技术,成功应用于智能问答、智能研报、智能研发等业务场景。它可以结合互联网检索引擎,为外部客户和内部员工提供即时、高质量的问答服务;通过样例示范学习能力,深度解读和分析财报数据,生成研报初稿,为研究人员提供专业可靠的写作服务;它还可以嵌入开发环境,快速识别开发人员的代码需求,支持多种编程语言,自动生成高质量的程序,为开发人员提供高效的研发服务。

1.3腾讯发布视频生成模型AnimateZero 效果秒杀Animatediff

发布时间:2023-12-12

腾讯发布视频生成模型AnimateZero 效果Animatediff更好地兼容SD生态

主要内容:AnimateZero效果超群,优于Animatediff,更兼容SD生态。采用视频扩散模型,解决传统模型不透明、难以控制等问题。在应用方面展示多种场景,提供高质量视频编辑辅助工具。

项目地址:AnimateZero

1.4 Google发布编程工具AlphaCode2

发布时间:2023-12-12

Google发布编程工具AlphaCode 2,由Gemini提供动力_科技魔方-中文AI大模型门户网站

主要内容:AlphaCode2由Gemini模型驱动,在编程竞赛中表现显著优于前代,击败约85%竞争对手。该工具在Python、Java、C++和Go等多语言中表现卓越,展现了强大的编程能力。利用动态规划等复杂技术,AlphaCode2能理解涉及“复杂”数学和理论计算机科学的编程挑战,解决了原版无法应对的问题。

1.5华科大发布AI大模型猴子

发布时间:2023-12-12

开源地址https://github.com/Yuliang-Liu/Monkey

主要内容:华中科技大学软件学院发布了名为"Monkey"的多模态大模型擅长图像描述和视觉问答。Monkey在18个数据集上的实验中表现出色,超越了微软的LLAVA、谷歌的PALM-E和阿里的Mplug-owl等知名模型。它在文本密集的问答任务中显示出显著优势,并在某些样本上超越了GPT-4V。Monkey具有出色的"看图说话"能力,能够感知图像细节,并能处理高达1344 x 896像素的图像,是其他模型能处理尺寸的6倍。该团队已将Monkey代码开源于GitHub。

1.6李飞飞团队、谷歌联合发布AI视频扩散模型W.A.L.T

发布时间:2023-12-12

https://twitter.com/agrimgupta92/status/1734253883076063426?s=20

主要内容:李飞飞的斯坦福团队与谷歌联合发布了名为W.A.L.T的扩散模型,用于生成逼真的视频。该模型基于Transformer进行训练,支持文生视频、图生视频和3D摄像机运动。据介绍,该方法采用了两个关键的设计。首先是使用因果编码器,在统一的潜空间内联合压缩图像和视频,实现跨模态的训练和生成。其次是为了提高记忆和训练效率,采用了窗口注意力架构,针对空间和时空联合生成进行量身定制。最后,团队针对文本到视频的生成任务训练了一个级联模型,包括一个基本潜在视频扩散模型和两个视频超分辨率扩散模型。该模型能够以每秒8帧的速度生成分辨率为512*896的视频。

项目地址Photorealistic Video Generation with Diffusion Models

论文地址https://walt-video-diffusion.github.io/assets/W.A.L.T.pdf

1.7 Mistral AI发布专家混合模型Mixtral 8x7B

发布时间:2023-12-11

平台地址Sign in

主要内容:法国AI创企Mistral AI在其官网宣布正式发布了名为Mixtral 8x7B的模型。该模型是一个高质量稀疏专家混合模型(SMoE),具有开放权重。据介绍,Mixtral 8x7B在大多数基准测试中表现优于Llama 2 70B,并且推理速度快6倍。它的测评成绩与GPT-3.5相媲美甚至更好。Mixtral可以处理32k长度的上下文,支持英语、法语、意大利语、德语和西班牙语,并具备强大的代码生成能力。该模型总共拥有467亿参数,但每个令牌只使用了129亿参数,因此它的处理速度和成本与12.9B模型相当。

Mistral还开放了第一个平台服务的测试版。该平台提供了三个聊天端点,用于根据文本指令生成文本,并提供了一个嵌入端点。根据介绍,前两个端点(mistral-tiny和mistral-small)分别使用Mistral 7B和刚发布的Mixtral 8x7B;第三个端点(mistral-medium)使用性能更高的原型模型,目前正在测试部署环境中。

2.技术更新

2.1南洋理工发布视频升维框架Upscale-A-Video

发布时间:2023-12-12

https://twitter.com/ccloy/status/1734468279123775859?s=20

主要内容:南洋理工大学发布了一种名为Upscale-A-Video的、通过文本引导的潜在扩散框架,用于视频分辨率的提升。该框架通过两个关键机制来确保时序一致性:在局部方面,它将时序层整合到U-Net和VAE-Decoder中,以保持短序列的一致性;在全局方面,无需训练,它引入了流引导的递归潜传播模块,通过在整个序列中传播和融合潜信息来增强视频的整体稳定性。

项目主页Upscale-A-Video for Video Super-Resolution

GitHub仓库https://github.com/sczhou/Upscale-A-Video

2.2智谱AI推出中文大模型对齐评测基准AlignBench

发布时间:2023-12-12

AlignBench:专为「中文 LLM」而生的对齐评测

主要内容:智谱AI发布了针对中文大模型的首个评测基准AlignBench,可以在多个维度上对模型与人类意图的对齐水平进行细致评估。AlignBench建立了一个综合全面的分类体系,分为8个大类。为了实现自动化和可复现性,AlignBench采用评分模型(GPT-4、CritiqueLLM)为每个模型的回答打分,分数范围为1-10,代表回答的质量。智谱AI使用gpt-4-0613和CritiqueLLM作为评分模型,对17个中文大模型进行了评估。结果显示,相较于GPT-4,在逻辑推理能力上,中文大模型存在较大差距,但在中文相关能力(尤其是中文理解类)方面,表现相近甚至更好。顶尖的开源模型在对齐性方面接近闭源模型,已经处于同一水平。

论文地址https://arxiv.org/abs/2311.18743

项目地址LLMBench

2.3 Meta雷朋智能眼镜推出多模态AI功能

发布时间:2023-12-12

Meta’s AI for Ray-Ban smart glasses can identify objects and translate languages - The Verge

主要内容:Meta今日起在其雷朋智能眼镜中推出多模态AI功能,可以识别物体和翻译语言。用户戴上雷朋智能眼镜,说一声"Hey Meta",就会召唤出一个虚拟助手,它能看到和听到周围发生的一切。Meta CEO马克·扎克伯格在社交平台Instagram上演示了这一更新,要求眼镜推荐与他手中的衬衫相匹配的裤子。作为回应,虚拟助手描述了这件衬衫,并提供了一些可能与之相配的裤子的建议。他还让眼镜的AI助手翻译文本并展示一些图像说明。该功能目前处于早期测试阶段,在美国小范围测试。

2.4 OpenAI首席科学家论文获NeurIPS时间检验奖

发布时间:2023-12-12

https://twitter.com/NeurIPSConf/status/1734354905647734922?s=20

主要内容:NeurIPS公布了今年的获奖论文,包括时间检验奖、两篇杰出论文、两篇杰出论文亚军、两篇优秀数据集和基准论文。大部分论文都围绕大型语言模型展开。其中获得时间检验奖的是由谷歌团队在10年前发布的论文,作者包括现任OpenAI首席科学家Ilya Sutskever。该论文介绍了开创性的词嵌入技术word2vec,展示了从大量非结构化文本中学习的力量。这项技术促进了标志着自然语言处理新时代开始的进步,并被引用超过4万次。

论文地址https://arxiv.org/pdf/1310.4546

2.5智源研究院发布LM-Cocktail模型治理策略

发布时间:2023.12.11

LM-Cocktail模型治理策略,像调鸡尾酒一样调制“多技能”语言大模型

主要内容:智源研究院信息检索与知识计算组最近发布了LM-Cocktail模型治理策略,旨在为大型模型开发者提供一种低成本的持续性能提升方法。该策略通过使用少量的样例计算融合权重,利用模型融合技术将微调模型和原始模型的优势结合起来,实现对"模型资源"的高效利用。

论文地址https://arxiv.org/abs/2311.13534

GitHub地址https://github.com/FlagOpen/FlagEmbedding/tree/master/LM_Cocktail

3.商业动态

3.1英伟达2023年投资了35家人工智能公司

发布时间:2023.12.12

英伟达成为 2023 年 AI 初创企业最活跃的投资者:投资了 35 家人工智能公司

主要内容:英伟达在2023年成为AI领域最活跃的投资者之一,投资35家公司,投资范围广泛。投资标准以技术相关性为主,注重与使用其技术、依赖其技术的公司建立紧密关系。投资组合包括与OpenAI竞争对手Inflection AI和其他公司,强调对技术基础的依赖。

3.2 2024年AI趋势看这张图,LeCun:开源大模型要超越闭源

发布时间:2023.12.12

2024年AI趋势看这张图,LeCun:开源大模型要超越闭源

主要内容:2023年是开源模型崛起的一年。虽然一直受到人们对其性能的质疑,但开源模型在快速迭代、可定制性和隐私性等方面的优势赢得了越来越多的关注。由于像OpenAI和Google这样的公司变得越来越封闭,开源社区及其企业支持者Meta似乎正在缩小与专有模型的差距,使得生成式AI的访问更为民主化,这可能构成对专有模型商业模式的挑战。散点图显示,开源模型的性能在不断追赶专有模型,并有望在不久的将来达到或超越其性能。在未来的12个月内,开源社区项目的发展速度可能会让它们达到GPT-4的水平,这可能会进一步改变大型科技公司的竞争格局。

3.3 Runway宣布开展通用世界模型研发

发布时间:2023.12.11

Introducing General World Models.

主要内容:Runway宣布,他们正在开展长期研究工作,目标是建立通用世界模型(General World Models),以表现和模拟与现实世界中一致的广泛互动。Runway的Gen-2视频生成系统是非常早期的通用世界模型,对物理和运动有一定的了解,但在处理复杂的摄像机或物体运动等问题上仍有困难。为了建立通用的世界模型,Runway正在进行几项公开的研究,包括生成环境地图,在环境中导航和交互,捕捉世界和世界中居民的动态,建立逼真的人类行为模型等

3.4零一万物再度澄清套壳争议

发布时间:2023.12.11

零一万物最新发声:不涉及套壳、抄袭,权威榜单排名直追GPT-4

主要内容:根据DoNews昨日的报道,零一万物公司内部经过几周的国际和国内法律研判,已确认其完全没有涉及套壳和抄袭,并做出了进一步的澄清。此前,曾向零一万物官方发邮件建议修改张量名称的Eric Hartford也在社交平台X上为其澄清,称零一万物“没有在任何事情上撒谎,他们从零开始使用自己创建的数据集训练Yi,对开源领域的贡献是值得赞扬的”。另外,据零一万物微信公众号昨日发文,其Yi-34B系列模型最近在斯坦福大学研发的大语言模型评测AlpacaEval Leaderboard中取得了94.08%的胜率,超过了Llama 2、Claude 2、ChatGPT等模型,成为世界范围内仅次于GPT-4英语能力的大语言模型,并且是经由Alpaca官方认证为数不多的开源模型。同时,在加州大学伯克利分校主导的LMSYS ORG排行榜中,Yi-34B-Chat以1102的Elo评分晋升为最新开源SOTA模型之一,性能表现追平GPT-3.5。

模型地址

https://huggingface.co/01-ai/

ModelScope 魔搭社区

3.5微软与美国劳联-产联合作,确保AI为工人服务

发布时间:2023.12.11

AFL-CIO and Microsoft announce new tech-labor partnership on AI and the future of the workforce

主要内容:微软宣布与美国劳工联合会-产业工会联合会(AFL-CIO)AI和劳动力达成合作协议。该协议旨在确保AI为美国工人服务,主要实现三个目标:

1、与工会领袖和工人分享有关AI技术趋势的深度信息;

2、将工人的观点和专业知识纳入AI技术的开发;

3、帮助制定支持一线工人技术技能和需求的公共政策。

4.其他资讯

4.1研究发现:ChatGPT不适合获取医疗信息,可能会误导公众

发布时间:2023.12.11

研究人员发出警告:ChatGPT不适合获取医疗信息,可能会误导公众_凤凰网

主要内容:长岛大学的研究人员对ChatGPT进行了药物相关问题的测试。研究发现,ChatGPT只有约10个问题的回答准确,其余29个问题的回答不完整、不准确或没有解决问题。研究结果在美国卫生系统药剂师协会年会上公布。研究人员担心学生、药剂师和消费者使用ChatGPT寻找健康和用药计划答案时可能得到不准确甚至危险的信息。当要求提供科学参考资料时,ChatGPT只能为8个问题提供编造的参考资料。开发机构OpenAI建议用户不要将ChatGPT的回答作为专业医疗建议或治疗的替代方案。研究人员建议消费者使用政府网站提供可靠信息,但并不认为网上答案能代替医疗专业人员的建议。

Logo

旨在为数千万中国开发者提供一个无缝且高效的云端环境,以支持学习、使用和贡献开源项目。

更多推荐