每日一看大模型新闻（2023.12.11-12.12）智谱AI推出中文大模型对齐评测基准AlignBench；OpenAI首席科学家论文获NeurIPS时间检验奖；2024年AI趋势看这张图

由于像OpenAI和Google这样的公司变得越来越封闭，开源社区及其企业支持者Meta似乎正在缩小与专有模型的差距，使得生成式AI的访问更为民主化，这可能构成对专有模型商业模式的挑战。此前，曾向零一万物官方发邮件建议修改张量名称的Eric Hartford也在社交平台X上为其澄清，称零一万物“没有在任何事情上撒谎，他们从零开始使用自己创建的数据集训练Yi，对开源领域的贡献是值得赞扬的”。在全局方

文章共5,998字 · 阅读需要大约20分钟

一键AI生成摘要，助你高效阅读

问答

liuxiuxiu3

1005人浏览 · 2024-01-29 16:51:44

liuxiuxiu3 · 2024-01-29 16:51:44 发布

1.产品发布

1.1贾佳亚团队推出 LLaMA-VID 多模态大模型

发布时间：2023-12-12

贾佳亚团队新作LLaMA-VID，2token让大模型学会看好莱坞大片_科技魔方-中文 AI 大模型门户网站

主要内容：贾佳亚团队在推理分割领域发布了新的多模态大模型LLaMA-VID，能支持长达3小时电影的输入处理。该模型采用了一种大道至简的方法，将每一帧编码成只有2个词的Token，从而实现了对长视频的处理。相比现有方法，该模型在16个视频、图片理解及推理数据集上实现了promax的效果，并在多个视频问答和推理的榜单上实现了SOTA。此外，该模型还收集了400部电影并生成9K条长视频问答语料，并结合之前发布的长文本数据集LongAlpaca-12k，可拓展现有多模态模型支持长视频输入。通过在线Demo，用户可以与电影进行交流和互动。

1.2海通证券发布“泛海言道”金融大模型

发布时间：2023-12-12

海通证券“泛海言道”大模型全新发布

主要内容：在第五届上海金融科技国际论坛智慧金融平行论坛上，海通证券正式发布了名为"泛海言道"的大模型。据介绍，"泛海言道"综合应用了前沿的大模型技术，成功应用于智能问答、智能研报、智能研发等业务场景。它可以结合互联网检索引擎，为外部客户和内部员工提供即时、高质量的问答服务；通过样例示范学习能力，深度解读和分析财报数据，生成研报初稿，为研究人员提供专业可靠的写作服务；它还可以嵌入开发环境，快速识别开发人员的代码需求，支持多种编程语言，自动生成高质量的程序，为开发人员提供高效的研发服务。

1.3腾讯发布视频生成模型AnimateZero 效果秒杀Animatediff

发布时间：2023-12-12

腾讯发布视频生成模型AnimateZero 效果Animatediff更好地兼容SD生态

主要内容：AnimateZero效果超群，优于Animatediff，更兼容SD生态。采用视频扩散模型，解决传统模型不透明、难以控制等问题。在应用方面展示多种场景，提供高质量视频编辑辅助工具。

项目地址:AnimateZero

1.4 Google发布编程工具AlphaCode2

发布时间：2023-12-12

Google发布编程工具AlphaCode 2，由Gemini提供动力_科技魔方-中文 AI 大模型门户网站

主要内容：AlphaCode2由Gemini模型驱动，在编程竞赛中表现显著优于前代，击败约85%竞争对手。该工具在Python、Java、C++和Go等多语言中表现卓越，展现了强大的编程能力。利用动态规划等复杂技术，AlphaCode2能理解涉及“复杂”数学和理论计算机科学的编程挑战，解决了原版无法应对的问题。

1.5华科大发布AI 大模型猴子

发布时间：2023-12-12

开源地址：https://github.com/Yuliang-Liu/Monkey

主要内容：华中科技大学软件学院发布了名为"Monkey"的多模态大模型，擅长图像描述和视觉问答。Monkey在18个数据集上的实验中表现出色，超越了微软的LLAVA、谷歌的PALM-E和阿里的Mplug-owl等知名模型。它在文本密集的问答任务中显示出显著优势，并在某些样本上超越了GPT-4V。Monkey具有出色的"看图说话"能力，能够感知图像细节，并能处理高达1344 x 896像素的图像，是其他模型能处理尺寸的6倍。该团队已将Monkey代码开源于GitHub。

1.6李飞飞团队、谷歌联合发布AI视频扩散模型W.A.L.T

发布时间：2023-12-12

https://twitter.com/agrimgupta92/status/1734253883076063426?s=20

主要内容：李飞飞的斯坦福团队与谷歌联合发布了名为W.A.L.T的扩散模型，用于生成逼真的视频。该模型基于Transformer进行训练，支持文生视频、图生视频和3D摄像机运动。据介绍，该方法采用了两个关键的设计。首先是使用因果编码器，在统一的潜空间内联合压缩图像和视频，实现跨模态的训练和生成。其次是为了提高记忆和训练效率，采用了窗口注意力架构，针对空间和时空联合生成进行量身定制。最后，团队针对文本到视频的生成任务训练了一个级联模型，包括一个基本潜在视频扩散模型和两个视频超分辨率扩散模型。该模型能够以每秒8帧的速度生成分辨率为512*896的视频。

项目地址：Photorealistic Video Generation with Diffusion Models

论文地址：https://walt-video-diffusion.github.io/assets/W.A.L.T.pdf

1.7 Mistral AI发布专家混合模型Mixtral 8x7B

发布时间：2023-12-11

平台地址：Sign in

主要内容：法国AI创企Mistral AI在其官网宣布正式发布了名为Mixtral 8x7B的模型。该模型是一个高质量稀疏专家混合模型（SMoE），具有开放权重。据介绍，Mixtral 8x7B在大多数基准测试中表现优于Llama 2 70B，并且推理速度快6倍。它的测评成绩与GPT-3.5相媲美甚至更好。Mixtral可以处理32k长度的上下文，支持英语、法语、意大利语、德语和西班牙语，并具备强大的代码生成能力。该模型总共拥有467亿参数，但每个令牌只使用了129亿参数，因此它的处理速度和成本与12.9B模型相当。

Mistral还开放了第一个平台服务的测试版。该平台提供了三个聊天端点，用于根据文本指令生成文本，并提供了一个嵌入端点。根据介绍，前两个端点（mistral-tiny和mistral-small）分别使用Mistral 7B和刚发布的Mixtral 8x7B；第三个端点（mistral-medium）使用性能更高的原型模型，目前正在测试部署环境中。

2.技术更新

2.1南洋理工发布视频升维框架Upscale-A-Video

发布时间：2023-12-12

https://twitter.com/ccloy/status/1734468279123775859?s=20

主要内容：南洋理工大学发布了一种名为Upscale-A-Video的、通过文本引导的潜在扩散框架，用于视频分辨率的提升。该框架通过两个关键机制来确保时序一致性：在局部方面，它将时序层整合到U-Net和VAE-Decoder中，以保持短序列的一致性；在全局方面，无需训练，它引入了流引导的递归潜传播模块，通过在整个序列中传播和融合潜信息来增强视频的整体稳定性。

项目主页：Upscale-A-Video for Video Super-Resolution

GitHub仓库：https://github.com/sczhou/Upscale-A-Video

2.2智谱AI推出中文大模型对齐评测基准AlignBench

发布时间：2023-12-12

AlignBench：专为「中文 LLM」而生的对齐评测

主要内容：智谱AI发布了针对中文大模型的首个评测基准AlignBench，可以在多个维度上对模型与人类意图的对齐水平进行细致评估。AlignBench建立了一个综合全面的分类体系，分为8个大类。为了实现自动化和可复现性，AlignBench采用评分模型（GPT-4、CritiqueLLM）为每个模型的回答打分，分数范围为1-10，代表回答的质量。智谱AI使用gpt-4-0613和CritiqueLLM作为评分模型，对17个中文大模型进行了评估。结果显示，相较于GPT-4，在逻辑推理能力上，中文大模型存在较大差距，但在中文相关能力（尤其是中文理解类）方面，表现相近甚至更好。顶尖的开源模型在对齐性方面接近闭源模型，已经处于同一水平。

论文地址：https://arxiv.org/abs/2311.18743

项目地址：LLMBench

2.3 Meta雷朋智能眼镜推出多模态AI功能

发布时间：2023-12-12

Meta’s AI for Ray-Ban smart glasses can identify objects and translate languages - The Verge

主要内容：Meta今日起在其雷朋智能眼镜中推出多模态AI功能，可以识别物体和翻译语言。用户戴上雷朋智能眼镜，说一声"Hey Meta"，就会召唤出一个虚拟助手，它能看到和听到周围发生的一切。Meta CEO马克·扎克伯格在社交平台Instagram上演示了这一更新，要求眼镜推荐与他手中的衬衫相匹配的裤子。作为回应，虚拟助手描述了这件衬衫，并提供了一些可能与之相配的裤子的建议。他还让眼镜的AI助手翻译文本并展示一些图像说明。该功能目前处于早期测试阶段，在美国小范围测试。

2.4 OpenAI首席科学家论文获NeurIPS时间检验奖

发布时间：2023-12-12

https://twitter.com/NeurIPSConf/status/1734354905647734922?s=20

主要内容：NeurIPS公布了今年的获奖论文，包括时间检验奖、两篇杰出论文、两篇杰出论文亚军、两篇优秀数据集和基准论文。大部分论文都围绕大型语言模型展开。其中获得时间检验奖的是由谷歌团队在10年前发布的论文，作者包括现任OpenAI首席科学家Ilya Sutskever。该论文介绍了开创性的词嵌入技术word2vec，展示了从大量非结构化文本中学习的力量。这项技术促进了标志着自然语言处理新时代开始的进步，并被引用超过4万次。

论文地址：https://arxiv.org/pdf/1310.4546

2.5智源研究院发布LM-Cocktail模型治理策略

发布时间：2023.12.11

LM-Cocktail模型治理策略，像调鸡尾酒一样调制“多技能”语言大模型

主要内容：智源研究院信息检索与知识计算组最近发布了LM-Cocktail模型治理策略，旨在为大型模型开发者提供一种低成本的持续性能提升方法。该策略通过使用少量的样例计算融合权重，利用模型融合技术将微调模型和原始模型的优势结合起来，实现对"模型资源"的高效利用。

论文地址：https://arxiv.org/abs/2311.13534

GitHub地址：https://github.com/FlagOpen/FlagEmbedding/tree/master/LM_Cocktail

3.商业动态

3.1英伟达2023年投资了35家人工智能公司

发布时间：2023.12.12

英伟达成为 2023 年 AI 初创企业最活跃的投资者：投资了 35 家人工智能公司

主要内容：英伟达在2023年成为AI领域最活跃的投资者之一，投资35家公司，投资范围广泛。投资标准以技术相关性为主，注重与使用其技术、依赖其技术的公司建立紧密关系。投资组合包括与OpenAI竞争对手Inflection AI和其他公司，强调对技术基础的依赖。

3.2 2024年AI趋势看这张图，LeCun：开源大模型要超越闭源

发布时间：2023.12.12

2024年 AI趋势看这张图，LeCun：开源大模型要超越闭源

主要内容：2023年是开源模型崛起的一年。虽然一直受到人们对其性能的质疑，但开源模型在快速迭代、可定制性和隐私性等方面的优势赢得了越来越多的关注。由于像OpenAI和Google这样的公司变得越来越封闭，开源社区及其企业支持者Meta似乎正在缩小与专有模型的差距，使得生成式AI的访问更为民主化，这可能构成对专有模型商业模式的挑战。散点图显示，开源模型的性能在不断追赶专有模型，并有望在不久的将来达到或超越其性能。在未来的12个月内，开源社区项目的发展速度可能会让它们达到GPT-4的水平，这可能会进一步改变大型科技公司的竞争格局。

3.3 Runway宣布开展通用世界模型研发

发布时间：2023.12.11

Introducing General World Models.

主要内容：Runway宣布，他们正在开展长期研究工作，目标是建立通用世界模型（General World Models），以表现和模拟与现实世界中一致的广泛互动。Runway的Gen-2视频生成系统是非常早期的通用世界模型，对物理和运动有一定的了解，但在处理复杂的摄像机或物体运动等问题上仍有困难。为了建立通用的世界模型，Runway正在进行几项公开的研究，包括生成环境地图，在环境中导航和交互，捕捉世界和世界中居民的动态，建立逼真的人类行为模型等。

3.4零一万物再度澄清套壳争议

发布时间：2023.12.11

零一万物最新发声：不涉及套壳、抄袭，权威榜单排名直追GPT-4

主要内容：根据DoNews昨日的报道，零一万物公司内部经过几周的国际和国内法律研判，已确认其完全没有涉及套壳和抄袭，并做出了进一步的澄清。此前，曾向零一万物官方发邮件建议修改张量名称的Eric Hartford也在社交平台X上为其澄清，称零一万物“没有在任何事情上撒谎，他们从零开始使用自己创建的数据集训练Yi，对开源领域的贡献是值得赞扬的”。另外，据零一万物微信公众号昨日发文，其Yi-34B系列模型最近在斯坦福大学研发的大语言模型评测AlpacaEval Leaderboard中取得了94.08%的胜率，超过了Llama 2、Claude 2、ChatGPT等模型，成为世界范围内仅次于GPT-4英语能力的大语言模型，并且是经由Alpaca官方认证为数不多的开源模型。同时，在加州大学伯克利分校主导的LMSYS ORG排行榜中，Yi-34B-Chat以1102的Elo评分晋升为最新开源SOTA模型之一，性能表现追平GPT-3.5。

模型地址：

https://huggingface.co/01-ai/

ModelScope 魔搭社区

3.5微软与美国劳联-产联合作，确保AI为工人服务

发布时间：2023.12.11

AFL-CIO and Microsoft announce new tech-labor partnership on AI and the future of the workforce

主要内容：微软宣布与美国劳工联合会-产业工会联合会（AFL-CIO）就AI和劳动力达成合作协议。该协议旨在确保AI为美国工人服务，主要实现三个目标：

1、与工会领袖和工人分享有关AI技术趋势的深度信息；

2、将工人的观点和专业知识纳入AI技术的开发；

3、帮助制定支持一线工人技术技能和需求的公共政策。

4.其他资讯

4.1研究发现：ChatGPT不适合获取医疗信息，可能会误导公众

发布时间：2023.12.11

研究人员发出警告：ChatGPT不适合获取医疗信息，可能会误导公众_凤凰网

主要内容：长岛大学的研究人员对ChatGPT进行了药物相关问题的测试。研究发现，ChatGPT只有约10个问题的回答准确，其余29个问题的回答不完整、不准确或没有解决问题。研究结果在美国卫生系统药剂师协会年会上公布。研究人员担心学生、药剂师和消费者使用ChatGPT寻找健康和用药计划答案时可能得到不准确甚至危险的信息。当要求提供科学参考资料时，ChatGPT只能为8个问题提供编造的参考资料。开发机构OpenAI建议用户不要将ChatGPT的回答作为专业医疗建议或治疗的替代方案。研究人员建议消费者使用政府网站提供可靠信息，但并不认为网上答案能代替医疗专业人员的建议。