大模型日报2月27日

在移动设备上运行 LLM？可能需要 Meta 的一些技巧。」刚刚，图灵奖得主 Yann LeCun 在个人社交平台表示。他所宣传的这项研究来自 Meta 最新论文《 MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases 》，在众多作者中也有我们熟悉的来自 Meta FAIR 田渊栋。

大模型空间站

853人浏览 · 2024-02-28 22:20:20

大模型空间站 · 2024-02-28 22:20:20 发布

资讯

研究

端侧最强，Meta田渊栋等人卷10亿以下参数小模型，LeCun：小技巧启动

https://mp.weixin.qq.com/s/pZLpmHrbGlAhbxnUFi1ukQ

「在移动设备上运行 LLM？可能需要 Meta 的一些技巧。」刚刚，图灵奖得主 Yann LeCun 在个人社交平台表示。他所宣传的这项研究来自 Meta 最新论文《 MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases 》，在众多作者中也有我们熟悉的来自 Meta FAIR 田渊栋。田渊栋表示：「我们的 MobileLLM 预训练模型（125M/350M），性能达到 SoTA，特别是在聊天 / API 调用方面表现出色。此外，本工作中的一个有趣研究是跨 Transformer 层的权重共享，这样不仅节省了参数，还减少了推理过程中的延迟。」

MATRIX：社会模拟推动大模型价值自对齐，比GPT4更「体贴」

https://mp.weixin.qq.com/s/9pyjOfuDmMyDJUWAkJ9TCQ

模型如 ChatGPT 依赖于基于人类反馈的强化学习（RLHF），这一方法通过鼓励标注者偏好的回答并惩罚不受欢迎的反馈，提出了一种解决方案。然而，RLHF 面临着成本高昂、难以优化等问题，以及在超人类水平模型面前显得力不从心。为了减少乃至消除对人类监督的依赖，Anthropic 推出了 Constitutional AI，旨在要求语言模型在回答时遵循一系列人类规则。同时，OpenAI 的研究通过采用弱模型监督强模型的方法，为超人类水平模型的对齐提供了新的视角。尽管如此，由于用户给出的指令千变万化，将一套固定的社会规则应用于 LLMs 显得不够灵活；而且，弱模型对强模型的监督提升效果尚不明显。为了解决这些大语言模型价值对齐的挑战，上海交通大学、上海人工智能实验室 () 的科研团队发表了新工作《Self-Alignment of Large Language Models via Monopolylogue-based Social Scene Simulation》，提出了一种原创的自我对齐策略 —— 社会场景模拟。这种方法的核心思想是，人类社会价值观的形成和发展源于社会各方参与者之间的互动和社会影响。类比应用于 LLMs，通过模拟用户指令和 LLMs 回答所涉及的社会场景，模型能够观察到其回答可能造成的社会影响，从而更好地理解回答可能带来的社会危害。

大模型Scaling Law同样适用于下游任务性能？斯坦福、谷歌最新研究揭秘

https://mp.weixin.qq.com/s/HE4U-dyQfgNZGESzOnVNQw

大模型的成功很大程度上要归因于 Scaling Law 的存在，这一定律量化了模型性能与训练数据规模、模型架构等设计要素之间的关系，为模型开发、资源分配和选择合适的训练数据提供了宝贵的指导。以往的大量研究集中于上游复杂度或 交叉熵 损失的 Scaling law（即在预训练数据上进行评估），但在实际应用中，模型通常要经历一个 迁移学习 的过程：首先在无监督数据上进行预训练，然后针对特定的下游任务（如编码或翻译）进行微调。那么，Scaling Law 能不能用于预测下游任务性能？ 这个关键问题很大程度上仍未得到解答。在最近的一项工作中，斯坦福大学和谷歌的研究者探索了迁移学习的 Scaling Law。

剑桥大学团队用深度学习工具评估纳米抗体的天然性，助力抗体药开发

https://mp.weixin.qq.com/s/mbqSzMQ0Sxg854GldlQFuA

单克隆抗体已成为关键的治疗方法。特别是，纳米抗体（一种在骆驼科动物中自然表达的小型单域抗体）在 2019 年第一个纳米抗体药物获得批准后迅速获得发展势头。虽然如此，这些生物制剂作为治疗剂的开发仍然是一个挑战。尽管已有成熟的体外定向进化技术，部署起来相对较快且成本低廉，但产生治疗性抗体的黄金标准仍然是来自动物免疫或患者的发现。免疫系统衍生的抗体往往在体内具有良好的特性，包括半衰期长、与自身抗原的反应性低和毒性低。在最新的研究中，剑桥大学的研究人员推出了 AbNatiV，一种深度学习工具，用于评估抗体和纳米抗体的天然性，即它们属于免疫系统衍生的人类抗体或骆驼纳米抗体分布的可能性。AbNatiV 是一种多用途工具，可以准确预测任何来源（包括合成文库和计算设计）的 Fv 序列的天然性。它提供了一个可解释的分数，可以预测免疫原性的可能性，以及一个残基水平的概况，可以指导抗体和纳米抗体的工程设计，与免疫系统衍生的抗体和纳米抗体无法区分。该团队进一步引入了自动化人源化流程，并将其应用于两种纳米抗体。实验室实验表明，与使用传统结构和残基频率分析进行人源化的纳米抗体不同，AbNatiV 人源化纳米抗体保留了与野生型相当甚至更好的结合和稳定性。

产业

Mistral AI新模型对标GPT-4，不开源且与微软合作，网友：忘了初心

https://mp.weixin.qq.com/s/rvIJLIEvvzQ5n8v7ZF6pWw

生成式 AI 领域，又有重量级产品出现。周一晚间，Mistral AI正式发布了「旗舰级」大模型 Mistral Large。与此前的一系列模型不同，这次 Mistral AI 发布的版本性能更强，体量更大，直接对标 OpenAI 的 GPT-4。而新模型的出现，也伴随着公司大方向的一次转型。随着 Mistral Large 上线，Mistral AI 推出了名为 Le Chat的聊天助手（对标 ChatGPT），任何人都可以试试效果。

英伟达新显卡发布！笔记本AI画图提速14倍，轻薄本也能当AI工作站

https://mp.weixin.qq.com/s/4d9jDodEPNVii7iV5-qL8Q

黄院士的新核弹，来了！全新消费级显卡，专为提速笔记本大模型应用而生。就在这两天的MWC上，英伟达重磅推出了全新GPU——RTX 500和RTX 1000。比起只使用CPU，全新RTX 500可以为Stable Diffusion等模型提供高达14倍的生成式AI性能！不仅如此，搭载RTX 500后，用AI进行照片编辑的速度也将提高3倍，3D渲染图形的性能更是提高了10倍。更重要的是，RTX 500和RTX 1000是用于轻薄笔记本电脑，属于英伟达Ada Generation系列的工作站显卡。即便在性能上有了如此提升，英伟达还是将二者定位在了 “入门级” ，主打的就是让普通笔记本也有彪悍的AI能力。

DeepMind CEO 最新《纽约时报》专访：AGI 将使能源变得廉价甚至免费，货币性质也将发生转变

https://mp.weixin.qq.com/s/yWCXt0oVJlSQOo96pVyK2w

Google DeepMind CEO Demis Hassabis 近期参加了《纽约时报》的对谈，Demis 谈论了 Google 最新的 AI 突破、构建 AGI 以及在计算机可以完成每项工作的世界中会发生什么？此外，Demis 还表示， AI 设计的药物和治疗方法可以治愈真正可怕的疾病，距离实现这一目标只有几年的时间。他认为，能源变得免费或廉价，从而导致货币性质的变化。

谷歌10M上下文窗口正在杀死RAG？被Sora夺走风头的Gemini被低估了？

https://mp.weixin.qq.com/s/t3fsKksf7DWwVJY5vldPNw

要说最近最郁闷的公司，谷歌肯定算得上一个：自家的 Gemini 1.5 刚刚发布，就被 OpenAI 的 Sora 抢尽了风头，堪称 AI 界的「汪峰」。具体来说，谷歌这次推出的是用于早期测试的 Gemini 1.5 的第一个版本 ——Gemini 1.5 Pro。它是一种中型多模态模型（涉及文本、视频、音频），性能水平与谷歌迄今为止最大的模型 1.0 Ultra 类似，并引入了长上下文理解方面的突破性实验特征。它能够稳定处理高达 100 万 token（相当于 1 小时的视频、11 小时的音频、超过 3 万行代码或 70 万个单词），极限为 1000 万 token（相当于《指环王》三部曲），创下了最长上下文窗口的纪录。此外，它还能仅靠一本 500 页的语法书、 2000 条双语词条和 400 个额外的平行句子学会一门小语种的翻译（网络上没有相关资料），翻译得分接近人类学习者。很多测试过 Gemini 1.5 Pro 的人都表示，这个模型被低估了。比如有人尝试将从 Github 上下载的整个代码库连同 issue 都扔给 Gemini 1.5 Pro，结果它不仅理解了整个代码库，还识别出了最紧急的 issue 并修复了问题。

推特

Samraaj Bath分享ion design：即时将 Figma 设计转化为干净的 React 代码

https://x.com/samraaj/status/1762194073551835350?s=20

⚡️介绍 ion design (YC W24)⚡️

我们可以即时将 Figma 设计转化为干净的 React 代码。我们已经帮助企业提速约 40%

ion 通过以下方式节省成千上万的小时：

从您的代码库学习结构
重用您现有的组件
自动暗黑模式 🌙

我们通过我们的设计系统实现这一目标 - 用爱构建的 5,000 多个 Figma 组件。

它配备了您需要的一切，以快速、整洁、一致的方式构建美观的产品。

暂时无法在飞书文档外展示此内容

Huang：易于访问的直接偏好优化示例

https://x.com/vwxyzjn/status/1762253021486948745?s=20

Costa Huang: 我创建了可能是最易于访问的直接偏好优化（DPO）示例，配合使用 TRL 🤗。114 行代码，适用于 collab T4 GPU，并且运行时间约为 6 分钟（或在 H100 上为 44 秒）。

我使用了 OpenAI之前关于使完成更加“生动描述性”的风格任务的 RLHF 数据集（Daniel Ziegler et al., 2020）。该脚本还包括了数据集的良好打印输出以及训练后和初始模型的完成情况。

💾 代码片段：https://gist.github.com/vwxyzjn/64d91ce0b66b0548f1d2c33e855d168c

🚀 Colab：https://colab.research.google.com/drive/13-xxbWlahN9Vsi22c6zoZafBOWApvqm_?usp=sharing

🐝 跟踪的 wandb 运行：https://wandb.ai/costa-huang/huggingface/runs/2bww52li

📖 OAI 之前的 RLHF 论文（包含数据集）：https://arxiv.org/pdf/1909.08593.pdf

从下面的截图中可以看出，训练后的 gpt2，一个 124M 模型，输出了更具描述性的内容（例如，“她的眼睛睁得很大”，“他把她搂在怀里”）

当然，更大的模型效果更好；见下一个线索

程序员新型生发水？ Wrigley分享使用Gemini 1.5 Pro正确识别并修复每一个Bug

https://x.com/mckaywrigley/status/1762175776726663267?s=20

修复漏洞的未来？

我在一个应用中录制了 3 个不同的漏洞，并将视频连同我的整个代码库一起交给了 Gemini 1.5 Pro。

它正确地识别并修复了每一个漏洞。

AI 的进步速度简直令人难以置信。

暂时无法在飞书文档外展示此内容

继英伟达Jensen Huang孩子不应该继续学编程后，Carmack分享观点：“编程”从来就不是价值的来源，问题解决才是核心技能。

https://x.com/ID_AA_Carmack/status/1762110222321975442?s=20

John Carmack：“编程”从来就不是价值的来源，人们不应该过分依恋于它。问题解决才是核心技能。传统编程要求的纪律性和精确性将保持其作为有价值的可转移属性，但它们不会成为进入门槛。

多年来，我多次思考我所认识的一个伟大的程序员，他对汇编语言的热爱到了不想转向C语言的程度。我不得不对自己使用现有的庞大代码库和低效语言的类似情绪进行斗争，但我还是坚持下来了。

我在某种程度上已经向自己妥协，认为我可能会错过“最终抽象”，在那里你意识到管理人员比任何个人工具都强大。我只是不喜欢它，并且我可以接受这对我的限制。

我怀疑，即使它们最终成为比我更好的程序员，我还是会更享受管理AI的过程

Alexander Koch分享为机械臂训练简单世界模型：它根据领导臂的控制输入，预测未来的相机图像和关节角度

https://x.com/alexkoch_ai/status/1762374375662350740?s=20

我为我的机械臂训练了一个简单的世界模型。它在一块 @nvidia RTX 3090 GPU 上预测未来的速度比实时快了20000倍（128批次 -> 每次快160倍）。

它根据领导臂的控制输入，预测未来的相机图像和关节角度。这种学习到的模拟将用于后续训练AI控制机械臂。我的实现基于 @danijarh 的Dreamer算法。

暂时无法在飞书文档外展示此内容

论文

使用大型语言模型协助从零开始编写类似维基百科的文章

链接：http://arxiv.org/abs/2402.14207v1

我们研究如何将大型语言模型应用于从零开始编写扎实有序的长篇文章，其广度和深度可与维基百科页面相媲美。这个未被充分探索的问题在文章前期提出了新的挑战，包括如何研究主题并准备大纲。我们提出了STORM，一个通过检索和多角度提问综合主题大纲的写作系统。STORM通过（1）发现研究给定主题的多样化视角，（2）模拟具有不同视角的作者向基于可信互联网来源的主题专家提问的对话，（3）整理收集的信息以创建大纲来模拟前期写作阶段。

为了评估，我们整理了FreshWiki，一个最近高质量维基百科文章的数据集，并制定了大纲评估来评估前期写作阶段。我们还收集了经验丰富的维基百科编辑的反馈。与以大纲驱动的检索增强基线生成的文章相比，STORM的文章被认为更有组织性（绝对增加25%）和覆盖广泛（增加10%）。专家反馈也有助于识别生成扎实长文的新挑战，例如来源偏见传递和无关事实的过度关联。

Nemotron-4 15B 技术报告

链接：http://arxiv.org/abs/2402.16819v1

我们介绍了Nemotron-4 15B，这是一个拥有150亿参数的大型多语言模型，训练数据包括8万亿文本token。Nemotron-4 15B在英语、多语言和编码任务上表现出色：在7个下游评估领域中，它在4个领域中表现优于所有现有规模相似的开放模型，并在其余领域中达到领先开放模型的竞争性表现。具体来说，Nemotron-4 15B展现出了所有规模相似模型中最好的多语言能力，甚至优于四倍大的模型，以及明确专门用于多语言任务的模型。

MegaScale ：将大型语言模型训练扩展到超过10,000个 GPU

链接：http://arxiv.org/abs/2402.15627v1

我们介绍了建立和部署MegaScale的设计、实现和工程经验，这是一个用于训练大型语言模型（LLMs）的生产系统，规模超过10,000个GPU。在这一规模下训练LLMs带来了训练效率和稳定性的前所未有的挑战。我们采取了一种全栈方法，通过模型块和优化器设计，计算和通信重叠，操作优化，数据管道和网络性能调优等算法和系统组件的协同设计。在生产中保持高效率（即稳定性）是一个重要考虑因素，鉴于LLM训练任务的长时间跨度。许多困难的稳定性问题只有在大规模下才会涌现，深度可观测性是解决这些问题的关键。我们开发了一套诊断工具，以监视系统组件和栈内深处的事件，识别根本原因，并制定有效技术以实现容错和减轻落后者。当在12,288个GPU上训练一个175B的LLM模型时，MegaScale实现了55.2%的模型浮点运算 (Model FLOPs) 利用率（MFU），相比于Megatron-LM，MFU提高了1.34倍。我们分享了在识别和修复故障及落后者方面的运行经验。我们希望通过从系统的角度阐明问题并分享我们的经验，这项工作可以激发未来的LLM系统研究。

RepoAgent：一个基于LLM的开源框架，用于存储库级别的代码文档生成

链接：http://arxiv.org/abs/2402.16667v1

生成模型在软件工程领域展现出了巨大潜力，特别是在代码生成和调试等任务中。然而，在代码文档生成领域中，它们的利用仍未得到充分开发。为此，我们介绍了RepoAgent，一个由大型语言模型驱动的开源框架，旨在积极生成、维护和更新代码文档。通过定性和定量评估，我们验证了我们方法的有效性，表明RepoAgent在生成高质量的存储库级文档方面表现出色。代码和结果可在https://github.com/OpenBMB/RepoAgent 公开访问。

StructLM：构建结构知识基础的通用模型

链接：http://arxiv.org/abs/2402.16671v1

结构化数据源，如表格、图形和数据库，是普遍的知识来源。尽管大语言模型在普通文本上表现出色，但它们在解释和利用结构化数据方面的能力仍然有限。我们的研究揭示了LLMs处理结构化数据的明显不足，例如，ChatGPT在平均35%的领域落后于最先进的模型。为了增强LLMs的结构化知识基础（SKG）能力，我们开发了一个包含110万个示例的全面的训练数据集。利用这个数据集，我们训练了一系列基于Code-LLaMA架构的模型，称为StructLM，参数范围从7B到34B。我们的StructLM系列在评估的18个数据集中有14个超越了特定任务的模型，并在7个SKG任务上建立了新的最先进成就。此外，StructLM在6个新颖的SKG任务上展现出了出色的泛化能力。与预期相反，我们观察到扩大模型规模只带来微小的好处，StructLM-34B仅略微优于StructLM-7B。这表明结构化知识基础仍然是一个具有挑战性的任务，需要更多创新设计将其推向一个新水平。

RoboCodeX：用于机器人行为综合的多模态代码生成

链接：http://arxiv.org/abs/2402.16117v1

摘要：机器人行为合成是理解多模态输入并为机器人生成精确物理控制的问题，是具体化AI的重要组成部分。尽管在应用多模态大型语言模型进行高级理解方面取得成功，但将这些概念理解转化为详细的机器人行为，在实现对各种情景的泛化时仍具挑战性。本文提出了一种用于泛化机器人行为合成的树形多模态代码生成框架，名为RoboCodeX。RoboCodeX将高级人类指令分解为由物理偏好（如可承受性和安全约束）组成的多个物体主导的操作单元，并应用代码生成引入跨不同机器人平台的泛化能力。为了进一步增强将概念和感知理解映射为控制命令的能力，收集了专门的多模态推理数据集进行预训练，并引入了迭代自我更新方法进行监督微调。广泛的实验表明，RoboCodeX在四种不同类型的操作任务和一个导航任务的模拟器和真实机器人上均取得了最先进的性能。

ChatMusician: 用 LLM 理解和内在生成音乐

链接：http://arxiv.org/abs/2402.16153v1

大型语言模型（LLMs）展示出在文本生成方面令人印象深刻的能力，但我们发现它们的能力尚未泛化到音乐这一人类创造性语言领域。我们介绍了ChatMusician，一个集成了内在音乐能力的开源LLM。它基于对文本兼容音乐表示法ABC记谱进行持续预训练和微调LLaMA2的基础。ChatMusician将音乐视为第二语言，可以使用纯文本标记器理解和生成音乐，而无需任何外部多模态神经结构或标记器。有趣的是，赋予音乐能力并不会损害语言能力，甚至在MMLU评分上稍微高出一些。我们的模型能够在文本、和弦、旋律、主题、音乐形式等的条件下谱写结构良好、长度完整的音乐，超越了GPT-4的基准线。在我们精心策划的大学水平音乐理解基准MusicTheoryBench上，ChatMusician在零样本设置下明显超越了LLaMA2和GPT-3.5。我们的工作揭示了LLMs可以是音乐的出色压缩器，但仍有重要领域有待开发。我们在GitHub上发布了我们的4B token音乐语言语料库MusicPile、收集的MusicTheoryBench、代码、模型和演示。

量子线性代数是Transformer架构所需的全部

链接：http://arxiv.org/abs/2402.16714v1

生成式机器学习方法，如大语言模型，正在彻底改变文本和图像的创作。虽然这些模型强大，但也需要大量计算资源。Transformer是大型语言模型中的关键组件，旨在生成给定部分序列的合适完成。本研究探讨了在容错量子计算视角下的Transformer架构。输入模型中，预训练的权重矩阵被作为块编码赋予，用于构建Transformer的查询、键和值矩阵。我们展示了如何准备自注意力矩阵的块编码，通过Hadamard乘积对softmax函数进行逐行应用。此外，我们结合量子子程序构建Transformer中重要的构建块，包括残差连接、层标准化和前馈神经网络。我们的子程序准备了Transformer输出的振幅编码，可用于获得预测。我们讨论了获得量子优势的潜力和挑战。

产品

Octomind

https://www.octomind.dev/

这是一个适用于 Web 应用的 AI 测试工具，可以在用户之前发现错误。只需提供需要测试的网站 URL，AI 代理会自动编写并保持测试的相关性。用户可以从应用内运行测试，也可以将其集成到 CI/CD 管道中。

HeyEditor

https://www.heyeditor.net/

HeyEditor 可以用于在照片、GIF 和视频中改变面孔。HeyEditor 不仅提供了交换面孔、使图像或视频看起来更真实等功能，也可以借助 AI 用于视频和照片编辑，实现照片到动漫和照片的增强等功能。

HuggingFace&Github

ScreenAgent

https://github.com/niuzaisheng/ScreenAgent

ScreenAgent 项目是为视觉语言模型智能体（VLM Agent）构建了一个与真实计算机屏幕交互的环境。在这个环境中，智能体可以观察屏幕截图，并通过输出鼠标和键盘操作来操纵图形用户界面。同时，团队还设计了一个自动控制流程，其中包括计划、行动和反思阶段，引导智能体与环境持续交互并完成多步骤任务。此外，还构建了 ScreenAgent 数据集，该数据集收集了完成各种日常计算机任务时的屏幕截图和动作序列。

Phoenix

https://github.com/Arize-ai/phoenix

Phoenix 是一个提供 MLOps 和 LLMOps 洞察的工具，它能够监控模型和LLM应用程序。同时，Phoenix 也提供了一系列功能，包括 LLM Traces（LLM跟踪）、LLM Evals（LLM评估）、Embedding Analysis（嵌入分析）、RAG Analysis（RAG 分析）以及 Structured Data Analysis（结构化数据分析）。

MIRAGE

https://teddy-xionggz.github.io/benchmark-medical-rag/

这是有关医学信息检索生成评估（Mirage）基准，包括来自五个医学问答数据集的7,663个问题。通过介绍的MedRag工具包，在41种不同语料库、检索器和骨干LLMs的组合上进行了超过1.8万亿个提示标记的大规模实验。总体而言，MedRag将六种不同LLMs的准确性提高了高达18%，超越了思维链提示，将GPT-3.5和Mixtral的性能提升到了GPT-4水平。他们的结果显示，各种医学语料库和检索器的组合实现了最佳性能。除此外，发现在医学RAG中存在对数线性缩放属性和“中间迷失”效应。团队相信他们的全面评估可以作为实施医学RAG系统的实用指南。

投融资

AI芯片初创公司DeepX即将筹集9000万美元资金 - BNN彭博社

https://www.bnnbloomberg.ca/ai-chip-startup-deepx-is-close-to-raising-90-million-in-funding-1.2039092

韩国AI芯片初创公司DeepX Co.即将完成一轮融资，筹集约120亿韩元（约合9000万美元），用于加速生产和资助全球扩张。该公司已从Skylake Equity Partners筹集到60亿韩元，同时从现有支持者Timefolio Asset Management那里获得30亿韩元。DeepX还在与另一投资者进行最后讨论，以在下个月前筹集到另外30亿韩元。这一新轮融资将DeepX的估值提升到约7000亿韩元。DeepX的半导体产品旨在用于数据中心之外，有助于智能机器人的发展，并将AI技术加入各种电子设备。与另一AI硅谷初创公司Rebellions一道，DeepX是韩国在这一领域新兴的有前景的公司之一。DeepX目前正与包括现代起亚汽车机器人实验室和浦项DX等公司合作，朝着大规模生产迈进。

利用AI开发畅销书的自助出版平台Inkitt获得3700万美元投资，由Khosla领投

https://techcrunch.com/2024/02/26/inkitt-ai-publishing-37-million/

自助出版平台Inkitt利用AI技术挑选和发展潜在的畅销故事，已成功筹集到3700万美元的资金，用于扩展其内容生产。Inkitt的app让用户自行发布故事，随后通过AI和数据科学选择最吸引人的故事进行调整、分发和销售。目前，该平台已吸引了3300万用户并创造了数十本畅销书。这次C轮融资将用于拓展内容类型，包括基于原创想法的AI写作故事、为特定读者定制个性化小说、进入游戏和有声书市场，以及将其平台上的小说改编成更多视频内容。Inkitt的长期愿景是扩大其内容库并围绕其建立多媒体帝国，其创始人Ali Albazaz将其称为“21世纪的迪士尼”。此轮融资由Khosla Ventures的Vinod Khosla领投，Inkitt迄今总共筹集资金达到1.17亿美元。

Myko AI获得270万美元种子轮融资

https://www.finsmes.com/2024/02/myko-ai-raises-2-7m-in-seed-funding.html

位于迈阿密的Myko AI，一家专注于为销售和收入团队数据开发对话式AI的公司，已成功完成270万美元的种子轮融资。这轮融资由Khosla Ventures领投，Zero Knowledge Ventures、DayDream Ventures、AngelList Early-Stage Quant Fund等机构参与投资。Myko AI计划使用这笔资金扩大其产品的用户采用率。该公司由Trevor Lee和Zheng Li于2020年创立，旨在全球范围内推进销售和收入团队使用的对话式AI，使他们能够即时提问并获取答案，通过简单的文本提示自行服务其数据并发现隐藏的洞察。Myko AI可以直接接入用户现有的CRM平台，如Salesforce，以及包括Slack和Microsoft Teams在内的聊天应用，从而在几秒钟内分析数据。Myko AI已经符合Soc II Type II的合规要求，并已在Salesforce AppExchange上架。

Workday签署协议收购AI驱动公司HiredScore

https://www.marketscreener.com/quote/stock/WORKDAY-INC-37866670/news/Workday-Signs-Deal-to-Acquire-AI-Driven-Company-HiredScore-46032181/

Workday宣布将收购AI驱动的人才解决方案提供商HiredScore。作为一家提供财务和人力资源云服务的企业，Workday表示，此次收购旨在为其客户提供更多AI服务。HiredScore通过数据驱动的洞察改进了招聘和人才流动过程。Workday并未透露该协议的财务细节。预计该交易将在其财年第一季度末，即4月30日前完成。

学习

谷歌AI可媲美奥赛金牌选手，但为何只局限在这些几何题？

https://mp.weixin.qq.com/s/giMNMhPpFsqezJL6wMdgeQ

谷歌DeepMind团队开发了AlphaGeometry，一个能够解决国际奥林匹克数学竞赛（IMO）几何题的AI模型。该模型结合了推理数据库（DD）和线性代数规则系统（AR），并通过训练一个151M大小的语言模型来优化辅助点的添加策略。AlphaGeometry在30道题目上的表现从18道提升到25道。尽管如此，模型的表达能力受限，且在解决几何问题时依赖于特定规则框架。尽管有潜力，但要将其拓展到更广泛的数学领域仍面临挑战。

推测解码（Speculative Decoding）哪家强？-- 最新评测基准Spec-Bench分享

https://zhuanlan.zhihu.com/p/683995502

为了公平比较不同的前沿推测解码方法，研究团队构建了Spec-Bench，这是一个涵盖多种应用场景的推测解码测试基准。通过在统一的实验环境下测试多种开源的推测解码方法，他们发现EAGLE在多个应用场景中表现出色，与自回归解码相比实现了2至3倍的加速。Spec-Bench还包括了文本摘要和检索增强的文本生成等子任务，并使用了Vicuna-7B-v1.3模型进行实验。此外，实验还在不同的计算设备上进行，比如NVIDIA 3090和A100 GPU，发现在性能更强的设备上，大多数推测解码方法的加速效果有显著提升。这表明随着计算资源和设备的发展，推测解码技术将实现更优的推理加速效果。

RAG 领域的新宠：为什么 AI 圈都在谈论 Jina ColBERT？

https://mp.weixin.qq.com/s/xt5-tzTLT5G5YpBAvRivZA

Jina AI 推出的 Jina-ColBERT 模型在 RAG（检索增强生成）领域受到关注，它基于 BERT 模型，采用多向量搜索技术，能处理长达 8192 Token 的文本。与单向量模型相比，Jina-ColBERT 通过逐 token 编码提供细粒度表征，增强了可解释性和跨领域泛化能力。在 BEIR 数据集测试中，Jina-ColBERT 展现了与 ColBERTv2 相媲美的性能，尤其在长文本处理上表现更优。目前，Jina-ColBERT 仅支持英文内容，可通过 Colab Notebook 快速上手。

LLM推理到底需要什么样的芯片？

https://zhuanlan.zhihu.com/p/683359705

大模型（LLM）的推理需要特定的芯片和系统架构设计，以适应其独特的数据处理需求。LLM的主要需求是处理权重和与上下文对应的KV-Cache。权重是固定的，负责模型对世界的认知，而KV-Cache是动态的，针对每个用户请求的独特权重。LLM的这种元学习能力是传统神经网络所不具备的。对于芯片和系统设计而言，关键在于如何有效处理这些数据。由于每个Token的生成是串行的，系统设计必须考虑如何增加并发度和批处理大小，以提高处理效率。此外，硬件设计的关键在于如何扩大内存带宽和存储容量，以满足并发请求所需的KV存储。

文章提出，随着算法发展和对长上下文的需求增加，芯片行业将经历重大变革。重点将放在提高内存带宽性价比和扩大内存容量上。这种变革将推动更大规模的数据处理，为实现更高效的LLM推理提供支持。

超越向量检索！混合检索 + 重排序改善 RAG 应用 | 新程序员

https://mp.weixin.qq.com/s/818pGNYJwNUTFGllJVqK7A

本文介绍了混合检索和重排序技术在提升检索增强生成（RAG）系统文档召回效果中的应用。混合检索结合了向量检索和关键词检索的优势，通过在数据库中建立向量索引和关键词索引，提高了检索的准确性和召回率。重排序模型则通过计算用户问题与候选文档的语义匹配度，优化了搜索结果的相关性。Azure AI的实验数据显示，混合检索加重排序在不同数据集和查询场景下均能显著提升文档召回质量。这些技术的应用对于构建高效、准确的RAG系统至关重要。