
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
文本水印技术在检测大型语言模型(LLM)输出以及防止其滥用方面取得了显著进展。当前的水印技术具有高可检测性、对文本质量影响小以及对文本编辑具有鲁棒性等特点。然而,目前的研究缺乏对 LLM 服务中水印技术不可感知性的探讨。因为 LLM 提供商可能不希望在现实场景中透露水印的存在,这可能会降低用户使用服务的意愿,并使水印更容易受到攻击。本研究调查了水印 LLM 的不可感知性。我们设计了一种名为 Wat

Retrieval-Augmented Generation (RAG) 模型通过结合外部知识以减少幻觉问题,但即使检索到准确的上下文,RAG 模型仍可能在生成过程中产生与检索信息相冲突的“幻觉”输出。

目前,团队已经与国内产业界紧密合作,帮助国产厂商实现了异构千卡混合训练优化,相比同构训练,集群算力利用效率高达93.1~97.6%,同时还在构建大规模的研究 + 工程算力底座,已经支撑了包括上海算法创新研究院、上交人工智能学院集群、上海 AI Lab 等算力底座的建设。针对这一挑战,团队提出了一种动态感知编译映射的新方法,即引入机器学习的方式,通过 AI 模型自适应地选择不同类型的计算流,适配不同

首先,从各个模型的热力图中可以明显看到,有一些连续的层形成了高相似度的簇,这些簇表现为图中的浅色区域。我们对不同大型语言模型(LLMs)的相邻 Transformer 层进行了权重矩阵的相似性分析,包括 \(W_v\)、\(W_k\)、\(W_q\)、\(W_o\)、\textsc{MLP-Up} 和 \textsc{MLP-Down} 等多个矩阵。第三种,也是我们最期望的特性,叫做“可区分性”:

例如,表3中展示了 Llama3-70B 在怀疑模式影响下,排除了其他智能体提供的正确答案,而在进行追问后,尽管它给出的推理过程是正确的,但却选择了另一个错误的答案。然而遗憾的是,该研究指出,当前 LLM驱动的多智能体系统中,从众现象普遍存在,其在需要独立思考和提出创新解决方案的情境中存在风险。研究结果表明,当前多智能体系统难以完全避免从众行为,即便是最先进的LLM也可能会放弃自己的正确判断,服从

如下图所示,LLM-Streamline 的性能对比已有模型剪枝方法有着明显优势:如图所示,LLM-Streamline 包括了层剪枝与层替换两个步骤:层剪枝阶段会通过输入与输出的余弦相似度来判断各个层的重要性,层替换阶段则训练了一个轻量级蒸馏小模型来弥补剪枝带来的性能损失。此外,团队发现使用准确度来衡量剪枝模型性能的方法有一定局限性,因此,又提出了一个新的指标——稳定性,来衡量剪枝模型的性能。

关于数据,一方面是现有的互联网相关数据,另一方面是合成数据——合成数据非常重要,但是合成数据的质量能否用于有效训练,取决于基础模型的生成能力和合成数据的方法,截止到 2024 年,可能只有 GPT-4 等极少数模型能达到这个水平。所以在不远的将来,利用多模态大模型的能力,虚拟老师的水平将会超过几乎所有的真实老师的水平,从而使教育提高到一个全新的高度。而二者的结合:一个低自由度,结构简单稳定,能够带

作者|涂远鹏 阿里巴巴达摩院实习生 引言 香港大学和阿里达摩院联合提出头号玩家(PlayerOne)模型,该方法可以根据用户提供的图像构建一个支持用户自由动作控制且场景一致的真实世界,通过摄像设备实时捕捉用户的动作序列,PlayerOne能够将这些动态信息无缝融入到构建的虚拟世界中,使用户能够以第一人称视角,在如同顶级AAA游戏般的高质量场景中,自由地进行探索与互动。 项目主页:https://

作者|冷思聪 阿里巴巴达摩院实习生 引言 阿里巴巴达摩院和新加坡南洋理工大学的研究团队提出了全新的评价基准--多模态的诅咒 (CMM),这是一个系统性地研究面向语言,视觉,和音频的多模态大模型 (LMMs) 幻觉问题的工作,对幻觉问题提供深入的分析和评估方法。 近年来,多模态大模型(LMMs)在人工智能的前沿领域取得了突破性进展,但仍然面临“幻觉”问题,即模型会生成与输入不符的信息。面对这一挑

作者|袁瑜谦 阿里巴巴达摩院实习生 引言 在厨房手忙脚乱时,你问AI助手:“我煮的菜熟了吗?”——它却连已经煮了几分钟都记不得。现有多模态大模型(MLLMs)在动态第一视角场景中近乎“盲人”:认不出已经清洗过的碗;预测不了即将烧焦的锅;记不住3秒前剪刀位置...... 浙大和达摩院重磅推出EOC-Bench——首个聚焦第一视角下「动态物体时空认知」的评测基准,用3277道灵魂拷问揭穿MLLMs








