
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
虽然深度神经网络中神经元的激活值通常无法被人类简单直观地解释,但。我们在不同规模、激活函数与损失函数的 SAE 上进行了测试,这些 SAE 分别在两个开源权重的大语言模型上训练。我们提出来衡量解释质量,其运行成本低于现有最优方法。其中一种技术 ——,用于评估对特征进行干预所产生效果的可解释性,我们发现它能够解释现有方法无法覆盖的特征。我们给出了生成更优质解释的指导原则,使其在更广泛的激活上下文下依
高层概念、技能或行为,在模型的内部表征空间中被编码为特定方向。基于这一视角,沿着某个特定方向对隐状态进行干预,能够将模型内部计算推向对应概念,从而在不更新模型参数的情况下影响最终输出。SAE 特别适合这一任务,因为它将模型激活分解为稀疏、更易解释的特征,使得单个方向可以与更具体的行为或语义属性对应。一旦找到目标特征,就可以在残差流中增强或抑制对应特征方向,从而操控模型。h:模型原始隐状态d:SAE
稀疏自编码器是一种极具潜力的无监督方法,它通过稀疏瓶颈层重构模型激活值,从而从语言模型中提取可解释特征。由于语言模型会习得海量语义概念,自编码器必须具备超大容量,才能完整还原所有相关特征。然而,受两大因素制约,稀疏自编码器的规模缩放特性研究一直存在难点:一是需要在重构损失与稀疏性两个优化目标之间做权衡;二是模型中普遍存在死亡隐单元问题。本文引入k - 稀疏自编码器(Makhzani & Frey,
本文提出PatchSAE稀疏自编码器框架,用于解析CLIP视觉Transformer中的可解释视觉概念。通过将ViT中间层输出映射到高维稀疏隐空间,PatchSAE能提取细粒度的图像块级视觉特征(如物体部件、纹理等),并实现概念的空间定位。研究发现:1)适配前后模型的视觉概念激活差异微小,性能提升主要源于预训练模型中固有概念的重新映射;2)SAE提取的概念对分类任务具有决定性影响,屏蔽关键隐变量会
近期研究表明,为大语言模型新增记忆信息展现出广阔前景,借此可以替换过时内容或补充专业知识。但该方向的现有研究,大多仅局限于单次单条关联信息的更新。本文提出 MEMIT 方法,可对语言模型进行批量记忆直接更新。实验证明:该方法能够为 GPT-J(60 亿参数)、GPT-NeoX(200 亿参数)模型一次性更新数千条关联知识,性能相比过往研究提升数个数量级。
大型视觉语言模型(LVLM)是近年来出现的强大架构,能够同时对视觉和文本信息进行理解与推理。这类模型通常依赖两大核心组件:**视觉Transformer(ViT)**与**大语言模型(LLM)**。ViT 将视觉内容编码为图像令牌序列,充当模型的感知前端,即模型的“眼睛”;而 LLM 则对这些令牌进行解析,以完成高级推理、生成回答,充当模型的认知核心,即模型的“大脑”。然而,目前仍不明确:哪些视觉
视觉投影器作为连接视觉与语言模态、推动跨模态对齐的关键部件,是多模态大语言模型(MLLM)中的核心组件。然而,针对投影器在视觉—语言对齐中效果的度量问题仍缺乏充分探索,目前仅能通过多模态大语言模型在下游任务上的表现间接推断。受该问题启发,本文通过解读多模态大语言模型内部的视觉—语言语义流,对投影器模块展开研究。具体而言,我们将语义关联流从生成的语言令牌回溯至原始视觉编码器的图像块,以及投影器输出的
大型语言模型(LLM)经常出现**幻觉现象**,生成**错误或过时的知识**。因此,模型编辑方法应运而生,以实现**针对性的知识更新**。为达到这一目标,主流范式采用**先定位再编辑**的思路:首先定位具有影响力的参数,再通过引入扰动对其进行编辑。尽管该类方法效果显著,但现有研究表明,这种扰动不可避免地会破坏大语言模型中原本保存的知识,尤其在**连续编辑**场景下问题更为突出。
大语言模型(LLMs)正越来越多地被应用于自主决策场景,在这类场景中,模型需要从庞大的行动空间中选取决策选项。然而,主导这一采样过程的启发式规则,目前尚未得到充分的研究。本文对大语言模型的这种采样行为展开探究,研究发现,其背后的启发式规则与人类的决策方式具有相似性:均包含某一概念的描述性成分(反映统计常态)和规定性成分(大语言模型中内置的隐含理想范式)。研究证实,在公共卫生、经济趋势等诸多现实领域
大规模预训练语言模型在**回忆训练语料中包含的事实性知识**方面表现出惊人的能力(Petroni et al., 2019;本文通过引入**知识神经元**这一概念,对事实性知识如何存储在预训练 Transformer 中展开初步研究。具体而言,我们以 BERT 模型为对象,在填空式完形任务上进行分析。针对一条关系型事实,我们提出一种知识归因方法,以定位出表达该事实的神经元。实验发现,这类知识神经元







