logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

论文笔记:AlphaEdit: Null-Space Constrained Knowledge Editing for Language Models(AlphaEdit)

论文发表于人工智能顶会ICLR(基于定位和修改的模型编辑方法(针对和等)会破坏LLM中最初保存的知识,特别是在顺序编辑场景。为此,本文提出AlphaEdit:1、在将保留知识应用于参数之前,将扰动投影到保留知识的零空间上。2、从理论上证明,这种预测确保了在查询保留的知识时,编辑后的LLM的输出保持不变,从而减轻中断问题。3、对各种LLM(包括LLaMA3、GPT2XL和GPT-J)的广泛实验表明,

#论文阅读#语言模型#人工智能 +1
论文解读:MASS-EDITING MEMORY IN A TRANSFORMER(MEMIT)

论文发表于人工智能顶会ICLR(在模型编辑方法中,主要局限于更新单个事实。因此,基于ROME,本文开发了MEMIT,在大模型GPT-J(6B)和GPT-NeoX(20B)上实现了数千的批量编辑。阅读本文请同时参考原始论文图表。

#transformer#深度学习#人工智能
Image Super-Resolution via Sparse Representation——基于稀疏表示的超分辨率重建

  经典超分辨率重建论文,基于稀疏表示。下面首先介绍稀疏表示,然后介绍论文的基本思想和算法优化过程,最后使用python进行实验。稀疏表示  稀疏表示是指,使用过完备字典中少量向量的线性组合来表示某个元素。过完备字典是一个列数大于行数的行满秩矩阵,也就是说,它的列向量有无数种线性组合来表达列向量空间中的任意点。由于它的列数通常远大于行数,可以使用占比很小的列向量来表示特定的向量,我们称这种表...

#算法#机器学习#深度学习 +2
机器学习、深度学习中的信息熵、相对熵(KL散度)、交叉熵、条件熵

信息熵  信息量和信息熵的概念最早是出现在通信理论中的,其概念最早是由信息论鼻祖香农在其经典著作《A Mathematical Theory of Communication》中提出的。如今,这些概念不仅仅是通信领域中的基础概念,也被广泛的应用到了其他的领域中,比如机器学习。  信息量用来度量一个信息的多少。和人们主观认识的信息的多少有些不同,这里信息的多少用信息的在一个语境中出现的...

机器学习、深度学习中的信息熵、相对熵(KL散度)、交叉熵、条件熵

信息熵  信息量和信息熵的概念最早是出现在通信理论中的,其概念最早是由信息论鼻祖香农在其经典著作《A Mathematical Theory of Communication》中提出的。如今,这些概念不仅仅是通信领域中的基础概念,也被广泛的应用到了其他的领域中,比如机器学习。  信息量用来度量一个信息的多少。和人们主观认识的信息的多少有些不同,这里信息的多少用信息的在一个语境中出现的...

论文解读:Locating and Editing Factual Associations in GPT(ROME)

与KN的对比:1、KN通过集成梯度仅仅定位激活的一个元素,并修改FFN第二层权重对应的一个向量,并且直接通过翻倍或者置零实现,是一种很粗糙的编辑。2、ROME的定位比KN往上一个层级,用因果干预方法定位整个激活向量,然后修改FFN第二层的整个权重来实现编辑。简单来说就是把要编辑的事实对应于该权重的输入输出,加入模型原始训练数据对应于该权重的输入输出列表中,让这个权重重新适应这个列表。本文定位方法更

Image Super-Resolution via Sparse Representation——基于稀疏表示的超分辨率重建

  经典超分辨率重建论文,基于稀疏表示。下面首先介绍稀疏表示,然后介绍论文的基本思想和算法优化过程,最后使用python进行实验。稀疏表示  稀疏表示是指,使用过完备字典中少量向量的线性组合来表示某个元素。过完备字典是一个列数大于行数的行满秩矩阵,也就是说,它的列向量有无数种线性组合来表达列向量空间中的任意点。由于它的列数通常远大于行数,可以使用占比很小的列向量来表示特定的向量,我们称这种表...

#算法#机器学习#深度学习 +2
机器学习——霍夫丁(Hoeffding)不等式证明

马尔可夫不等式结论:  对于任意非负随机变量$X$,$\forall \epsilon>0$,有:$\displaystyle P(X\ge\epsilon)\le\frac{E(X)}{\epsilon}$  切比雪夫不等式是它的特例。证明:$ \begin{align*} E(X) &= \int_{0}^{\infty}xf(x)dx\\ &\ge...

虚拟对抗训练(VAT):一种用于监督学习和半监督学习的正则化方法

虚拟对抗损失:一种对给定输入的条件标签分布的局部平滑度的新度量方法。模型对于输入的微小改变,它的输出不应该有很大的变动,对于小扰动有大的输出波动的模型会导致这个损失函数变大。通常过拟合的时候,会出现这种现象,所以可以把VAT看做是一种正则化的方法。虚拟对抗训练就是要找一个使输出偏差最大的扰动方向,在这个方向上对输入产生扰动,再用于训练模型,使模型的局部平滑度增强。以上公式展示了...

机器学习、深度学习中的信息熵、相对熵(KL散度)、交叉熵、条件熵

信息熵  信息量和信息熵的概念最早是出现在通信理论中的,其概念最早是由信息论鼻祖香农在其经典著作《A Mathematical Theory of Communication》中提出的。如今,这些概念不仅仅是通信领域中的基础概念,也被广泛的应用到了其他的领域中,比如机器学习。  信息量用来度量一个信息的多少。和人们主观认识的信息的多少有些不同,这里信息的多少用信息的在一个语境中出现的...

    共 15 条
  • 1
  • 2
  • 请选择