logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

SparseGPT:大语言模型可精准实现单次剪枝

本研究首次证明,大规模生成式预训练变换器(GPT)家族模型可通过单次剪枝实现至少50%的稀疏度,且无需任何重训练过程,精度损失极低。这一突破源于我们提出的新型剪枝方法SparseGPT——专为海量GPT类模型设计的高效精准剪枝方案。实验表明,SparseGPT可在4.5小时内完成当前最大开源模型OPT-175B和BLOOM-176B的剪枝处理,实现60%非结构化稀疏度的同时困惑度几乎无增长:这意味

#语言模型#剪枝#人工智能
通过LoRA适配器对齐中间层大小以实现知识蒸馏

中间层蒸馏(Intermediate Layer Distillation, ILD)是知识蒸馏(Knowledge Distillation, KD)的一种变体,属于神经网络压缩方法。ILD需要通过映射对齐教师模型与学生模型中间层的维度以计算训练损失函数,但该映射在推理阶段并不会被使用。这种不一致性可能会降低中间层的学习效果。本研究提出LoRAILD方法,利用LoRA适配器消除这种不一致性。然而

#人工智能
VScan: Rethinking Visual Token Reduction for Efficient Large Vision-Language Models

最近的大型视觉语言模型(LVLMs)通过引入更细粒度的视觉感知和编码,提升了多模态理解能力。然而,由于视觉 Token 序列变长,这些方法产生了显著的计算开销,为实时部署带来了挑战。为了缓解这一问题,先前的研究探索了在视觉编码器的输出层或语言模型的早期层剪枝不重要的视觉 Token。在本研究中,我们重新审视了这些设计选择,并通过对视觉 Token 在视觉编码和语言解码阶段处理方式的全面实证研究,重

#语言模型#人工智能#自然语言处理
A Survey of Token Compression for Efficient Multimodal Large Language Models

多模态大语言模型(MLLMs)取得了显著进展,这主要得益于它们处理日益增长且复杂的上下文能力,例如高分辨率图像、延展的视频序列以及冗长的音频输入。虽然这种能力显著增强了 MLLM 的功能,但也带来了巨大的计算挑战,这主要是由于自注意力机制在面对大量输入令牌时具有平方级复杂度。为了缓解这些瓶颈,令牌压缩已成为一种极具前景且关键的方法,能够有效地减少训练和推理过程中的令牌数量。在本文中,我们首次对多模

#语言模型#人工智能#自然语言处理
AWQ: Activation-aware Weight Quantization for On-Device LLM Compression and Acceleration

大语言模型(LLMs)已经从根本上改变了众多应用的能力,从自然语言处理到机器人和自动驾驶中更复杂的特定领域任务。此外,近年来端侧(on-device)大语言模型的重要性显著增加。在边缘设备上运行大语言模型不仅有望降低延迟并提升用户体验,而且由于数据处理可以在本地进行,这也符合日益增长的用户隐私需求。然而,现代大语言模型庞大的模型尺寸以及边缘设备在内存大小和带宽方面的主要限制,给部署带来了巨大的挑战

#人工智能
LLM-QAT: Data-Free Quantization Aware Training for Large Language Models

多种训练后量化(PTQ)方法已应用于大语言模型(LLM),并证明在低至 8 位(8-bit)精度时表现良好。我们发现,当位宽进一步降低时,这些方法将失效;因此,我们研究了针对大语言模型的量化感知训练(LLM-QAT),以进一步提升量化水平。我们提出了一种,该方法利用预训练模型生成的文本进行训练,能够更好地保留原始输出分布,并允许在不依赖原始训练数据的情况下量化任何生成模型,这一点与训练后量化方法类

#语言模型#人工智能#自然语言处理
LLM-QAT: Data-Free Quantization Aware Training for Large Language Models

多种训练后量化(PTQ)方法已应用于大语言模型(LLM),并证明在低至 8 位(8-bit)精度时表现良好。我们发现,当位宽进一步降低时,这些方法将失效;因此,我们研究了针对大语言模型的量化感知训练(LLM-QAT),以进一步提升量化水平。我们提出了一种,该方法利用预训练模型生成的文本进行训练,能够更好地保留原始输出分布,并允许在不依赖原始训练数据的情况下量化任何生成模型,这一点与训练后量化方法类

#语言模型#人工智能#自然语言处理
QLORA: Efficient Finetuning of Quantized LLMs

我们展示了 QLoRA,这是一种高效的微调方法,它能够显著降低内存占用,从而在单块 48GB GPU 上微调 650 亿(65B)参数的模型,同时保留完整的 16 位(16-bit)微调任务性能。QLoRA 通过将梯度穿过一个冻结的、4比特(4-bit)量化的预训练语言模型,反向传播到低秩适配器(Low Rank Adapters, LoRA)中。

#人工智能
更加重视:通过注意力转移提高卷积神经网络的性能

注意力在人类视觉体验中起着关键作用。近期研究表明,注意力机制在人工神经网络应用于计算机视觉和自然语言处理(NLP)等领域的多种任务时同样至关重要。本工作中,我们证明:通过合理定义卷积神经网络(CNN)的注意力,可以强制学生CNN模仿强大教师网络的注意力图(attention maps),从而显著提升其性能。为此,我们提出了几种新颖的注意力迁移方法,在多种数据集和CNN架构上均实现了稳定改进。

#深度学习#机器学习#人工智能
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Mode

由于大规模模型的端到端训练,视觉与语言预训练的成本已变得日益昂贵。本文提出了 BLIP-2,这是一种通用且高效的预训练策略,它从现成的冻结预训练图像编码器和冻结的大语言模型中引导出视觉-语言预训练。BLIP-2 通过一个轻量级的查询 Transformer(Querying Transformer)来桥接模态鸿沟,该 Transformer 分两个阶段进行预训练。第一阶段从冻结的图像编码器中引导视

#人工智能
    共 13 条
  • 1
  • 2
  • 请选择