logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

LLAMA2入门(三)-----微调

在 Llama 2 的监督微调(Supervised Fine-Tuning, SFT)阶段,研究团队对模型进行了进一步的调优,以提升其生成对话和其他任务的表现。以下是 SFT 过程的详细讲解:

文章图片
#人工智能#深度学习#神经网络 +3
从零学习大模型(四)-----代码实现交替的稠密与本地稀疏注意力模式

【代码】从零学习大模型(四)-----代码实现交替的稠密与本地稀疏注意力模式。

文章图片
#python#pytorch#人工智能 +4
从零学习大模型(十四)-----量化(二)

权重量化:量化神经网络中的权重,主要减小存储占用和加速计算。激活量化:量化激活值,减少内存占用并加速推理过程。梯度量化:量化训练过程中的梯度,优化训练效率,尤其是在分布式训练中。每种方法都有其适用场景和挑战,通常在实际应用中,多个量化方法会结合使用,以在不同的硬件环境下达到最优的精度和性能平衡。离线量化(PTQ):简单且高效,适用于已经训练好的模型,通过校准数据集选择量化参数以减少精度损失。量化感

文章图片
#学习#人工智能#深度学习 +3
从零学习大模型(十)-----剪枝基本概念

Transformer层剪枝的核心思想是评估每个层、注意力头或权重对模型性能的重要性,然后根据评估结果去掉那些对模型性能贡献较小的部分。Transformer层剪枝是一种针对Transformer模型(如BERT、GPT等)中的自注意力模块和前馈网络进行剪枝的方法,旨在减少模型的参数量和计算开销。在这种方法中,模型的剪枝对象通常是具有特定结构的部分,例如卷积神经网络中的整个滤波器或通道,而不是单个

文章图片
#学习#剪枝#gpt-3 +3
从零学习大模型(十四)-----量化(一)

量化(Quantization)是一种在计算机科学和深度学习中广泛应用的技术,其基本目标是通过减少模型中数值表示的位宽来降低计算和存储成本。简单来说,量化就是将高精度(通常是浮点数)转换为低精度(通常是定点数)表示,同时尽量保持模型的性能和准确性。量化通常用于深度学习模型(尤其是大模型)中,以减小模型的存储空间和提高推理速度。量化不仅可以减少模型的内存占用,还能提高硬件的计算效率,尤其是在低功耗设

文章图片
#人工智能#深度学习#transformer
从零学习大模型(十一)-----Lottery Ticket Hypothesis剪枝

Lottery Ticket Hypothesis(LTH)是由 Frankle 和 Carbin 在 2019 年提出的一种剪枝方法,其核心思想是神经网络中存在可以单独训练的小型子网络(即"中奖票"),这些子网络可以在保持原始模型性能的情况下有效地训练。通过找到这些子网络,我们可以实现大模型的剪枝,从而减少模型的计算复杂度和存储需求。

文章图片
#学习#剪枝#算法 +3
从零学习大模型(七)-----LoRA(下)

LoRA(Low-Rank Adaptation)是一种参数高效的微调技术,旨在降低微调大规模预训练模型的存储和计算成本。**其核心思想是通过对模型的特定参数进行低秩分解,仅对少量附加参数进行训练,从而完成任务适应,而无需更新整个模型的权重。**这种方法通过引入额外的低秩矩阵来适应新的任务,保持了预训练模型的核心知识,使其更具灵活性和高效性。

文章图片
#学习#人工智能#transformer +2
从零学习大模型(五)-----提示学习(Prompt Engineering)

提示学习是一种通过向大型语言模型(如GPT-3、GPT-4)提供清晰明确的提示(Prompt),以期望获得特定输出的技术。提示可以理解为指令或问题,模型基于这些提示来产生回应或完成任务。这种方法使得模型在不需要完全重新训练的情况下,通过输入设计引导模型行为,解决不同的任务。

文章图片
#人工智能#深度学习#transformer +1
人工智能顶会ECCV2022《Watermark Vaccine: Adversarial Attacks to Prevent Watermark Removal》论文解读

论文方法的局限性水印尺寸和透明度:实验表明,水印尺寸变大或水印的透明度参数α\alphaα变大时,DWV和IWV的保护效果会下降。这意味着水印疫苗的性能在一定程度上取决于水印变化∥w∥∥w∥的大小,更好的保护效果依赖于较小的∥w∥∥w∥变化。版权所有者的挑战:版权所有者需要在水印的大小和透明度之间做出选择,以便既便于版权识别又能有效保护水印。大尺寸和低透明度水印有助于版权识别,而小尺寸和高透明度水

文章图片
#人工智能#深度学习#神经网络 +1
从零学习大模型(一)-----GPT3(上)

GPT-3(Generative Pre-trained Transformer 3)是一种大型自回归语言模型,由OpenAI团队训练和发布。GPT-3 拥有1750亿个参数,是当时发布的最大的非稀疏(non-sparse)语言模型之一。其参数规模是前一代模型(如GPT-2)的10倍以上。GPT-3的目标是通过大规模的参数量和广泛的预训练来实现对多种语言任务的few-shot学习,即通过少量示例而

文章图片
#gpt-3#人工智能#深度学习 +2
    共 30 条
  • 1
  • 2
  • 3
  • 请选择