weixin_46034279 个人主页

@weixin_46034279

weixin_46034279

2024-03-21 08:47:56 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

生成式语言模型的文本生成评价指标(从传统的基于统计到现在的基于语义)

BLEU优点：计算速度，适合评估机器翻译等文本生成任务的准确性。依赖于 n-gram 匹配，所以对短文本评价友好缺点：无法衡量语义，容易惩罚语义合理的表示；对自由度较高的生成任务表现不佳使用场景：机器翻译、文本摘要，尤其是目标文本相对固定的情形ROUGE优点：对文本摘要任务适用，尤其是 ROUGE-L 可识别长的匹配序列，适合评估摘要生成中较长的语义片段缺点：依赖表层匹配，缺乏对语义的深层次理解使

#语言模型 #人工智能 #自然语言处理 +1

大模型开发和微调工具Llama-Factory--＞调优算法1(全量、冻结、LoRA及其变体)

LLaMA-Factory 支持多种调优算法，包括：。

#算法 #自然语言处理 #深度学习 +1

大模型开发和微调工具Llama-Factory--＞调优算法2(Galore、Badm)

BAdam 为大型语言模型的微调提供了一种内存高效的方法，能够在有限的内存资源下实现与 Adam 相当的性能。在训练过程中，P和Q矩阵不需要频繁更新。实验中，作者发现每 200 次迭代更新一次 P 和 Q 就足够了，这样的更新频率既保证了训练的稳定性，又避免了过高的计算开销。传统的全参数微调方法，如Adam，需要大量的 GPU 内存，这在实际应用中常常受到限制，尤其是 LLMs 的情况。在每个块周

#算法 #自然语言处理 #人工智能 +1

大模型微调技术 --＞ P-Tuning v1和 P-Tuning v2

手动的离散提示通常导致一个不稳定的性能——比如，在提示中改变一个词可能导致性能大幅度下降。于是提出了新颖的方法 —— P-Tuning，它采用连续的提示 embedding 与离散提示结合在一起。P-Tuning 不仅能够通过最小化各种离散提示之间的差距来稳定训练，还能在很多基准测试中提高性能。预训练模型一般都可以通过手动编写提示模版进一步的提升性能。但是，手动的离散提示有很大程度的不稳定性。如

#人工智能 #深度学习 #自然语言处理 +1

大模型微调技术 --＞ LoRA 系列之 AdaLoRA

之前的微调方法(如低秩更新)通常将增量更新的预算均匀地分布在所有预训练的权重矩阵上，并且忽略了不同权重参数的不同重要性。结果，微调结果不是最优的。为了弥补这一差距，我们提出了AdaLoRA，它根据权重矩阵的重要性得分自适应地在权重矩阵之间分配参数预算。特别地，AdaLoRA以奇异值分解的形式将增量更新参数化。这种新的方法允许我们有效地修剪不重要更新的奇异值，这实质上是减少它们的参数预算，但避免了密

#机器学习 #自然语言处理 #深度学习 +1

人工智能与自然语言处理发展史

在人工智能发展了60多年后，机器虽然可以在某些方面超越人类，但想让机器真正通过图灵测试，具备真正意义上的人类智能，这个目标看上去仍然遥遥无期。

#人工智能 #神经网络 #深度学习 +1

人工智能基础-Python之Numpy库教程

Numpypython三大库numpy，pandas以及matplotlib在人工智能领域有广泛的营运。下面我将介绍一些关于Numpy的一些简单教程1、他的元素必须是同一种元素2、array对象可以是一维的也可是多维的本文仅仅简单介绍了numpy的简单应用，想要进一步了解numpy，还需要进行大量的实战项目。任重道远，道友，加油！！！

#人工智能 #python #numpy +4

大模型微调技术 --＞ LoRA 系列之 QLoRA (省资源能手)

通过提出的两种技术实现了高保真度的4位微调——

#自然语言处理 #神经网络 #深度学习 +1

SentencePiece进行文本分类

并没有对应的词向量文件，看来还需要对这些词进行词嵌入训练，还是用fasttext好了。30之后连同嵌入层一起微调10轮，准确率又上去了一个百分点。生成了两个文件，一个是模型文件，一个是词表文件。id 和词向量都有了，可以构造词嵌入矩阵了。训练(我弄的是12800 词汇表大小)酒店评论数据集，处理成每行一句的形式。效果：基本收敛到了 96%

#分类 #数据挖掘 #人工智能

大模型微调技术 --＞ IA3

我们引入了一种名为IA3(通过抑制和放大内部激活的注入适配器, Infused Adapter by Inhibiting and Amplifying Inner Activations)的新的PEFT方法，该方法通过学习向量缩放激活，在只引入相对少量的新参数的情况下获得更强的性能。我们还提出了一个基于 T0 模型的简单配方，称为T-Few，可以应用于新任务，而无需针对任务进行调优或修改。

#人工智能 #深度学习 #自然语言处理 +1

共 32 条

请选择