logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

AI-大语言模型LLM-模型微调7-IA3

IA3(Infused Adapter by Inhibiting and Amplifying Inner Activations)是一种通过三个可学习向量缩放模型内部激活值的超高效微调方法。它仅需极少量参数(通常约0.01%的模型参数),就能在多种任务上达到优异性能。IA3代表了微调技术的极致简化方向——它证明了大模型的适配有时只需要学习“何时强调、何时忽略”的简单规则。通过三个精心放置的缩放

#人工智能
AI-大语言模型LLM-模型微调6-LoRA

LoRA(Low-Rank Adaptation)是一种通过低秩矩阵分解来高效微调大模型的参数高效微调方法。其核心思想是:工程经验证明:大模型在适应新任务时,其参数变化具有低秩特性。因此可以用极小的参数代价实现高质量的模型适配。秩是矩阵中线性无关的行或列的最大数量,反映了矩阵包含的独立信息维度。例如,一个秩为2的矩阵,其所有行或列都可以由2个独立的基底组合而成,就像一个三维空间的影子实际上可能只由

#人工智能#语言模型#自然语言处理
AI-大语言模型LLM-模型微调5-Preffix-Tuning

核心思想:在每一层前面加“提示”在Transformer模型的每一层(而不仅仅是输入层)的键值对(K, V)序列前,拼接一段可训练的“前缀向量”。这个“前缀”相当于一个连续的、任务特定的上下文,能更深入地引导模型的激活方向,从而控制生成结果。核心机制对比特性维度P-Tuning作用位置仅输入嵌入层输入嵌入层(经编码器处理)所有Transformer层的键值对序列前可训练参数连续的提示向量提示向量

#人工智能#语言模型#自然语言处理
AI-大语言模型LLM-模型微调4-P-Tuning

P-Tuning和Prompt Tuning在优化方式上的“层数差异”核心在于它们对提示的可训练参数的设计不同。P-Tuning多的一层本质上是一个提示优化器建模提示内部的依赖关系提供更结构化的提示表示提高参数效率和学习稳定性是否值得这额外的复杂度,取决于具体任务、数据量和模型大小。对于复杂任务和小数据场景,P-Tuning的优势更明显;对于简单任务或超大模型,Prompt Tuning可能就足够

#人工智能#语言模型#自然语言处理
AI-大语言模型LLM-概念术语-Dropout

Dropout是一种神经网络正则化技术,通过在训练时随机禁用部分神经元(典型丢弃率0.5)来防止过拟合。其核心思想是让网络不能依赖特定神经元,相当于训练多个子网络并集成。主要类型包括标准Dropout(全连接层)、空间Dropout(CNN)、变分Dropout(RNN)和注意力Dropout(Transformer)。使用时需区分训练(随机丢弃+缩放)和测试(完整网络)模式,并注意与批归一化的交

#人工智能#语言模型#自然语言处理
AI-大语言模型LLM-模型微调3-Prompt Tuning

为避免一学就会、一用就废,这里做下笔记。

#人工智能#语言模型
AI-大语言模型LLM-Transformer架构7-模型参数量计算

本文详细计算了Bloom-1b4-zh语言模型的参数量。通过分析模型结构中的嵌入层、24个Transformer块(包含自注意力层和前馈网络)、LayerNorm层以及输出层,逐层累加参数。结果显示:嵌入层94.5M、LayerNorm层204K、自注意力层402.8M、MLP层805.5M、输出层94.5M,总参数量达到1.3B(13亿),与模型名称"1b4"(1.4B)基本

#人工智能#语言模型#transformer
AI-大语言模型LLM-模型微调1-基础理论

微调让知识内化到模型中,RAG让知识独立于模型存在知识库中微调后的模型,可以让用户使用更少的提示词,RAG需要更多提示词(系统提示词或用户提示词)微调后的模型,使用时步骤更少,性能更高模型微调和RAG往往结合使用。

#深度学习#人工智能
AI-大语言模型LLM-Transformer架构6-输出层

本文介绍了Transformer架构中的输出层部分,主要包括Linear层和Softmax层。Linear层是一个简单的单层感知机,负责将解码器输出的语义向量映射回词表空间,与编码器的Embedding层作用相反。Softmax层则将Linear输出的词得分向量转换为概率分布,通过指数归一化处理实现数值稳定性,最终选择概率最大的词作为输出。这两层共同完成了从语义表示到具体词汇的转换过程,是Tran

#人工智能#语言模型#transformer
    共 32 条
  • 1
  • 2
  • 3
  • 4
  • 请选择