logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大模型之chatglm系列模型

三种预训练框架各有利弊,没有一种框架在以下三种领域的表现最佳:自然语言理解(NLU)、无条件生成以及条件生成。T5曾经尝试使用MTL的方式统一上述框架,然而自编码和自回归目标天然存在差异,简单的融合自然无法继承各个框架的优点。在这个天下三分的僵持局面下,GLM诞生了。。

#人工智能#机器学习#自然语言处理
强化学习Q学习在某论文中的简单应用

论文出处:孟安波等:基于强化学习和组合式深度学习模型的超短期光伏功率预测第45卷第12期。

文章图片
#学习
大模型之bert细节

当输入信息的维度 d 比较高,点积模型的值通常有比较大方差,从而导致 softmax函数的梯度会比较小。因此,缩放点积模型可以较好地解决这一问题。常用的Attention机制为加性模型和点积模型,理论上加性模型和点积模型的复杂度差不多,但是点积模型在实现上可以更好地利用矩阵乘积,从而计算效率更高(实际上,随着维度d的增大,加性模型会明显好于点积模型)。

#人工智能#深度学习
大模型之bert变种

原论文链接:RoBERTa 的全称是 Robustly optimized BERT approach。RoBERTa 是在 bert 的基础上做了一些改进,这些改进并不是设计什么新颖的结构,而是尽量使模型得到更充分的预训练,释放 bert 模型的潜力。另外还有一个是。做了上述改进之后,指标有所提升。

#bert#人工智能#深度学习
大模型之激活函数

FFN(Feed-Forward Network)块是Transformer模型中的一个重要组成部分,接受自注意力子层的输出作为输入,并通过一个带有 Relu 激活函数的两层全连接网络对输入进行更加复杂的非线性变换。实验证明,这一非线性变换会对模型最终的性能产生十分 重要的影响。FFN由两个全连接层(即前馈神经网络)和一个激活函数组成。FFN⁡xRelu⁡xW1b1W2b2FFNxReluxW1​

#人工智能#自然语言处理
大模型之token及模型参数

根据前面的实验我们知道,如果在tokens数量一定的数据集上做多epochs的模型训练,会影响模型的性能,降低模型的效果。这在预训练和下游任务都会产生影响。但是,随着模型的发展,高质量数据集的tokens数将很快用完。而采用正则技术虽然会影响模型训练效率,但是会降低这种影响。

#人工智能#语言模型
大模型之tokenize分词

在使用GPT BERT模型输入词语常常会先进行tokenize ,tokenize的目标是把输入的文本流,切分成一个个子串,每个子串相对有完整的语义,便于学习embedding表达和后续模型的使用。tokenize有三种粒度:word/subword/char最常用的三种tokenize算法:BPE(Byte-Pair Encoding),WordPiece和SentencePieceBPE,即字

#人工智能#机器学习#自然语言处理 +1
大模型之相对位置编码

不同于RNN、CNN等模型,对于Transformer模型来说,位置编码的加入是必不可少的,因为纯粹的Attention模块是无法捕捉输入顺序的,即无法区分不同位置的Token。为此我们大体有两个选择:形式上来看,绝对位置编码是相对简单的一种方案,但即便如此,也不妨碍各路研究人员的奇思妙想,也有不少的变种。一般来说,绝对位置编码会加到输入中:在输入的第kkk个向量xkx_kxk​中加入位置向量pk

#自然语言处理#人工智能#机器学习 +1
大模型之LLM MoE :Switch Transformers

MoE,全称为Mixed Expert Models,翻译过来就是混合专家模型。MoE并不是什么最新技术,早在1991年的时候,论文就提出了MoE。模型规模是提升模型性能的关键因素之一,这也是为什么今天的大模型能取得成功。在有限的计算资源预算下,用更少的训练步数训练一个更大的模型,往往比用更多的步数训练一个较小的模型效果更佳。MoE 的一个显著优势是它们能够在远少于 Dense 模型所需的计算资源

#自然语言处理#人工智能#机器学习
dify案例-基于Dify打造智能合同审查助手:零代码搭建工作流全指南

Dify的工作流(Workflow)功能是一个可视化流程编排工具,允许用户通过拖拽节点的方式构建复杂的AI应用。与简单的问答应用不同,工作流支持多步骤任务处理、条件分支、并行执行等高级功能,非常适合合同审查这类结构化任务。可视化编排:无需编写代码,通过拖拽连接节点即可构建复杂流程多模型协作:可在不同节点使用最适合的AI模型灵活集成:支持知识库检索、条件判断、API调用等多种节点类型迭代优化:可随时

#人工智能
    共 79 条
  • 1
  • 2
  • 3
  • 8
  • 请选择