logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

VIT与多模态

模型全称: Vision Transformer (ViT),即视觉领域的Transformer核心思想: 将NLP界的Transformer架构迁移到视觉领域使用创新点: 首次证明图片可以被离散化为token进行处理课程结构: 共13节课,总时长约20小时学习周期: 建议15-20天完成(按每天学习4小时计算)学习要求: 必须亲自实践代码,仅听课无法掌握。

#自然语言处理#bert#人工智能
大语言模型LLM

生成特点:推理阶段采用自回归方式逐token生成计算模式:每个新token需要与之前所有token计算注意力典型场景:如生成"start→我→爱→你"时需进行4次渐进式计算MHA特点:需要存储所有token的KV值,显存压力大计算公式:MQA改进:只存储一个token的KV值,所有head共享显存消耗降低为原来的1/N(N为token数量)存储原理:传统方法:直接存储KV矩阵MLA方法:存储低维矩

#语言模型#人工智能#自然语言处理
文字生成任务,大模型基础

这个机字我是希望你通过这个encoder的,这输出的特征来推出来的,它通过self attention架构的时候,它本身就可以看到这个第二个字是鸡字,他直接把这个字输出就行了,他不需要看其他任何东西,准确率100%。可以实现并行,我直接把label全部拿过来,机器学三个字,前面加个start就可以当做decoder的输入,直接输入进去,得到所有的输出。他是要去看别人所有人的特征的,他看了这个机字,

#神经网络
自然语言处理与bert

self attention又被称为自注意力机制,是现在运用最广的一种机制啊,通常被用于nlp里边,也就是,nature language process自然语言处理当中,包括现在最为流行的大模型,各种各样的大模型基本上都是基于自注意力机制的。

#自然语言处理#bert#人工智能
半监督和无监督学习

虽然没有标签但知道这个是假的,另一个是真的,这样判别器就可以进行简单的分类训练,判别器能力越来越强,带着生成器能力一起提升(因为目的是骗过判别器),准确率上升促使判别器成长,同时也推动生成器成长,因为在其看来准确率要越多越好,故称为。用预训练的模型(准确率较好的模型)对无标签数据进行预测,并通过设定置信度阈值(如向量y'的某一个值超过0.99),将预测结果作为标签加入训练集,转化为有标签数据。人类

#学习#机器学习#人工智能
到底了