m0_61790774 个人主页

@m0_61790774

m0_61790774

2025-02-08 14:38:26 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

VIT与多模态

模型全称: Vision Transformer (ViT)，即视觉领域的Transformer核心思想: 将NLP界的Transformer架构迁移到视觉领域使用创新点: 首次证明图片可以被离散化为token进行处理课程结构: 共13节课，总时长约20小时学习周期: 建议15-20天完成（按每天学习4小时计算）学习要求: 必须亲自实践代码，仅听课无法掌握。

#自然语言处理 #bert #人工智能

大语言模型LLM

生成特点：推理阶段采用自回归方式逐token生成计算模式：每个新token需要与之前所有token计算注意力典型场景：如生成"start→我→爱→你"时需进行4次渐进式计算MHA特点:需要存储所有token的KV值，显存压力大计算公式：MQA改进:只存储一个token的KV值，所有head共享显存消耗降低为原来的1/N（N为token数量）存储原理:传统方法：直接存储KV矩阵MLA方法：存储低维矩

#语言模型 #人工智能 #自然语言处理

文字生成任务，大模型基础

这个机字我是希望你通过这个encoder的，这输出的特征来推出来的，它通过self attention架构的时候，它本身就可以看到这个第二个字是鸡字，他直接把这个字输出就行了，他不需要看其他任何东西，准确率100%。可以实现并行，我直接把label全部拿过来，机器学三个字，前面加个start就可以当做decoder的输入，直接输入进去，得到所有的输出。他是要去看别人所有人的特征的，他看了这个机字，

#神经网络

自然语言处理与bert

self attention又被称为自注意力机制，是现在运用最广的一种机制啊，通常被用于nlp里边，也就是，nature language process自然语言处理当中，包括现在最为流行的大模型，各种各样的大模型基本上都是基于自注意力机制的。

#自然语言处理 #bert #人工智能

半监督和无监督学习

虽然没有标签但知道这个是假的，另一个是真的，这样判别器就可以进行简单的分类训练，判别器能力越来越强，带着生成器能力一起提升(因为目的是骗过判别器)，准确率上升促使判别器成长，同时也推动生成器成长，因为在其看来准确率要越多越好，故称为。用预训练的模型(准确率较好的模型)对无标签数据进行预测，并通过设定置信度阈值(如向量y'的某一个值超过0.99)，将预测结果作为标签加入训练集，转化为有标签数据。人类

#学习 #机器学习 #人工智能

到底了