
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
正交矩阵:=Orthogonal Matrix,是个方阵,他的行向量或列向量都得两两正交,每个向量长度都是1,构成一组标准正交基QTQI单位矩阵Q^TQ=I(单位矩阵)QTQI单位矩阵,下面为为什么结果会是单位矩阵的原因,其实就说对角线上的值就是列向量和列向量自己的内积,长度是1所以结果是1(因为内积是投影后的长度)正定矩阵:一定是对称矩阵(关于对角线对称),所有特征值都大于0,所有主子式(是从左

本篇是对腾讯报告的笔记,整篇主要讨论了7个非共识(存在争议的点)大家看之前也可以自己思考一下,再看看腾讯的分析,就是下面这个报告。

本文介绍了大模型训练流程中的主流框架与实践方法。首先指出自研训练系统的弊端,引出Hugging Face Transformers框架的核心优势:模块化模型构建、分布式训练封装和自动化管理。详细拆解了LLM训练流程:1)初始化模型和分词器;2)数据预处理(加载、分词、分块);3)配置训练参数;4)使用DeepSpeed进行分布式预训练;5)指令微调(SFT)。最后对比了适配器调优(Adapt Tu

本文介绍了大模型训练流程中的主流框架与实践方法。首先指出自研训练系统的弊端,引出Hugging Face Transformers框架的核心优势:模块化模型构建、分布式训练封装和自动化管理。详细拆解了LLM训练流程:1)初始化模型和分词器;2)数据预处理(加载、分词、分块);3)配置训练参数;4)使用DeepSpeed进行分布式预训练;5)指令微调(SFT)。最后对比了适配器调优(Adapt Tu

T5(Text-To-Text Transfer Transformer)是Google提出的预训练语言模型,其核心思想是实现NLP任务的大一统处理方式。T5将所有NLP任务视为文本到文本的转换问题,通过预训练+微调范式实现。模型采用Encoder-Decoder架构,主要改进包括:1)使用编码器自注意力和解码器自注意力+编解码注意力;2)采用RMSNorm归一化方法稳定训练;3)基于大规模清洗的

{ “role”: “assistant”, “content”: “你可以试试 Sidecar,它以白兰地为主料…{ “role”: “assistant”, “content”: “当然,白兰地是一种用葡萄酒蒸馏制成的烈酒…{ “role”: “user”, “content”: “你知道什么是白兰地吗?{ “role”: “user”, “content”: “可以推荐一种鸡尾酒吗?“ins
本文介绍了Transformer架构的核心概念与实现。Transformer是一种seq2seq模型,由编码器(Encoder)和解码器(Decoder)组成,核心组件包括注意力机制、层归一化和残差连接。首先通过Tokenizer将文本转换为token序列,再经过Embedding层转换为词向量并添加位置编码。编码器包含6个编码层,每个层有自注意力机制和前馈网络;解码器类似但增加掩码自注意力,并使

在NLP中的核心基础任务文本表示,从用统计方法得到向量进入用神经网络方法。而这个神经网络NN(Neural Network)确实从CV计算机视觉发展来的。1、FNN(全连接 Feedforward NN):顾名思义就是一层的每个神经元都和上下的每个神经元连接。(这是笔者自己的学习记录,仅供参考,原始学习链接,愿 LLM 越来越好❤)Task03-05:第二章 Transformer架构。Trans

基于马尔可夫假设,现在这个词的出现概率依赖前N-1个词(N是正整数,具体钱几个词也不一定.N=1是unigram模型、N=2bigram、N=3trigram,就是前两个词出现的情况下,这个词出现的概率)——文本变高维向量,每一维是特征项(字、词、短语),值(通过公式计算得到,如TF词频、TF-IDF逆文档频率)是代表特征项的权重=在文本中的重要程度。Skip-Gram模型(适合大数据集):先有目

本文介绍了NLP(自然语言处理)的研究内容,对比了PLM(预训练语言模型)和LLM(大语言模型)的区别,指出LLM在数据规模、参数量和训练策略上的改进使其具备涌现能力。同时推荐了Datawhale三个开源LLM学习项目:Self-LLM(部署教程)、LLM-Universe(应用开发)和Happy-LLM(原理实践)。作者感叹LLM让计算机通过参数学习人类语言的奇妙性。
