logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

2025年AI保研复试八股文~专业+数学,这两天还在更新中

正交矩阵:=Orthogonal Matrix,是个方阵,他的行向量或列向量都得两两正交,每个向量长度都是1,构成一组标准正交基QTQI单位矩阵Q^TQ=I(单位矩阵)QTQI单位矩阵,下面为为什么结果会是单位矩阵的原因,其实就说对角线上的值就是列向量和列向量自己的内积,长度是1所以结果是1(因为内积是投影后的长度)正定矩阵:一定是对称矩阵(关于对角线对称),所有特征值都大于0,所有主子式(是从左

文章图片
#人工智能#概率论
2025年7月24日腾讯对AI Coding的全面分析,7个非共识

本篇是对腾讯报告的笔记,整篇主要讨论了7个非共识(存在争议的点)大家看之前也可以自己思考一下,再看看腾讯的分析,就是下面这个报告。

文章图片
#人工智能
task11~如何用transformers框架进行开源LLM的pretrain+SFT(deepspeed分布式)、高效微调(adapt、prefix、lora微调)的流程

本文介绍了大模型训练流程中的主流框架与实践方法。首先指出自研训练系统的弊端,引出Hugging Face Transformers框架的核心优势:模块化模型构建、分布式训练封装和自动化管理。详细拆解了LLM训练流程:1)初始化模型和分词器;2)数据预处理(加载、分词、分块);3)配置训练参数;4)使用DeepSpeed进行分布式预训练;5)指令微调(SFT)。最后对比了适配器调优(Adapt Tu

文章图片
#人工智能#分布式
task11~如何用transformers框架进行开源LLM的pretrain+SFT(deepspeed分布式)、高效微调(adapt、prefix、lora微调)的流程

本文介绍了大模型训练流程中的主流框架与实践方法。首先指出自研训练系统的弊端,引出Hugging Face Transformers框架的核心优势:模块化模型构建、分布式训练封装和自动化管理。详细拆解了LLM训练流程:1)初始化模型和分词器;2)数据预处理(加载、分词、分块);3)配置训练参数;4)使用DeepSpeed进行分布式预训练;5)指令微调(SFT)。最后对比了适配器调优(Adapt Tu

文章图片
#人工智能#分布式
【Datawhale之Happy-LLM】T5 encoder-decoder——Github最火大模型原理与实践教程task06

T5(Text-To-Text Transfer Transformer)是Google提出的预训练语言模型,其核心思想是实现NLP任务的大一统处理方式。T5将所有NLP任务视为文本到文本的转换问题,通过预训练+微调范式实现。模型采用Encoder-Decoder架构,主要改进包括:1)使用编码器自注意力和解码器自注意力+编解码注意力;2)采用RMSNorm归一化方法稳定训练;3)基于大规模清洗的

文章图片
#人工智能
Datawhale AI夏令营——「基于CoT范式的DeepSeek模型蒸馏驱动数学推理解题优化挑战赛」的模型优化实践

{ “role”: “assistant”, “content”: “你可以试试 Sidecar,它以白兰地为主料…{ “role”: “assistant”, “content”: “当然,白兰地是一种用葡萄酒蒸馏制成的烈酒…{ “role”: “user”, “content”: “你知道什么是白兰地吗?{ “role”: “user”, “content”: “可以推荐一种鸡尾酒吗?“ins

#人工智能
【Datawhale之Happy-LLM】编解码器——Github最火大模型原理与实践教程task04精华

本文介绍了Transformer架构的核心概念与实现。Transformer是一种seq2seq模型,由编码器(Encoder)和解码器(Decoder)组成,核心组件包括注意力机制、层归一化和残差连接。首先通过Tokenizer将文本转换为token序列,再经过Embedding层转换为词向量并添加位置编码。编码器包含6个编码层,每个层有自注意力机制和前馈网络;解码器类似但增加掩码自注意力,并使

文章图片
#人工智能
【Datawhale之Happy-LLM】Github最火大模型原理与实践教程task03精华~我不相信看完你还不知道什么是Transformer的注意力机制

在NLP中的核心基础任务文本表示,从用统计方法得到向量进入用神经网络方法。而这个神经网络NN(Neural Network)确实从CV计算机视觉发展来的。1、FNN(全连接 Feedforward NN):顾名思义就是一层的每个神经元都和上下的每个神经元连接。(这是笔者自己的学习记录,仅供参考,原始学习链接,愿 LLM 越来越好❤)Task03-05:第二章 Transformer架构。Trans

文章图片
#算法
【Datawhale之Happy-LLM】Github最火大模型原理与实践教程task02精华~

基于马尔可夫假设,现在这个词的出现概率依赖前N-1个词(N是正整数,具体钱几个词也不一定.N=1是unigram模型、N=2bigram、N=3trigram,就是前两个词出现的情况下,这个词出现的概率)——文本变高维向量,每一维是特征项(字、词、短语),值(通过公式计算得到,如TF词频、TF-IDF逆文档频率)是代表特征项的权重=在文本中的重要程度。Skip-Gram模型(适合大数据集):先有目

文章图片
#人工智能#nlp
【Datawhale之Happy-LLM】Github最火大模型原理与实践教程task01精华~

本文介绍了NLP(自然语言处理)的研究内容,对比了PLM(预训练语言模型)和LLM(大语言模型)的区别,指出LLM在数据规模、参数量和训练策略上的改进使其具备涌现能力。同时推荐了Datawhale三个开源LLM学习项目:Self-LLM(部署教程)、LLM-Universe(应用开发)和Happy-LLM(原理实践)。作者感叹LLM让计算机通过参数学习人类语言的奇妙性。

文章图片
#人工智能
    共 11 条
  • 1
  • 2
  • 请选择