Z__Danny 个人主页

@Z__Danny

Z__Danny

2023-11-28 13:19:29 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

2025年AI保研复试八股文~专业+数学，这两天还在更新中

正交矩阵：=Orthogonal Matrix，是个方阵，他的行向量或列向量都得两两正交，每个向量长度都是1，构成一组标准正交基QTQI单位矩阵Q^TQ=I(单位矩阵)QTQI单位矩阵，下面为为什么结果会是单位矩阵的原因，其实就说对角线上的值就是列向量和列向量自己的内积，长度是1所以结果是1（因为内积是投影后的长度）正定矩阵：一定是对称矩阵（关于对角线对称），所有特征值都大于0，所有主子式（是从左

#人工智能 #概率论

2025年7月24日腾讯对AI Coding的全面分析，7个非共识

本篇是对腾讯报告的笔记，整篇主要讨论了7个非共识（存在争议的点）大家看之前也可以自己思考一下，再看看腾讯的分析，就是下面这个报告。

#人工智能

task11~如何用transformers框架进行开源LLM的pretrain+SFT（deepspeed分布式）、高效微调（adapt、prefix、lora微调）的流程

本文介绍了大模型训练流程中的主流框架与实践方法。首先指出自研训练系统的弊端，引出Hugging Face Transformers框架的核心优势：模块化模型构建、分布式训练封装和自动化管理。详细拆解了LLM训练流程：1)初始化模型和分词器；2)数据预处理（加载、分词、分块）；3)配置训练参数；4)使用DeepSpeed进行分布式预训练；5)指令微调(SFT)。最后对比了适配器调优(Adapt Tu

#人工智能 #分布式

task11~如何用transformers框架进行开源LLM的pretrain+SFT（deepspeed分布式）、高效微调（adapt、prefix、lora微调）的流程

#人工智能 #分布式

【Datawhale之Happy-LLM】T5 encoder-decoder——Github最火大模型原理与实践教程task06

T5（Text-To-Text Transfer Transformer）是Google提出的预训练语言模型，其核心思想是实现NLP任务的大一统处理方式。T5将所有NLP任务视为文本到文本的转换问题，通过预训练+微调范式实现。模型采用Encoder-Decoder架构，主要改进包括：1）使用编码器自注意力和解码器自注意力+编解码注意力；2）采用RMSNorm归一化方法稳定训练；3）基于大规模清洗的

#人工智能

Datawhale AI夏令营——「基于CoT范式的DeepSeek模型蒸馏驱动数学推理解题优化挑战赛」的模型优化实践

{ “role”: “assistant”, “content”: “你可以试试 Sidecar，它以白兰地为主料…{ “role”: “assistant”, “content”: “当然，白兰地是一种用葡萄酒蒸馏制成的烈酒…{ “role”: “user”, “content”: “你知道什么是白兰地吗？{ “role”: “user”, “content”: “可以推荐一种鸡尾酒吗？“ins

#人工智能

【Datawhale之Happy-LLM】编解码器——Github最火大模型原理与实践教程task04精华

本文介绍了Transformer架构的核心概念与实现。Transformer是一种seq2seq模型，由编码器(Encoder)和解码器(Decoder)组成，核心组件包括注意力机制、层归一化和残差连接。首先通过Tokenizer将文本转换为token序列，再经过Embedding层转换为词向量并添加位置编码。编码器包含6个编码层，每个层有自注意力机制和前馈网络；解码器类似但增加掩码自注意力，并使

#人工智能

【Datawhale之Happy-LLM】Github最火大模型原理与实践教程task03精华~我不相信看完你还不知道什么是Transformer的注意力机制

在NLP中的核心基础任务文本表示，从用统计方法得到向量进入用神经网络方法。而这个神经网络NN（Neural Network）确实从CV计算机视觉发展来的。1、FNN（全连接 Feedforward NN）：顾名思义就是一层的每个神经元都和上下的每个神经元连接。（这是笔者自己的学习记录，仅供参考，原始学习链接，愿 LLM 越来越好❤）Task03-05：第二章 Transformer架构。Trans

#算法

【Datawhale之Happy-LLM】Github最火大模型原理与实践教程task02精华~

基于马尔可夫假设，现在这个词的出现概率依赖前N-1个词（N是正整数，具体钱几个词也不一定.N=1是unigram模型、N=2bigram、N=3trigram，就是前两个词出现的情况下，这个词出现的概率）——文本变高维向量，每一维是特征项（字、词、短语），值（通过公式计算得到，如TF词频、TF-IDF逆文档频率）是代表特征项的权重=在文本中的重要程度。Skip-Gram模型（适合大数据集）：先有目

#人工智能 #nlp

【Datawhale之Happy-LLM】Github最火大模型原理与实践教程task01精华~

本文介绍了NLP（自然语言处理）的研究内容，对比了PLM（预训练语言模型）和LLM（大语言模型）的区别，指出LLM在数据规模、参数量和训练策略上的改进使其具备涌现能力。同时推荐了Datawhale三个开源LLM学习项目：Self-LLM（部署教程）、LLM-Universe（应用开发）和Happy-LLM（原理实践）。作者感叹LLM让计算机通过参数学习人类语言的奇妙性。

#人工智能

共 11 条

请选择