LeonYiLeonYi 个人主页

@SHIDACSDN

LeonYiLeonYi

2024-05-16 15:18:25 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

大模型高效微调-LoRA原理详解和训练过程深入分析

博客首发于我的知乎，详见：https://zhuanlan.zhihu.com/p/702629428一、LoRA原理LoRA(Low-Rank Adaptation of LLMs)，即LLMs的低秩适应，是参数高效微调最常用的方法。LoRA的本质就是用更少的训练参数来近似LLM全参数微调所得的增量参数，从而达到使用更少显存占用的高效微调。1.1 问题定义LoRA与训练目标是解耦的，...

【大语言模型基础】60行Numpy教你实现GPT-代码与图解

写在前面本文主要是对博客 https://jaykmody.com/blog/gpt-from-scratch/ 的精简整理，并加入了自己的理解。中文翻译：https://jiqihumanr.github.io/2023/04/13/gpt-from-scratch/#circle=on项目地址：https://github.com/jaymody/picoGPT本文将用60行代码...

#语言模型 #numpy #人工智能 +1

【大语言模型】LLM学习路径-从入门到精通

简述根据如下两本书：1)大规模语言模型：从理论到实践 -- 张奇、桂韬、郑锐、黄萱菁2)ChatGPT原理与实战按更合理的顺序总结了学习路径，实际可按需学习，后续每个目录将给出相应学习资料和资源(参见Github仓库链接)。学习目录第1章技术发展与需求分析1.1 市场需求分析1.1.1、初识大型语言模型LLM1.1.2、需求和就业市场分析(职位与技术需求分析)...

#语言模型 #学习 #人工智能 +1

大语言模型基础-Transformer模型详解和训练

一、Transformer概述Transformer是由谷歌在17年提出并应用于神经机器翻译的seq2seq模型，其结构完全通过自注意力机制完成对源语言序列和目标语言序列的全局依赖建模。Transformer由编码器和解码器构成。图2.1展示了该结构，其左侧和右侧分别对应着编码器(Encoder)和解码器(Decoder)结构，它们均由若干个基本的 Transformer Encoder/D...

#语言模型 #transformer #人工智能 +2

基于GPT3.5的代码编辑器Cursor试用-你的智能代码编辑助手

一、安装和使用官网下载安装Cursor，然后创建一个代码文件。Ctrl + K生成， Ctrl + L提问。默认每小时30词。# 1. Try generating with command K on a new line. Ask for a pytorch script of a feedforward neural network# 2. Then, select the ...

#gpt-3 #pygame #python

异构图神经网络笔记-Heterogeneous Graph Neural Network-KDD19

自己讲论文做的异构图神经网络的ppt。再转变成博客有点麻烦，所以做成图片笔记。论文链接：https://arxiv.org/abs/1903.07293

深度学习基础-基于Numpy的卷积神经网络实现和反向传播训练

本文是深度学习入门：基于Python的实现、神经网络与深度学习(NNDL)以及动手学深度学习的读书笔记。本文将介绍基于Numpy的卷积神经网络(Convolutional Networks，CNN)的实现，本文主要重在理解原理和底层实现。一、概述1.1卷积神经网络(CNN)卷积神经网络(CNN)是一种具有局部连接、权重共享和平移不变特性的深层前馈神经网络...

#深度学习 #cnn #numpy +2

【大语言模型】LLM学习路径-从入门到精通

#语言模型 #学习 #人工智能 +1

GPT模型: Generative Pre-training 生成式无监督预训练

GPT，GPT-2，GPT-3 论文精读【论文精读】_哔哩哔哩_bilibiliELMo：将上下文当作特征，但是无监督的语料和我们真实的语料还是有区别的，不一定符合我们特定的任务，是一种双向的特征提取。OpenAI GPT: 通过transformer decoder学习出来一个语言模型，不是固定的，通过任务 fine-tuning,用transfomer代替ELMo的LSTM。OpenA...

#深度学习 #机器学习 #人工智能

数据结构之哈夫曼树与哈夫曼编码

一、背景编码是信息处理的基础(重新表示信息)。普通的编码是等长编码，例如7位的ASCIL编码，对出现频率不同的字符都使用相同的编码长度。但其在传输和存储等情况下编码效率不高。可使用不等长编码，来压缩编码：高频字符编码长度更短，低频字符编码长度更长。[例] 将百分制的考试成绩转换成五分制的成绩按顺序分别编码。按频率分别编码(高频短编码，类似于香农熵衡量随机变量的编码长度下界)。...

#数据结构 #算法

共 16 条

请选择