NorthEdge 个人主页

@ATTK_Time

NorthEdge

2022-12-23 16:15:02 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

在vscode写less的时候background图片不生效问题解决办法

发现问题历程：今天在写网页的时候用less一直北京图片不生效，也在网上查找了一些资料，但是都没有解决，然后我就去生成的css文件看了下生成的样式，发现了问题的原因。解决办法：在less写背景相对路径的事后要从生成的css文件出发，而不是less文件本身的位置。...

#less #前端 #css

从0完成轻量级大模型全链路训练与对齐框架——Lora微调

也就是说，虽然参数多，但模型学习新知识时，真正起作用的变化其实可以用很小的矩阵来表达。：微调时，$W_0$ 完全不动，不参与梯度更新。：在 $W_0$ 旁边增加两个极小的矩阵 $A$ 和 $B$。矩阵 $A$ 的维度是 $d \times r$矩阵 $B$ 的维度是 $r \times k$这里的 $r$ 就是，通常设得很小（如 8, 16, 64）。原本的输出是 $h = W_0x$，现在变成了

#深度学习 #人工智能

从0完成轻量级大模型全链路训练与对齐框架——数据适配

本文介绍了语言模型训练中的数据适配层实现方案。主要内容包括：1）数据处理流水线设计，涵盖预训练、SFT、DPO和RLAIF四种训练模式的数据适配；2）Tokenizer处理流程，采用BPE算法实现文本到ID的转换；3）详细的数据适配器实现，包括PretrainDataset、SFT数据训练适配器、DPO数据训练适配器和RLAIF数据训练适配器；4）三种微调方式的区别：SFT用于学习标准答案，DPO

#python

从0完成轻量级大模型全链路训练与对齐框架——模型搭建

本文介绍了一个轻量级语言模型PocketLLM的实现方案，重点阐述了其核心架构和关键技术。该模型采用Decoder-only Transformer结构，集成了旋转位置编码(RoPE)和FlashAttention优化。创新性地引入了混合专家网络(MoE)机制，包含路由选择、负载均衡等关键组件。文章详细讲解了注意力模块、MoE实现、Transformer块设计等核心部分的代码实现，并提出了基于负载

#python #transformer

使用llama.cpp把huggingface模型转换为ollama所需要的gguf格式

注：此文章用于记录自己在模型格式转换所遇到的一些问题和过程。

#python

到底了