logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【LLM】讲清楚MLA原理

这样的问题是参数的共享会导致模型效果下降,毕竟原本有128个头,128份KV参数,每份KV参数都会计算出不一样的注意力分布,让模型能更好的根据所有的注意力分布去预测下一个词,而现在128份参数变成了1份,预测效果下降是必然的。说不存在W_UK和W_UV其实并不严谨,但是这样可以更方便去理解,其实这里所谓的把W_UK与W_Q融合是指输入先经过W_Q,紧跟着就经过W_UK,从结果上来看,跟先把W_UK

文章图片
#人工智能#语言模型
[强化学习] LLM场景下的强化学习 --【GRPO】

文章对比了强化学习中的PPO与GRPO算法在LLM场景下的差异。PPO依赖人类偏好数据,但易导致模型"刷分"行为,且需维护多个模型,资源消耗大。GRPO通过多策略并行、仅计算最终奖励、无监督训练等方式改进:1)取消中间奖励计算,激发模型自主推理;2)采用优胜劣汰策略选择替代梯度优化;3)保留基础SFT训练解决冷启动问题。GRPO的目标函数包含策略优势计算和KL正则项,平衡创新与基础能力保持。该方法

文章图片
#算法#人工智能#语言模型
[强化学习] LLM场景下的强化学习 --【PPO】

一句话:在当前状态(State)下,智能体(Agent)与环境(Environment)交互,并采取动作(Action)进入下一状态,过程中获得奖励(Reward,有正向有负向),从而实现从环境中学习。在LLM场景下,提到RL一般是指RLHF(人类偏好对齐),此时上述关键概念介绍如下:Agent:语言模型本身,例如GPT、LLaMA。Environment: 训练阶段,环境是奖励模型RM,它基于人

文章图片
#人工智能
Silu、Swish、SwiGLU、GELU —— Qwen中的激活函数

在Qwen2.5和Qwen3的MLP部分使用的激活函数是Silu,从源代码中可以看到,config.hidden_act==silu, 对应的激活函数就是nn.SiLU。在技术报告中之所以会说使用的技术是SwiGLU,是因为采用了门控机制。,从形式上看确实如此,但实际上,这个1.702是一篇研究对GELU进行近似拟合得到的参数,本质上激活函数的曲线是与GELU基本一致,只是计算上采用了类似Swis

#学习#自然语言处理
[强化学习] LLM场景下的强化学习 --【PPO】

一句话:在当前状态(State)下,智能体(Agent)与环境(Environment)交互,并采取动作(Action)进入下一状态,过程中获得奖励(Reward,有正向有负向),从而实现从环境中学习。在LLM场景下,提到RL一般是指RLHF(人类偏好对齐),此时上述关键概念介绍如下:Agent:语言模型本身,例如GPT、LLaMA。Environment: 训练阶段,环境是奖励模型RM,它基于人

文章图片
#人工智能
[论文阅读]Chart-to-Text: Generating Natural Language Descriptions for Charts by Adapting the Transformer

研究对象:图表研究问题:自动生成图表的自然语言摘要研究方法:引入了新的数据集,并提出一个神经模型,这个神经模型是通过扩展一个在data-to-text生成任务中表现SOTA的模型而得到的。

文章图片
#论文阅读
[Python] 计算机视觉-图像分类经典模型

LeNet模型使用的激活函数是Sigmoid函数,优化器采用Momentum。AlexNet模型使用的激活函数是ReLU函数,优化器是Adam。上述结构是针对手写数字识别任务而设计。二、AlexNet模型。

文章图片
#计算机视觉#人工智能#深度学习
【bug解决】 g++版本过低,与pytorch不匹配

将g++安装在新的文件夹gcc-5.4中,另外在gcc-5.4文件夹内新建了一个compilefile文件夹用来存储g++编译过程产生的文件。理论经过上述配置之后执行gcc -v和g++ -v得到的就是你安装的最新版本号。对于第二个报错,是由于目前使用的c++编译器与pytorch的编译器不一致。对于第一个报错,是由于g++版本过低,需要安装5.0以上版本。2、修改环境变量,指定编译器为g++(1

文章图片
#bug
[Python] 计算机视觉-图像分类经典模型

LeNet模型使用的激活函数是Sigmoid函数,优化器采用Momentum。AlexNet模型使用的激活函数是ReLU函数,优化器是Adam。上述结构是针对手写数字识别任务而设计。二、AlexNet模型。

文章图片
#计算机视觉#人工智能#深度学习
[Python] 计算机视觉-图像分类经典模型

LeNet模型使用的激活函数是Sigmoid函数,优化器采用Momentum。AlexNet模型使用的激活函数是ReLU函数,优化器是Adam。上述结构是针对手写数字识别任务而设计。二、AlexNet模型。

文章图片
#计算机视觉#人工智能#深度学习
    共 12 条
  • 1
  • 2
  • 请选择