零澪灵个人主页

@moment8aVry

零澪灵

2023-06-13 09:19:37 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

【LLM】讲清楚MLA原理

这样的问题是参数的共享会导致模型效果下降，毕竟原本有128个头，128份KV参数，每份KV参数都会计算出不一样的注意力分布，让模型能更好的根据所有的注意力分布去预测下一个词，而现在128份参数变成了1份，预测效果下降是必然的。说不存在W_UK和W_UV其实并不严谨，但是这样可以更方便去理解，其实这里所谓的把W_UK与W_Q融合是指输入先经过W_Q，紧跟着就经过W_UK，从结果上来看，跟先把W_UK

#人工智能 #语言模型

[强化学习] LLM场景下的强化学习 --【GRPO】

文章对比了强化学习中的PPO与GRPO算法在LLM场景下的差异。PPO依赖人类偏好数据，但易导致模型"刷分"行为，且需维护多个模型，资源消耗大。GRPO通过多策略并行、仅计算最终奖励、无监督训练等方式改进：1）取消中间奖励计算，激发模型自主推理；2）采用优胜劣汰策略选择替代梯度优化；3）保留基础SFT训练解决冷启动问题。GRPO的目标函数包含策略优势计算和KL正则项，平衡创新与基础能力保持。该方法

#算法 #人工智能 #语言模型

[强化学习] LLM场景下的强化学习 --【PPO】

一句话：在当前状态(State)下，智能体(Agent)与环境(Environment)交互，并采取动作(Action)进入下一状态，过程中获得奖励(Reward，有正向有负向)，从而实现从环境中学习。在LLM场景下，提到RL一般是指RLHF（人类偏好对齐），此时上述关键概念介绍如下：Agent:语言模型本身，例如GPT、LLaMA。Environment: 训练阶段，环境是奖励模型RM，它基于人

#人工智能

Silu、Swish、SwiGLU、GELU —— Qwen中的激活函数

在Qwen2.5和Qwen3的MLP部分使用的激活函数是Silu，从源代码中可以看到，config.hidden_act==silu，对应的激活函数就是nn.SiLU。在技术报告中之所以会说使用的技术是SwiGLU，是因为采用了门控机制。，从形式上看确实如此，但实际上，这个1.702是一篇研究对GELU进行近似拟合得到的参数，本质上激活函数的曲线是与GELU基本一致，只是计算上采用了类似Swis

#学习 #自然语言处理

[强化学习] LLM场景下的强化学习 --【PPO】

#人工智能

【bug解决】 g++版本过低，与pytorch不匹配

将g++安装在新的文件夹gcc-5.4中，另外在gcc-5.4文件夹内新建了一个compilefile文件夹用来存储g++编译过程产生的文件。理论经过上述配置之后执行gcc -v和g++ -v得到的就是你安装的最新版本号。对于第二个报错，是由于目前使用的c++编译器与pytorch的编译器不一致。对于第一个报错，是由于g++版本过低，需要安装5.0以上版本。2、修改环境变量，指定编译器为g++（1

#bug

[Python] 计算机视觉-图像分类经典模型

LeNet模型使用的激活函数是Sigmoid函数，优化器采用Momentum。AlexNet模型使用的激活函数是ReLU函数，优化器是Adam。上述结构是针对手写数字识别任务而设计。二、AlexNet模型。

#计算机视觉 #人工智能 #深度学习

[Python] 计算机视觉-图像分类经典模型

#计算机视觉 #人工智能 #深度学习

通过ThingsBoard gateway将数据传输至ThingsBoard平台

此处配置是为了通过host和accessToken连接到ThingsBoard平台中指定的网关设备，然后通过connectors定义的连接器中的json文件，来对数据进行处理并传输到ThingsBoard平台的指定设备中。（3）进入EMQX的主题界面，添加主题，查看该主题的消息流入之后是流出还是被丢弃，如果被丢弃就重新检查前两项内容以及mqtt协议的版本（一般有3.1和5.0，默认使用的是5.0）

#gateway #网络

[mosquitto]实现接收离线消息

2、订阅主题，在常规的命令之后，添加-c，来关闭cleanSeesion功能，也就是创建持久会话；添加-i clientId，附带上客户端id的信息，来作为唯一标识，之后将根据clientId重新连接会话并接收离线消息；添加-q 1or2，设置消息的QoS为1或者2。标识，若标识为true则代表会话已经存在，无需重新订阅主题，可以通过全局接收来获取离线消息。1、启动mosquitto服务时添加-v

#java #开发语言

到底了