路瑶瑶个人主页

@qq_43044037

路瑶瑶

2023-04-15 14:07:44 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

「大模型应用」(3)Agent开发的几种方式

本文介绍了几种种基于LLM的Agent实现方式：静态Prompt驱动Agent：通过系统Prompt定义角色和功能，实现简单但缺乏灵活性，适用于人设聊天或FAQ问答。规则+LLM驱动Agent：结合代码逻辑与LLM推理，支持API调用和数据库查询，可预测性强但开发复杂度高，适合数据分析或业务机器人。任务链Agent：通过规划多步骤任务并调用工具完成复杂操作，灵活性高但需设计任务分解机制，适用

#语言模型 #transformer #机器学习 +1

「大模型学习」(4)0基础学强化学习PPO与大模型中的应用

强化学习基础和PPO和RHLF

#学习

「手写大模型系列」（1）手写lora

LoRA（Low-Rank Adaptation）是一种高效的大模型微调方法，通过在原始权重矩阵上添加低秩补丁项（ΔW=AB）来调整模型参数。其中A和B是两个小规模可学习矩阵（r≪n,m），训练时仅更新这两个矩阵，冻结原始权重以节省资源。推理时可将补丁项合并回原始权重，不增加计算开销。该方法基于大模型参数空间冗余的假设，证明方向微调即可达到接近全参数微调的效果。代码实现上，通过自定义PyTorch

#语言模型 #transformer

「大模型学习」(10)LLM的量化（GPTQ、LLM.int8()、AWQ）不信你学不会！

本文介绍了神经网络模型量化技术及其应用。量化通过降低模型精度（如INT8/INT4）来减少存储和计算开销，提升推理速度。量化对模型精度影响较小的原因包括权重归一化、激活函数平滑误差以及分类任务对绝对值不敏感。文中对比了两种量化方法：PTQ（后训练量化）和QAT（量化感知训练），重点讲解了PTQ的四种代表性方法：ZeroQuant（块级重构与混合精度量化）、LLM.int8()（混合精度处理激活离群

#学习

「大模型学习」(3) 大模型中的位置编码（rope详细讲解）

介绍了大模型中的位置编码，重点介绍了Rope的使用

#学习

「大模型学习」(1)一文看懂pre-norm和post-norm

Pre-Norm和Post-Norm是深度学习中两种常见的归一化策略。Pre-Norm在每一层的输入前进行归一化，其特点是训练速度快、梯度传播平稳，但深层模型容易出现信息堆叠重复，导致有效深度打折扣。Post-Norm则在每一层的输出后进行归一化，虽然训练难度较大，但能实现特征逐层深化，最终性能更强，尤其在微调阶段表现更优。总体而言，Pre-Norm更注重工程实用性，而Post-Norm则更强调结

#学习 #AIGC

「大模型学习」(13) DeepSeek-GRPO原理

GRPO是一种改进的强化学习算法，其目标函数结合了PPO的思想并引入组内归一化奖励。该算法还保留了PPO的策略比率裁剪机制和KL散度正则项，以控制策略更新幅度。相较于PPO，GRPO无需额外训练奖励模型，直接利用组内相对评分构建优势函数，更具实用性和部署便利性。优化流程包括采样、组内评分归一化、策略比率计算和带裁剪的目标函数优化等步骤。

#学习 #语言模型 #transformer

「大模型应用」(3)Agent开发的几种方式

#语言模型 #transformer #机器学习 +1

「手写大模型系列」（1）手写lora

#语言模型 #transformer

「大模型学习」(5)Decoding方法详解

**解码（Decoding）**是语言模型根据概率分布选择输出词的过程，平衡生成文本的准确性与多样性。常见解码策略包括：贪婪搜索（Greedy Search）：每一步选最高概率词，简单但易单调且错误累积。集束搜索（Beam Search）：保留多条候选路径，提升全局最优性，但计算复杂度高。 Top-k抽样：从前k个高概率词中随机选择，增加多样性但需调参。 Top-p抽样（核采样）：动态选择累计

#学习 #AIGC #transformer +1

共 12 条

请选择