
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本文介绍了几种种基于LLM的Agent实现方式: 静态Prompt驱动Agent:通过系统Prompt定义角色和功能,实现简单但缺乏灵活性,适用于人设聊天或FAQ问答。 规则+LLM驱动Agent:结合代码逻辑与LLM推理,支持API调用和数据库查询,可预测性强但开发复杂度高,适合数据分析或业务机器人。 任务链Agent:通过规划多步骤任务并调用工具完成复杂操作,灵活性高但需设计任务分解机制,适用
强化学习基础和PPO和RHLF
LoRA(Low-Rank Adaptation)是一种高效的大模型微调方法,通过在原始权重矩阵上添加低秩补丁项(ΔW=AB)来调整模型参数。其中A和B是两个小规模可学习矩阵(r≪n,m),训练时仅更新这两个矩阵,冻结原始权重以节省资源。推理时可将补丁项合并回原始权重,不增加计算开销。该方法基于大模型参数空间冗余的假设,证明方向微调即可达到接近全参数微调的效果。代码实现上,通过自定义PyTorch
本文介绍了神经网络模型量化技术及其应用。量化通过降低模型精度(如INT8/INT4)来减少存储和计算开销,提升推理速度。量化对模型精度影响较小的原因包括权重归一化、激活函数平滑误差以及分类任务对绝对值不敏感。文中对比了两种量化方法:PTQ(后训练量化)和QAT(量化感知训练),重点讲解了PTQ的四种代表性方法:ZeroQuant(块级重构与混合精度量化)、LLM.int8()(混合精度处理激活离群
介绍了大模型中的位置编码,重点介绍了Rope的使用
Pre-Norm和Post-Norm是深度学习中两种常见的归一化策略。Pre-Norm在每一层的输入前进行归一化,其特点是训练速度快、梯度传播平稳,但深层模型容易出现信息堆叠重复,导致有效深度打折扣。Post-Norm则在每一层的输出后进行归一化,虽然训练难度较大,但能实现特征逐层深化,最终性能更强,尤其在微调阶段表现更优。总体而言,Pre-Norm更注重工程实用性,而Post-Norm则更强调结
GRPO是一种改进的强化学习算法,其目标函数结合了PPO的思想并引入组内归一化奖励。该算法还保留了PPO的策略比率裁剪机制和KL散度正则项,以控制策略更新幅度。相较于PPO,GRPO无需额外训练奖励模型,直接利用组内相对评分构建优势函数,更具实用性和部署便利性。优化流程包括采样、组内评分归一化、策略比率计算和带裁剪的目标函数优化等步骤。
本文介绍了几种种基于LLM的Agent实现方式: 静态Prompt驱动Agent:通过系统Prompt定义角色和功能,实现简单但缺乏灵活性,适用于人设聊天或FAQ问答。 规则+LLM驱动Agent:结合代码逻辑与LLM推理,支持API调用和数据库查询,可预测性强但开发复杂度高,适合数据分析或业务机器人。 任务链Agent:通过规划多步骤任务并调用工具完成复杂操作,灵活性高但需设计任务分解机制,适用
LoRA(Low-Rank Adaptation)是一种高效的大模型微调方法,通过在原始权重矩阵上添加低秩补丁项(ΔW=AB)来调整模型参数。其中A和B是两个小规模可学习矩阵(r≪n,m),训练时仅更新这两个矩阵,冻结原始权重以节省资源。推理时可将补丁项合并回原始权重,不增加计算开销。该方法基于大模型参数空间冗余的假设,证明方向微调即可达到接近全参数微调的效果。代码实现上,通过自定义PyTorch
**解码(Decoding)**是语言模型根据概率分布选择输出词的过程,平衡生成文本的准确性与多样性。常见解码策略包括: 贪婪搜索(Greedy Search):每一步选最高概率词,简单但易单调且错误累积。 集束搜索(Beam Search):保留多条候选路径,提升全局最优性,但计算复杂度高。 Top-k抽样:从前k个高概率词中随机选择,增加多样性但需调参。 Top-p抽样(核采样):动态选择累计







