logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

《第一篇》大模型强化学习中的 PPO、DPO、KTO、ORPO 全解析

本文系统解析了大语言模型微调中的四种强化学习算法:PPO、DPO、KTO和ORPO。PPO通过约束策略更新实现稳定优化,DPO直接利用人类偏好数据避免奖励建模,KTO在DPO基础上加入KL正则项,ORPO则专注于离线数据训练。文章详细介绍了各算法的原理、数据格式、数学公式和简化实现,并对比了它们的适用场景和特点。这些方法为LLM优化提供了不同路径,从传统的在线策略优化到更高效的离线偏好学习,帮助开

#人工智能#机器学习#深度学习 +1
《第一篇》大模型强化学习中的 PPO、DPO、KTO、ORPO 全解析

本文系统解析了大语言模型微调中的四种强化学习算法:PPO、DPO、KTO和ORPO。PPO通过约束策略更新实现稳定优化,DPO直接利用人类偏好数据避免奖励建模,KTO在DPO基础上加入KL正则项,ORPO则专注于离线数据训练。文章详细介绍了各算法的原理、数据格式、数学公式和简化实现,并对比了它们的适用场景和特点。这些方法为LLM优化提供了不同路径,从传统的在线策略优化到更高效的离线偏好学习,帮助开

#人工智能#机器学习#深度学习 +1
YOLOX 深度解析:无 Anchor 设计 + 强大训练基线,全面超越传统 YOLO!

YOLOX是旷视科技2021年提出的高性能单阶段目标检测模型,在YOLO系列基础上进行了多项创新:采用Anchor-Free模式、解耦头设计、SimOTA标签分配策略,并支持ONNX/TensorRT导出。其核心结构包括CSPDarknet53主干网络、PANet特征融合和解耦检测头。YOLOX通过SimOTA动态分配正样本,使用GIoU+L1损失优化边界框回归,结合Mosaic等数据增强技术,在

#目标跟踪#计算机视觉#目标检测 +2
YOLOv4 全流程实战拆解:训练、推理与部署细节复现

YOLOv4训练与推理流程详解:本文基于论文和开源实现,详细介绍了YOLOv4目标检测模型的完整工作流程。训练阶段包括数据预处理(Mosaic增强)、锚框分配、标签构建和CIoU损失计算;推理阶段涵盖图像预处理、多尺度预测输出和解码边界框过程。通过构造一个小型2类数据集(person和car),展示了YOLOv4从输入到输出的实现细节,包括特征图层级划分(20×20、40×40、80×80)和损失

#目标跟踪#人工智能#计算机视觉
《第五篇》vLLM:让大语言模型推理更高效的新一代引擎 —— 原理详解

vLLM是加州大学伯克利分校开发的高性能大语言模型推理框架,通过创新的PagedAttention技术(类比操作系统内存分页机制)显著提升推理效率。它解决了传统框架显存占用高、批处理效率低等问题,支持LLaMA、Mistral等主流开源模型,吞吐量比Transformers提升2.6倍,显存降低32%。vLLM兼容HuggingFace API,适用于本地推理、实时问答系统等场景,但不支持闭源模型

#语言模型#人工智能#自然语言处理
《第一篇》大模型强化学习中的 PPO、DPO、KTO、ORPO 全解析

本文系统解析了大语言模型微调中的四种强化学习算法:PPO、DPO、KTO和ORPO。PPO通过约束策略更新实现稳定优化,DPO直接利用人类偏好数据避免奖励建模,KTO在DPO基础上加入KL正则项,ORPO则专注于离线数据训练。文章详细介绍了各算法的原理、数据格式、数学公式和简化实现,并对比了它们的适用场景和特点。这些方法为LLM优化提供了不同路径,从传统的在线策略优化到更高效的离线偏好学习,帮助开

#人工智能#机器学习#深度学习 +1
    共 27 条
  • 1
  • 2
  • 3
  • 请选择