logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

顶会论文精读:打破对齐黑盒:Generative RLHF-V 深度精讲

在多模态大语言模型(MLLMs)飞速发展的今天,如何让模型真正“听懂人类的话”并做出符合人类意图的回答,成为了学界和工业界的一项长期核心挑战 。然而,传统基于人类反馈的强化学习(RLHF)高度依赖“仅打分”的黑盒奖励模型(Score-only RM),这种方法正面临着准确率低、泛化能力弱以及可解释性极差的三大瓶颈 。

文章图片
#人工智能#机器学习#语言模型 +4
深度学习中的性能加速利器:深入浅出学习算子融合(Operator Fusion)

算子融合(Operator Fusion)就是将这些连续的、可以合并的算子(BN,RELU)在计算层面上融合成一个“超级算子”。在这个融合的Kernel中,conv_result 和 bn_result 都是存在于GPU核心旁边的极快存储中的临时变量,它们未被写入到位于显卡PCB板上的全局显存颗粒中。:指的是一个基本的操作,比如卷积(Conv2d)、批归一化(BatchNorm2d)、激活函数(R

文章图片
#深度学习#学习#人工智能 +4
大模型强化学习:GRPO超级无敌深度剖析,看完即高手

GRPO 是一种通过组内归一化移除 Critic 网络的高效强化学习算法;它利用相对优势和在线探索,解决了 PPO 的显存瓶颈和 DPO 的探索不足问题,是目前训练大模型强推理能力(System 2)的最佳工程实践。

#算法#人工智能#神经网络 +3
PyTorch 深度强化学习实战:从零手写 PPO 算法训练你的月球着陆器智能体

很多同学在学习 PPO(Proximal Policy Optimization)时,往往止步于复杂的数学公式。理论看懂了,真要动手写代码时却无从下手。本文不谈晦涩的公式推导,而是聚焦于工程实现。我们将基于 PyTorch,从环境搭建、网络设计(Actor-Critic)、到核心的优势函数计算与 Clip 更新,一步步手写代码,最终训练出一个能完美降落的 LunarLander 智能体。如果你也想

#人工智能#pytorch#机器学习 +4
U-Net 全解析:从网络架构、核心原理到 PyTorch 代码实现

U-Net 是一个非常经典且极其重要的卷积神经网络(CNN)架构。它最初是为了生物医学图像分割而设计的,但由于其特别的设计,如今已经成为各种图像分割任务乃至 AI 图像生成模型(如 Stable Diffusion)的核心组件。

文章图片
#网络#人工智能#计算机视觉 +3
多模态教科书级指南,堪比“原子弹使用说明书”。一篇顶一年自学,Pytorch从0到1,源码级搭建CLIP-VIT相似图像检索系统,原理教学与代码逐行解析

这个项目是一个基于CLIP  和 ViT 的相似图像检索系统,使用PyTorch从零开始实现。该项目适合用于学习目的,帮助理解图像特征提取和相似度检索的基本原理。我相信大家只要认真看完,绝对大有裨益,不仅可以加深大家的代码能力,更能从原理上让大家理解透彻CLIP这个里程碑级别的多模态模型。

文章图片
#pytorch#人工智能#python +4
顶会论文精读:全景拆解基于 LLM 的多智能体钓鱼邮件检测系统 (MultiPhishGuard)

在人工智能技术飞速发展的今天,网络安全攻防战已经悄然升级。传统的钓鱼邮件往往伴随着拼写错误和拙劣的伪造,但如今的攻击者正在利用大语言模型(LLM)生成完美无瑕的商业话术,甚至融合了复杂的链接混淆和底层协议欺骗 。面对这种多维度的立体攻击,传统的黑名单规则和静态机器学习模型显得力不从心 ;而直接让单一的 AI 模型去判断整封邮件,又容易陷入“只见树木不见森林”的误报陷阱 。

#人工智能#自然语言处理#深度学习 +4
扩展:Q-Learning 收敛性证明

下面给出(针对有限状态—动作集合、贴现因子、有界奖励)。证明路线遵循“”,并兼顾异步坐标更新的事实。所用到的关键工具是:Bellman 最优算子是范数下的压缩、Robbins–Monro 步长条件、鞅差噪声与异步随机逼近的收敛定理。

#人工智能
RLHF最新前沿研究:贝叶斯非负奖励模型 (BNRM) 深度解析

在大语言模型(LLM)的对齐训练中,RLHF(基于人类反馈的强化学习)是让模型学会人类价值观的核心范式。然而,传统的裁判模型(奖励模型,RM)常常沦为大模型“刷分”的工具——只要疯狂堆砌废话、使用花哨排版,大模型就能骗取高分。这种灾难性现象被称为奖励劫持。为什么会这样?因为传统的 RM 就像一个死板的黑盒,它把所有复杂的语义特征揉碎成一堆有正有负的数字,最终只给出一个绝对的标量分数,完全抹杀了人类

文章图片
#机器学习#人工智能#深度学习 +4
    共 91 条
  • 1
  • 2
  • 3
  • 10
  • 请选择