logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【RL】Does RLVR enable LLMs to self-improve?

论文:Does RLVR enable LLMs to self-improve?研究问题:这篇文章探讨了强化学习(RL)在提升大型语言模型(LLMs)推理能力方面的潜力,特别是是否超越了基础模型的推理能力。研究难点:该问题的研究难点包括:如何准确评估LLMs的推理能力边界,以及现有的RLVR方法是否能够引入新的推理模式。相关工作:该问题的研究相关工作包括OpenAI的o1模型、DeepSeek-

文章图片
#深度学习
【MLLM】全模态Omni模型(持续更新)

meituan开源全模态大模型:https://github.com/meituan-longcat/LongCat-Flash-Omni。基于稀疏专家架构的全模态训练 Ming-flash-omni-Preview 将 Ling-flash-2.0 稀疏 MoE 架构拓展到全模态大模型,基于 Ming-lite-omni 提出的模态级路由实现对各模态分布和路由策略建模,实现各模态的 “大容量、小

文章图片
【MLLM】全模态Omni模型(持续更新)

meituan开源全模态大模型:https://github.com/meituan-longcat/LongCat-Flash-Omni。基于稀疏专家架构的全模态训练 Ming-flash-omni-Preview 将 Ling-flash-2.0 稀疏 MoE 架构拓展到全模态大模型,基于 Ming-lite-omni 提出的模态级路由实现对各模态分布和路由策略建模,实现各模态的 “大容量、小

文章图片
【RL】Supervised Reinforcement Learning: From Expert Trajectories to Step-wise Reasoning

提出了监督强化学习(SRL)框架,通过将专家解决方案分解为可管理的步骤并提供密集的序列相似度奖励,显著提高了LLMs在复杂推理任务上的性能。实验结果表明,SRL不仅在数学推理和软件工程任务上优于基线方法,还能与RLVR结合形成强大的课程学习策略。SRL作为一种稳健且通用的技术,能够解锁模型从具有挑战性的多步问题中学习的能力,为训练更强大、更多功能的AI代理奠定了基础。SRL巧妙地融合了SFT和RL

文章图片
【Python可视化】绘制学生成绩的雷达图

一、雷达图介绍雷达图,又叫蜘蛛网图、极坐标图。雷达图相当于平行坐标图,其中轴径向排列。二、Python代码栗子:给定某学生的各科成绩,绘制雷达图。步骤:(1)得到自变量和因变量;(2)需要用angles角度数组,将圆周分为dataLength份,然后【闭合】操作。(3)设置雷达图参数。# -*- coding: utf-8 -*-"""Created on Mon Feb 14 15:09:43

文章图片
#数据可视化
【RL-LLM】Self-Rewarding Language Models

Self-Rewarding Language Models- 研究问题:这篇文章要解决的问题是如何通过自我奖励的语言模型(Self-Rewarding Language Models)来实现超人类智能代理。具体来说,现有的方法通常依赖于人类偏好数据来训练奖励模型,然后使用这些模型来训练大型语言模型(LLM),但这种方法存在瓶颈,即人类偏好数据的大小和质量限制。- 研究难点:该问题的研究难点包括:

文章图片
【LLM】deepseek多模态之Janus-Pro和JanusFlow框架

# note@[toc]# 一、Janus-Pro:解耦视觉编码,实现多模态高效统一anus-Pro是一个新颖的自回归框架,统一了多模态理解和生成。通过将视觉编码分离为“理解”和“生成”两条路径,同时仍采用单一的Transformer架构进行处理,解决了以往方法的局限性。这种分离不仅缓解了视觉编码器在理解和生成中的角色冲突,还提升了框架的灵活性。## 技术亮点- 视觉编码解耦:采用独立的路径分别处

文章图片
【机器学习中的矩阵求导】(三)矩阵向量求导(微分法)

学习总结(1)用微分法,要熟练矩阵微分和迹函数的性质。(2)有一些场景,求导的自变量和因变量直接有复杂的多层链式求导的关系,此时微分法使用起来也有些麻烦。如果我们可以利用一些常用的简单求导结果,再使用链式求导法则,则会非常的方便。(3)本task是求解标量对向量的求导,以及标量对矩阵的求导。注意此处统一规定:使用分母布局。文章目录学习总结一、矩阵微分二、矩阵微分的性质三、使用微分法求解矩阵向量求导

文章图片
#机器学习
【机器学习中的矩阵求导】(七)矩阵向量化复习

矩阵向量化,在矩阵乘法、转置、逐元素乘法等会用到;另外可以使用numpy的kron计算kronecker积。

文章图片
#矩阵#机器学习
【LLM多模态】Animatediff文生视频大模型

AnimateDiff,这是一个实用的框架,用于在不需要特定调整的情况下,将个性化的文本到图像(T2I)扩散模型转换为动画生成器。1. 问题背景:现有的个性化T2I模型能够生成高质量的静态图像,但在生成动画方面存在挑战。作者提出了AnimateDiff,旨在解决这一问题。2. AnimateDiff框架:核心是一个可插拔的运动模块,它可以从真实世界视频中学习通用的运动先验,并与任何基于相同基础T2

文章图片
    共 356 条
  • 1
  • 2
  • 3
  • 36
  • 请选择