logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Online RLHF-PPO、GRPO、DAPO等方法

在policy model中,advantage作为概率比的加权值,在value model中,advantage与老的值网络的和作为target,与新的值网络之间计算MSE损失。基于1中训练好的预训练语言模型以及构建好的prompt集,使用beam-search等生成prompt的多个回复结果,然后人工对生成的多个结果排序,然后基于该数据训练了一个6B的打分模型,使用的是pair-wise的ra

Qwen3-Omni技术详解

介绍Qwen3-Omni之前,有必要先介绍Qwen2.5-Omni。Qwen3-Omin延续了上一代的模型架构,并做些一些重要改进。

#人工智能#机器学习#图像处理 +1
最近流式语音大模型汇总以及benchmark

本文主要介绍了近期流式语音大模型。

#语音识别#人工智能#音视频 +1
从Diffusion到VLA pi0(π0)

一旦生成标记,模型便切换到扩散模式,在序列中追加固定数量的纯噪声 latent patch,并通过多步扩散去噪同时更新所有 patch。模型采用了一种混合注意力机制:文本 token 之间使用因果注意力,而同一图像内部的 patch 之间使用双向注意力,主要是因为图像的patch之间有明显的双向依赖关系。为避免编码过程中细节信息的丢失,U-Net 在编码器与解码器的对应层之间引入跳跃连接(Skip

#人工智能#算法
大模型奖励黑客Reward Hacking(也叫Reward Overoptimization)问题的相关论文介绍

在基于人类反馈的强化学习优化过程中,当以reward model的评分作为奖励进行优化时,如果reward model不能完全代表人类的偏好,就可能出现奖励黑客,即reward hacking。本文主要研究了基于大模型的生成器和评估器的自我迭代的框架中,由于基于大模型的评估器并不能代表人类真实的判断意图,造成存在一定的reward hacking问题。提出了一种改进的RM算法,ODIN,即使用le

#人工智能#语言模型#自然语言处理 +2
LLaMA、Baichuan、ChatGLM、Qwen、天工等大模型对比

https://github.com/THUDM/ChatGLM-6Bhttps://github.com/THUDM/ChatGLM2-6Bhttps://github.com/THUDM/ChatGLM3其他开源项目。

基于大模型来做NLP任务

InstructUIE: Multi-task Instruction Tuning for Unified Information ExtractionAligning Instruction Tasks Unlocks Large Language Models as Zero-Shot Relation ExtractorsRevisiting Relation Extraction in

文章图片
#自然语言处理#人工智能
LLaMA、Baichuan、ChatGLM、Qwen、天工等大模型对比

https://github.com/THUDM/ChatGLM-6Bhttps://github.com/THUDM/ChatGLM2-6Bhttps://github.com/THUDM/ChatGLM3其他开源项目。

    共 19 条
  • 1
  • 2
  • 请选择