logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

LUFFY(路飞): 使用DeepSeek指导Qwen强化学习

在RL过程中加入外部强力模型,让policy在探索的同时也模仿学习

文章图片
#深度学习#人工智能#自然语言处理 +2
RPT:拿强化学习做 LLM 预训练

结合预训练的规模优势与强化学习的决策优势

文章图片
#深度学习#人工智能#机器学习 +1
RPT:拿强化学习做 LLM 预训练

结合预训练的规模优势与强化学习的决策优势

文章图片
#深度学习#人工智能#机器学习 +1
LUFFY(路飞): 使用DeepSeek指导Qwen强化学习

在RL过程中加入外部强力模型,让policy在探索的同时也模仿学习

文章图片
#深度学习#人工智能#自然语言处理 +2
KSOD: 更精细地向LLM中添加特定知识

提出了一种向大模型注入知识的新方法

文章图片
#深度学习#语言模型#人工智能 +1
LLM-as-Judge真的更偏好AI输出?

系统性探究“自我偏好”的真实性,以及相应的优化手段

文章图片
#深度学习#语言模型#人工智能 +1
LUFFY(路飞): 使用DeepSeek指导Qwen强化学习

在RL过程中加入外部强力模型,让policy在探索的同时也模仿学习

文章图片
#深度学习#人工智能#自然语言处理 +2
    共 14 条
  • 1
  • 2
  • 请选择