qq_36671160 个人主页

@qq_36671160

qq_36671160

2023-06-14 16:01:31 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

提示词压缩方法总结与开源工具包

对各类提示词压缩方法的总结

文章图片

#深度学习 #人工智能 #机器学习 +2

LUFFY(路飞): 使用DeepSeek指导Qwen强化学习

在RL过程中加入外部强力模型，让policy在探索的同时也模仿学习

文章图片

#深度学习 #人工智能 #自然语言处理 +2

RPT：拿强化学习做 LLM 预训练

结合预训练的规模优势与强化学习的决策优势

文章图片

#深度学习 #人工智能 #机器学习 +1

RPT：拿强化学习做 LLM 预训练

结合预训练的规模优势与强化学习的决策优势

文章图片

#深度学习 #人工智能 #机器学习 +1

LUFFY(路飞): 使用DeepSeek指导Qwen强化学习

在RL过程中加入外部强力模型，让policy在探索的同时也模仿学习

文章图片

#深度学习 #人工智能 #自然语言处理 +2

KSOD: 更精细地向LLM中添加特定知识

提出了一种向大模型注入知识的新方法

文章图片

#深度学习 #语言模型 #人工智能 +1

LLM-as-Judge真的更偏好AI输出？

系统性探究“自我偏好”的真实性，以及相应的优化手段

文章图片

#深度学习 #语言模型 #人工智能 +1

Qwen团队新发现：大模型推理能力的提高仅由少数高熵 Token 贡献

逻辑分叉、连词是提高推理能力的关键

文章图片

LUFFY(路飞): 使用DeepSeek指导Qwen强化学习

在RL过程中加入外部强力模型，让policy在探索的同时也模仿学习

文章图片

#深度学习 #人工智能 #自然语言处理 +2

RankCoT:提高RAG系统准确性的新手段——让大模型学会对召回文档排序

通过让大模型学会对召回文档排序，提高RAG系统的准确性

文章图片

#语言模型 #人工智能 #自然语言处理

共 14 条

1
2

请选择