南波湾个人主页

@bbblllsss

南波湾

2023-06-05 20:43:59 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

DeepSeek R1：通过强化学习激发大模型的推理能力

论文标题：DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning发布时间：2025 年 1 月 [2501.12948]论文地址：https://arxiv.org/pdf/2501.12948v1Github 地址：https://github.com/deepseek-ai/DeepS

#语言模型 #nlp #深度学习 +1

Qwen3 技术报告解读

为了增加数学和代码数据的数量，我们利用 Qwen2.5-Math 和 Qwen2.5-Coder 这两个数学和代码领域的专家模型合成数据，合成了包括教科书、问答对以及代码片段等多种形式的数据。由于模型架构的改进、训练数据的增加以及更有效的训练方法，Qwen3 Dense 基础模型的整体性能与参数更多的Qwen2.5基础模型相当。最后，在第四阶段，我们在包括指令遵循、格式遵循和 Agent 能力等在

#人工智能 #深度学习 #语言模型

到底了