logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

DeepSeek R1:通过强化学习激发大模型的推理能力

论文标题:DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning发布时间:2025 年 1 月 [2501.12948]论文地址:https://arxiv.org/pdf/2501.12948v1Github 地址:https://github.com/deepseek-ai/DeepS

#语言模型#nlp#深度学习 +1
Qwen3 技术报告解读

为了增加数学和代码数据的数量,我们利用 Qwen2.5-Math 和 Qwen2.5-Coder 这两个数学和代码领域的专家模型合成数据,合成了包括教科书、问答对以及代码片段等多种形式的数据。由于模型架构的改进、训练数据的增加以及更有效的训练方法,Qwen3 Dense 基础模型的整体性能与参数更多的Qwen2.5基础模型相当。最后,在第四阶段,我们在包括指令遵循、格式遵循和 Agent 能力等在

#人工智能#深度学习#语言模型
到底了