2201_75283933 个人主页

@2201_75283933

2201_75283933

2024-04-15 15:12:58 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

DeepSeek-R1-Distill-Qwen-32B 部署教程

DeepSeek-R1-Zero 是一款通过大规模强化学习（RL）训练而成的模型，未经过监督微调（SFT）作为前置步骤，却展现出了卓越的推理能力。在强化学习的训练过程中，该模型自然地发展出许多强大且有趣的推理行为。然而，DeepSeek-R1-Zero 也存在一些问题，例如无休止的重复、可读性差以及语言混合等。为了解决这些问题并进一步提升模型的推理性能，我们推出了 DeepSeek-R1，该模型在

#人工智能

到底了