一文通透登上Nature的DeepSeek R1:如何通过纯RL训练以比肩甚至超越OpenAI o1(含Kimi K1.5、QwQ-32B的解读)
而DeepSeek-V3和Kimi K1.5的意义在于,即便它两和OpenAI o1的实现不一致(当然,也可能很大程度上一致) 也不是很重要的事情了,因为从结果的角度出发,它两的效果比肩甚至超越o1,单这一点 就足够了。没想到,DeepSeek-V3还没解读完,DeepSeek-R1又来了,而且几乎同一时期,Kimi K1.5也来了。有意思的在它两的技术报告里,很多指标都比肩甚至超越OpenAI的
所有评论(0)