
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
DeepSeek V4 实测:Flash 免费、Pro 更强、7月旧模型退役
DeepSeek V4 实测:Flash版免费使用,Pro版推理更强。本文从API配置到实际对比,完整介绍新旧模型差异和迁移指南。
DeepSeek V4 实测:Flash 免费、Pro 更强、7月旧模型退役
DeepSeek V4 实测:Flash版免费使用,Pro版推理更强。本文从API配置到实际对比,完整介绍新旧模型差异和迁移指南。
只用1000条数据就超越了o1?这篇论文把测试时计算缩放讲明白了
有时候最简单的方法反而是最被低估的。大家都在堆 RL、堆搜索、多轮蒸馏的时候,有人停下来思考"最简方案是什么",然后真的做出来了。这可能才是科研该有的样子。如果你对测试时计算缩放、推理模型感兴趣,欢迎留言讨论。后续我会继续解读其他相关工作,比如 DeepSeek-R1 的技术细节、Overthinking 现象等。
只用1000条数据就超越了o1?这篇论文把测试时计算缩放讲明白了
有时候最简单的方法反而是最被低估的。大家都在堆 RL、堆搜索、多轮蒸馏的时候,有人停下来思考"最简方案是什么",然后真的做出来了。这可能才是科研该有的样子。如果你对测试时计算缩放、推理模型感兴趣,欢迎留言讨论。后续我会继续解读其他相关工作,比如 DeepSeek-R1 的技术细节、Overthinking 现象等。
解决vscode c++编码时遇到的中文乱码问题
快速无脑解决vscode编码输出中文错误

到底了







