logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

gpu and data is all you need —— 记一次 qwen3.5 的思维链微调

本项目研究通过蒸馏数据对Qwen3.5模型的微调,解决Qwen3.5思维链思考过长的问题。

文章图片
#语言模型
java排查耗时代码的几种方式

(如果你的系统是windows执行不了这些命令,强烈建议装一个wsl1,IDEA支持把代码跑在wsl里了,调试起来会非常舒服,wsl2目前与windows本体的文件交换机制是网络传输,性能很差不建议。命令是用来获取当前的线程栈信息,也就是它的结果是瞬时的,如果我们的实际应用场景比较复杂,往往需要采样一段时间内的运行情况,再找出这段时间内总耗时最多的方法。这个火焰图是可以交互的,例如左上角的放大镜按

文章图片
#java#jvm#windows
到底了