
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
最近做了一个基于Qwen2-1.5B-Instruct模型的比赛,记录一下自己的微调过程。怕自己以后忘了我就手把手一步一步来记录了。大多数都是给小白看的,如果你是小白建议你用jupyter运行,按照我这个模块一块一块运行,如果你是高手单纯的想找一个训练代码直接看模块10,我在提供了完整代码。

话不多说直接开始。

卷积层:机器人先学习“看”图像的小部分,比如耳朵、眼睛的形状、胡须的样子等等。这部分看书的时候感觉云里雾里的,好在之前学过一些卷积神经网络、全链接、感受野的概念,我就用自己的理解阐述一篇笔记吧,当复习了。全连接层:最后,机器人会综合所有这些信息,得出结论:“嗯,这只动物有尖尖的耳朵、圆圆的眼睛、长长的胡须,应该是一只猫!池化层:然后,机器人会把这些特征简化,找到最具代表性的部分,好比你在一个小尺寸

上下文相关性(Context relevancy):该指标衡量检索到的上下文(Context)的相关性,根据用户问题(question)和上下文(Context)计算得到,并且取值范围在 (0, 1)之间,值越高表示相关性越好。langchain怎么说呢又爱又恨,真的很多都要自己手写,比如数据库检索之类的,但是你说他不行它prompt模板有很好用,而且他还有自己的一套生态比如LCEL(管道符执行,

本文主要使用DeepSeek开源模型DeepSeek-R1-Distill-Qwen-1.5B模型在本地进行了一个简单的推理测试,因为deepseek官方只给了vllm和SGLang的运行脚本,以此测试也为方便后续对deepseek系列模型进行更深入的研究。








