logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

详解PEFT库中LoRA源码

详细解释了PEFT库中的LoRA微调方法源码

文章图片
#深度学习
语言模型的On Policy蒸馏:从自我错误中学习

知识蒸馏(KD)被广泛用于通过训练较小的学生模型来压缩教师模型,以降低推理成本和内存占用。然而,当前用于自回归序列模型的KD方法存在训练期间看到的输出序列与学生在推理期间生成的输出序列之间的分布不匹配的问题。为了解决这个问题,我们引入了广义知识蒸馏(GKD)。GKD不是仅仅依赖于一组固定的输出序列,而是利用老师对这些序列的反馈,在学生自生成的输出序列上训练学生。与监督式KD方法不同,GKD还提供了

文章图片
#语言模型#深度学习#人工智能
利用MMSegmentation微调Mask2Former模型

使用mmsegmentation对mask2former进行微调,并在西瓜数据集和组织肾小球数据集上进行演示

文章图片
微调Hugging Face中图像分类模型

在kaggle平台上使用P100 GPU微调Hugging Face中图像分类模型vit-base-patch16-224

文章图片
#计算机视觉#深度学习#transformer
轻量级目标检测模型NanoDet-Plus微调、部署(保姆级教学)

超轻量级目标检测模型NanoDet-Plus微调、ONNRuntime部署保姆级教学!

文章图片
#目标检测#人工智能#计算机视觉
使用NNI对BERT模型进行粗剪枝、蒸馏与微调

使用NNI框架对BERT模型进行粗剪枝、蒸馏与微调

文章图片
#bert#剪枝
YOLOV5训练问题记载

YOLOV5训练模型问题记载

MMDetection框架训练、测试全流程

本文主要介绍了MMDetection的训练与测试过程,在数据集Dog and Cat Detection上微调了RTMDet模型,解析了RTMDet模型,最终模型指标bbox_mAP达到了0.952。

文章图片
#目标检测#深度学习
数学建模算法与应用 整数规划(cvxpy包)

习题习题2.1   试将下述非线性的0-1规划问题转换成线性的0-1规划问题maxz=x1+x1x2−x3max z = x_1+x_1x_2-x_3maxz=x1​+x1​x2​−x3​s.t.={−2x1+3x2+x3≤3xj=0或1,  j=1,2,3s.t.=\begin{cases}-2x_1 + 3x_2+x_3 \leq 3\\x_j = 0 \text{或}1,

#算法#线性代数#python
    共 19 条
  • 1
  • 2
  • 请选择