logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

深度学习里面有没有支持Multi-GPU-DDP模式的pytorch模型训练代码模版?

一般pytorch需要用户自定义训练循环,可以说有1000个pytorch用户就有1000种训练代码风格。从实用角度讲,一个优秀的训练循环应当具备以下特点。代码简洁易懂 【模块化、易修改、short-enough】支持常用功能 【进度条、评估指标、early-stopping】经过反复斟酌测试,我精心设计了仿照keras风格的pytorch训练循环,完全满足以上条件。该方案在知乎受到许多读者喜爱,

Tabm,一个自带集成特效的深度学习模型

2,为了减少总的权重参数规模,这些小模型有相当多的权重参数是共享的,因此Tabm的实际权重大小是显著小于许多个完全独立的小模型的,这种权重共享的设计实际上也起到了一定的正则化的作用,可以提升模型的效果。1,Tabm由许多MLP小模型(例如k=32个)组成的,每个小模型都可以输出独立的预测,每个小模型的loss也是独立计算的。最终的预测是它们的预测结果的平均。3,Tabm还引入了精心设计的对数值特征

#深度学习#人工智能
非常丝滑,腾讯元宝已支持deepseek R1

今天在使用腾讯元宝网页版的时候发现可以切换成deepseek r1模型。还支持联网搜索。试了几个问题,响应非常丝滑。一,弱智题老鼠生病了可以吃老鼠药治好吗?二,数学题8个数字8,如何使它等于1000?三,编程题使用html和js生成一个文章封面图。封面图的尺寸是1200x800, 封面图的颜色是渐变的蓝色。封面图中央是文章标题:非常丝滑,腾讯元宝已支持deepseek R1~。文章标题分两行显示。

Xlearn ——快速落地FM/FFM机器学习算法

Xlearn是你面对结构化数据分类/回归任务时,除了xgboost/lightgbm/catboost之外,又不想搞训练很慢的深度学习模型时,可以尝试考虑的一个能够快速落地的机器学习baseline基准。你可以将它单独使用 (在某些场景中可能会好于GBDT类模型),也可以尝试将它和GBDT类模型进行模型融合(基本在所有场景中都会有所提升)。它常常在广告点击率预测、推荐系统等存在大规模稀疏特征,并且

#机器学习#算法#人工智能
30分钟吃掉wandb模型训练可视化

wandb是"我爱你,大baby"首字母的缩写。顾名思义,她是炼丹师的大宝贝,是炼丹师最爱的炼丹伴侣。公众号算法美食屋后台回复关键词:wandb,获取本教程 notebook源码和 B站视频演示。just kidding, 开个玩笑!wandb全称weights&bias,是一款类似TensorBoard的机器学习可视化分析工具。相比TensorBoard,wandb具有如下主要优势:日.

#深度学习#pytorch#人工智能 +2
非常丝滑,腾讯元宝已支持deepseek R1

今天在使用腾讯元宝网页版的时候发现可以切换成deepseek r1模型。还支持联网搜索。试了几个问题,响应非常丝滑。一,弱智题老鼠生病了可以吃老鼠药治好吗?二,数学题8个数字8,如何使它等于1000?三,编程题使用html和js生成一个文章封面图。封面图的尺寸是1200x800, 封面图的颜色是渐变的蓝色。封面图中央是文章标题:非常丝滑,腾讯元宝已支持deepseek R1~。文章标题分两行显示。

BaiChuan13B多轮对话微调范例

前方干货预警:这可能是你能够找到的,最容易理解,最容易跑通的,适用于多轮对话数据集的大模型高效微调范例。我们构造了一个修改大模型自我认知的3轮对话的玩具数据集,使用QLoRA算法,只需要5分钟的训练时间,就可以完成微调,并成功修改了LLM模型的自我认知。公众号算法美食屋后台回复关键词:torchkeras,获取本文notebook源代码。我们先说说原理,主要是多轮对话微调数据集以及标签的构造方法,

#机器学习#人工智能
30分钟吃掉pytorch转onnx及推理

pytorch模型线上部署最常见的方式是转换成onnx然后再转成tensorRT 在cuda上进行部署推理。本文介绍将pytorch模型转换成onnx模型并进行推理的方法。#!pip install onnx#!pip install onnxruntime#!pip install torchvision公众号算法美食屋后台回复关键词:源码,获取本文notebook源代码。一,准备pyto...

#pytorch#人工智能#python +2
BaiChuan13B多轮对话微调范例

前方干货预警:这可能是你能够找到的,最容易理解,最容易跑通的,适用于多轮对话数据集的大模型高效微调范例。我们构造了一个修改大模型自我认知的3轮对话的玩具数据集,使用QLoRA算法,只需要5分钟的训练时间,就可以完成微调,并成功修改了LLM模型的自我认知。公众号算法美食屋后台回复关键词:torchkeras,获取本文notebook源代码。我们先说说原理,主要是多轮对话微调数据集以及标签的构造方法,

#机器学习#人工智能
60分钟吃掉ChatGLM2-6b微调范例~

干货预警:这可能是你能够找到的最容易懂的,最完整的,适用于各种NLP任务的开源LLM的finetune教程~ChatGLM2-6b是清华开源的小尺寸LLM,只需要一块普通的显卡(32G较稳妥)即可推理和微调,是目前社区非常活跃的一个开源LLM。本范例使用非常简单的,外卖评论数据集来实施微调,让ChatGLM2-6b来对一段外卖评论区分是好评还是差评。可以发现,经过微调后的模型,相比直接 3-sho

    共 33 条
  • 1
  • 2
  • 3
  • 4
  • 请选择