logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

分布式机器学习之张量并行:层内切分 Transformer 模型

Tensor Parallel 是目前大模型训练和推理中最常用的并行方式之一,主要针对 Transformer 类模型。本文首先介绍了 GEMM 切分的按列并行和按行并行两种方式,然后在 Transformer 的各个组件,包括 MLP、Attention、input embedding、LM head + cross entropy loss 中根据实际情况设计具体的切分方案。

文章图片
#机器学习#transformer#人工智能
广义优势估计 GAE

本文中,我们首先回顾了之前介绍过的基于累积回报的Ψt\Psi_tΨt​选择,这类选择虽然是无偏的,但是由于需要多次采样,会造成累积方差很大。为了减小方差,我们考虑了基于价值函数的Ψt\Psi_tΨt​选择,但是在价值网络估计的价值函数不准时,这类选择的偏差又比较大。GAE 提出了一种一般形式,将多项对优势函数的估计值进行加权表示,通过调节超参数λ\lambdaλ,实现了偏差和方差之间进行权衡,目前

文章图片
#人工智能#机器学习
NaViT:训练任意分辨率和长宽比的 ViT

仅从结构上来说,ViT 要支持任意分辨率、任意长宽比输入图像,只要位置编码是可外推的绝对位置编码就行了,现在来看比较常用的是苏神的 2D RoPE,Qwen 2/2.5 VL 中就采用了这种方式。NaViT 主要是将 NLP 训练中的 sequence packing 引入了过来,将多个长度不一的 token 序列放到一个 sequence 里,并对 self attention 进行 maski

文章图片
#transformer#人工智能#计算机视觉
Qwen2.5 VL 通读

Qwen 系列比较稳健,一直是每次都有一定创新,且一直保持开源。现在应该是全球范围内(最)领先的开源多模态模型了,最近几个 VLM R1 相关的项目基本全都是用 Qwen 2/2.5 VL 作为基座,都取得了不错的结果。

文章图片
#人工智能#计算机视觉
GRPO:利用组内平均奖励来计算优势

GRPO 在 DeepSeek Math 中就提出了,在 R1 火爆出圈后,得到了大家的广泛关注和应用。在 R1 爆火后的一段时间里,大家进行 RLHF 训练的主流算法都切换到了 GRPO。具体算法方案上,GRPO 利用组内平均奖励来计算优势,相比于 PPO 需要额外训练一个 value model 的方式,训练开销的降低是肯定的,但是个人认为从效果天花板来看,不一定能比 PPO 更强。

文章图片
#人工智能
DAPO:对GRPO的几点改进

DAPO 对标准 GRPO 的一些细节进行了改进优化,从实验结果来看,提升非常显著。字节能开放自己在 RLHF 领域的探索结果出来肯定是非常好的。美中不足是感觉报告的写作比较潦草,并且实验略显单薄,以及对于 clip higher 这个解决方案个人感觉不是很对症。当然也可能是我自己理解不到位 😃,期望有大佬能指点下我的困惑。

文章图片
#机器学习#人工智能
使用yolov5训练自己的目标检测数据集

使用yolov5训练自己的目标检测数据集yolov4出来后不久,又出现了yolov5,没有论文。虽然作者没有放上和yolov4的直接测试对比,但在COCO数据集的测试效果还是很可观的。很多人考虑到YOLOv5的创新性不足,对算法是否能够进化,因此yolov5的名头仍有争议。但是既然github上有如此多的star,说明还是受到大多数人认可的一个工程。并且yolov5是十分容易上手使用的一个目标检测

#python#深度学习#机器学习
docker gpu报错Error response from daemon: could not select device driver ““ with capabilities: [[gpu]]

Docker容器中使用Nvidia GPU报错 docker: Error response from daemon: could not select device driver “” with capabilities: [[gpu]].问题出现我们知道,想要在 docker19 及之后的版本中使用 nvidia gpu 已经不需要单独安装 nvidia-docker 了,这已经被集成到了 d

#docker
深度学习三大谜团:集成、知识蒸馏和自蒸馏

深度学习三大谜团:集成、知识蒸馏和自蒸馏

#深度学习#人工智能
    共 92 条
  • 1
  • 2
  • 3
  • 10
  • 请选择