logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

6、KIMI-VL介绍

把 Kimi-VL 的训练路线压缩成一句话:先用混合目标把视觉底座“练到能看清与能对齐”,再用联合预训练把多模态与语言能力“拧成一股绳”,再用冷却阶段把能力结构“精炼与去噪”,最后用长上下文激活与后训练把模型推到“可用、可控、可长序列推理”的状态。高分辨率真实场景 vs 训练吞吐与工程复杂度:MoonViT 原生分辨率 + packing多模态能力提升 vs 语言能力退化:联合预训练中先语言后多模

#计算机视觉#人工智能#机器学习
2、DeepSeek-VL / DeepSeek-VL2

维度高分辨率策略固定1024×10241024×1024+ 混合编码器(语义+细节)动态分块(tiles + 全局缩略图),自适应宽高比与分辨率视觉编码器SigLIP + SAM-B(混合)SigLIP-SO400M-384(多块编码) + token 压缩 + 布局标记结构提示主要靠融合后的序列显式建模二维布局边界语言模型DeepSeekMoE(多规模)+ MLA(KV 压缩)主要解决痛点在 t

#人工智能#深度学习#机器学习 +1
1、LLaVA 系列

LLaVA(Large Language and Vision Assistant)是一类开源视觉语言助手模型,核心贡献是把推广到:给定一张图片和自然语言指令,模型能够像聊天助手一样进行回答、描述,并在一定程度上完成视觉推理与基于图像的复杂问答。

#人工智能#深度学习#机器学习 +1
11、EVA:以 CLIP 特征重构驱动的可规模化视觉基础模型

将图像分割为NNN个 patch(例如14×1414×14的 patch 网格),用 ViT 进行编码。引入掩码集合MM表示被遮蔽的 patch 索引集合,可见 patch 索引集合为VVM∪V12NM∩V∅M∪V12NM∩V∅EVA 使用 block-wise masking(块状遮蔽),常用遮蔽比例约为4040\%40%,使得模型必须依赖全局上下文推断缺失部分。不需要语义 token 化不需要

#重构#人工智能#深度学习 +2
10、MVP(Multimodality-guided Visual Pre-training)详解:用多模态知识“拯救”MIM 的语义判别力

改造 MIM 的监督目标:从纯视觉 tokenizer(语义弱)切换为 CLIP 视觉特征(语义强)把多模态知识注入视觉预训练:不需要额外标注,用图文对齐训练出的语义空间作为指导同时对齐全局与局部:既学习场景级语义(CLS),也学习 patch 级语义(局部对象与关系线索)

#人工智能#深度学习#机器学习 +1
10、MVP(Multimodality-guided Visual Pre-training)详解:用多模态知识“拯救”MIM 的语义判别力

改造 MIM 的监督目标:从纯视觉 tokenizer(语义弱)切换为 CLIP 视觉特征(语义强)把多模态知识注入视觉预训练:不需要额外标注,用图文对齐训练出的语义空间作为指导同时对齐全局与局部:既学习场景级语义(CLS),也学习 patch 级语义(局部对象与关系线索)

#人工智能#深度学习#机器学习 +1
9、BEiT-3:把图像当作“外语”的通用多模态基础模型

共享 self-attention:学习跨模态对齐与通用交互规律多路专家 FFN:分别处理视觉/语言/视觉-语言的特异性表达结果:同一个预训练骨干可被组织成视觉编码器、语言编码器、融合编码器、双编码器检索器、以及生成式(seq2seq)结构,从而覆盖大量视觉与视觉-语言任务,而无需为每类任务单独设计新的预训练骨干。

#人工智能#机器学习#深度学习 +1
8、BEiT-2 详解:用 VQ-KD 把 MIM 从像素重建升级到语义重建

BEiT-2(BEiT v2)是在 BEiT 的 Masked Image Modeling(MIM)范式上做出的关键升级:它不再让模型去“补像素”,而是让模型去“补语义 token”。其核心创新是:用一个强教师(如 CLIP / DINO)提供的语义特征作为监督信号,训练出一个(离散码本 + 量化器 + 解码器),将每个 patch 映射为紧凑的离散 token,使 MIM 的重构目标从像素级提

#人工智能#深度学习#机器学习 +1
6、SigLIP:用 Pairwise Sigmoid 重新思考 CLIP 的对比学习损失

视觉-语言对比预训练(Vision-Language Contrastive Pretraining, VLP)以 CLIP/ALIGN 为代表:用海量图文对把图像与文本映射到同一嵌入空间,通过“相似则近、无关则远”的学习目标获得强大的零样本迁移能力。然而,传统 CLIP 风格的 softmax 对比损失天然依赖(需要看到 batch 内所有负样本),带来∣B∣×∣B∣、显存与通信开销,并迫使训练

#学习#人工智能#深度学习 +1
6、SigLIP:用 Pairwise Sigmoid 重新思考 CLIP 的对比学习损失

视觉-语言对比预训练(Vision-Language Contrastive Pretraining, VLP)以 CLIP/ALIGN 为代表:用海量图文对把图像与文本映射到同一嵌入空间,通过“相似则近、无关则远”的学习目标获得强大的零样本迁移能力。然而,传统 CLIP 风格的 softmax 对比损失天然依赖(需要看到 batch 内所有负样本),带来∣B∣×∣B∣、显存与通信开销,并迫使训练

#学习#人工智能#深度学习 +1
    共 36 条
  • 1
  • 2
  • 3
  • 4
  • 请选择