
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
维度高分辨率策略固定1024×10241024×1024+ 混合编码器(语义+细节)动态分块(tiles + 全局缩略图),自适应宽高比与分辨率视觉编码器SigLIP + SAM-B(混合)SigLIP-SO400M-384(多块编码) + token 压缩 + 布局标记结构提示主要靠融合后的序列显式建模二维布局边界语言模型DeepSeekMoE(多规模)+ MLA(KV 压缩)主要解决痛点在 t
强化学习(Reinforcement Learning, RL)是一种机器学习方法,它通过来学习如何采取最优行为,从而最大化长期累积奖励。与有监督学习不同,强化学习不仅关注预测,还强调决策与反馈循环。
前面的小节详细介绍了大模型SFT的数据部分,包括合成、过滤、多样性等等,数据极大的影响着大模型SFT的效果。介绍完数据从这一节开始具体介绍大模型SFT的过程,包括参数设置、训练策略、训练技巧、效果评估等等。
数据形式不能让模型轻易找到规律,关键信息在 prompt 中的位置分布必须足够随机。这样可避免模型在训练中出现Bias,而是能完整理解 prompt 的全貌。这对类型的任务尤为重要。数据多样性应当从用途、形式、语义三个维度综合设计。用途多样性确保模型在不同任务场景下都能胜任。形式多样性防止模型依赖固定模式,从而提升泛化能力。语义多样性保证模型知识覆盖广度和表达灵活性。
在大型语言模型(LLM)的训练中,是模型能力突破的关键瓶颈。现实世界的数据往往存在分布不均、覆盖不全、标注成本高等问题。数据合成技术通过,成为解决这一难题的核心方案。训练样本被构建为< Prompt , Answer >
把 Kimi-VL 的训练路线压缩成一句话:先用混合目标把视觉底座“练到能看清与能对齐”,再用联合预训练把多模态与语言能力“拧成一股绳”,再用冷却阶段把能力结构“精炼与去噪”,最后用长上下文激活与后训练把模型推到“可用、可控、可长序列推理”的状态。高分辨率真实场景 vs 训练吞吐与工程复杂度:MoonViT 原生分辨率 + packing多模态能力提升 vs 语言能力退化:联合预训练中先语言后多模
维度高分辨率策略固定1024×10241024×1024+ 混合编码器(语义+细节)动态分块(tiles + 全局缩略图),自适应宽高比与分辨率视觉编码器SigLIP + SAM-B(混合)SigLIP-SO400M-384(多块编码) + token 压缩 + 布局标记结构提示主要靠融合后的序列显式建模二维布局边界语言模型DeepSeekMoE(多规模)+ MLA(KV 压缩)主要解决痛点在 t
LLaVA(Large Language and Vision Assistant)是一类开源视觉语言助手模型,核心贡献是把推广到:给定一张图片和自然语言指令,模型能够像聊天助手一样进行回答、描述,并在一定程度上完成视觉推理与基于图像的复杂问答。
将图像分割为NNN个 patch(例如14×1414×14的 patch 网格),用 ViT 进行编码。引入掩码集合MM表示被遮蔽的 patch 索引集合,可见 patch 索引集合为VVM∪V12NM∩V∅M∪V12NM∩V∅EVA 使用 block-wise masking(块状遮蔽),常用遮蔽比例约为4040\%40%,使得模型必须依赖全局上下文推断缺失部分。不需要语义 token 化不需要
改造 MIM 的监督目标:从纯视觉 tokenizer(语义弱)切换为 CLIP 视觉特征(语义强)把多模态知识注入视觉预训练:不需要额外标注,用图文对齐训练出的语义空间作为指导同时对齐全局与局部:既学习场景级语义(CLS),也学习 patch 级语义(局部对象与关系线索)







