Voyager10086 个人主页

@Voyager10086

Voyager10086

2023-03-20 21:24:57 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

纯小白看懂VLN视觉语言导航大模型

视觉语言导航（VLN）模型的任务是从视觉输入（如RGB图像/视频）和语言指令（如“向右转，走到绿色地毯”）预测导航动作（如前进、左转）。作用：将视觉输入（图像/视频）编码为特征向量（称为视觉token），提取场景中的语义信息（如物体、地标）。作用：将语言指令编码为特征向量（语言token），提取指令的语义和逻辑（如“向右转”对应转向动作）。形式：RGB图像（单帧，如R2R数据集）、视频序列、深度图

#pytorch #图像处理 #视觉检测 +4

Qwen微调踩坑记录

推理报警The attention mask is not set and cannot be inferred from input because pad token is same as eos token. As a consequence, you may observe unexpected behavior. Please pass your input's attention_ma

#python

纯小白看懂VLN视觉语言导航大模型

#pytorch #图像处理 #视觉检测 +4

到底了