简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
VLM视觉语言大模型在智能驾驶中的应用
即带条件的目标检测,用语言指示模型识别图像中特定目标。和Object Referring相比,Object Referring Tracking会根据自然语言描述在连续帧中对目标进行跟踪。开放式3D目标检测,利用VLM的zero-shot能力检测场景中在白名单之外的目标类型。交通场景视觉问答,这需要vlm的高维场景理解能力。自动驾驶领域的问答可以划分为感知、规划、空间推理、时序推理、因果逻辑推理。
到底了