logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

VLM视觉语言大模型在智能驾驶中的应用

即带条件的目标检测,用语言指示模型识别图像中特定目标。和Object Referring相比,Object Referring Tracking会根据自然语言描述在连续帧中对目标进行跟踪。开放式3D目标检测,利用VLM的zero-shot能力检测场景中在白名单之外的目标类型。交通场景视觉问答,这需要vlm的高维场景理解能力。自动驾驶领域的问答可以划分为感知、规划、空间推理、时序推理、因果逻辑推理。

文章图片
#目标跟踪#人工智能#计算机视觉
到底了