logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大模型学习笔记---VLA模型

在简单拾取放置任务中接近100%成功率,但在复杂接触任务(如洗碗机卸载)中成功率较低(5-10%)。:通用性和长时程规划能力使其在机器人领域具有前瞻性,适合需要泛化能力的场景。:在机器人演示任务中与大模型RT-2(55B)性能相当,参数量仅93M。:在机器人任务中表现出色,尤其是在需要物理推理的场景(如物体交互)。:开源且易于微调,适合学术研究和中小型机器人应用,数据效率高。:在复杂机器人任务中优

文章图片
#学习
大模型学习笔记---VLA模型

在简单拾取放置任务中接近100%成功率,但在复杂接触任务(如洗碗机卸载)中成功率较低(5-10%)。:通用性和长时程规划能力使其在机器人领域具有前瞻性,适合需要泛化能力的场景。:在机器人演示任务中与大模型RT-2(55B)性能相当,参数量仅93M。:在机器人任务中表现出色,尤其是在需要物理推理的场景(如物体交互)。:开源且易于微调,适合学术研究和中小型机器人应用,数据效率高。:在复杂机器人任务中优

文章图片
#学习
大模型学习笔记---VLM模型

在MMMU、MMBench等基准测试中表现出色,7B版本在图像分类任务中接近GPT-4o(准确率0.93 vs 0.94)。在文档任务和VQA中表现稳健,90B版本接近闭源模型水平,但在图像分类任务中稍逊于Qwen2.5-VL(准确率0.83)。开源且性能强劲,72B版本在多模态任务中几乎达到闭源模型水平,7B版本适合轻量部署。支持29种语言,具备动态分辨率处理,适合多语言OCR、视频分析和复杂文

文章图片
#学习
大模型学习笔记---VLM模型

在MMMU、MMBench等基准测试中表现出色,7B版本在图像分类任务中接近GPT-4o(准确率0.93 vs 0.94)。在文档任务和VQA中表现稳健,90B版本接近闭源模型水平,但在图像分类任务中稍逊于Qwen2.5-VL(准确率0.83)。开源且性能强劲,72B版本在多模态任务中几乎达到闭源模型水平,7B版本适合轻量部署。支持29种语言,具备动态分辨率处理,适合多语言OCR、视频分析和复杂文

文章图片
#学习
到底了