logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

CVPR 2023 | 港中文联合微软研究院推出基于级联分组注意力模块的全新实时网络架构模型 EfficientViT

本文提出了模型,通过优化内存效率和注意力计算冗余,实现了高速且内存高效的视觉模型,并在实验中展示了它在速度和准确性方面的优越性能。此外,本文代码已开源,同时提供了转onnx等示例,提速非常明显,欢迎大家踊跃尝试!

文章图片
#网络#架构#人工智能
X-Anylabeling: 一款多SOTA深度学习模型集成的新一代自动标注工具

是一款全新的交互式自动标注工具,其基于进行构建和二次开发,在此基础上扩展并支持了许多的模型和功能,并借助和YOLO等主流模型提供强大的 AI 支持。无须任何复杂配置,下载即用,支持自定义模型,极大提升用户标注效率!本文主要为大家介绍一款新颖实用的基于交互式的全自动标注工具——,更多功能和特性可直接下载体验!源码链接:https://github.com/CVHub520/X-AnyLabeling

文章图片
#深度学习#人工智能#机器学习
CVPR 24-UG2 无人机多模态检测与追踪挑战赛正式开启!

参赛者需要根据传感器数据序列给出特定时间戳上的无人机位置数据并提交到赛事系统中,根据分类和预测精度得出最终的得分。比赛主要分为两个阶段 算法开发阶段(Dry-run)和最终验证阶段(Testing)。在算法开发阶段(Dry-run)挑战赛提供一个有标签训练集和一个无标签的开发用数据集,参赛者需要在这一阶段完成开发模型,测试结果提交格式等任务。在最终验证阶段(Testing),挑战赛会发布一个最终数

文章图片
#无人机
具身智能开篇

扯了这么多,那到底啥是机器人具身智能?是不是机器人长成人样的就是具身智能?回答是:否!具身具身,不是人形就表示具身,具身智能不是一定是人形机器人!!!只能说人形机器人是具身智能一个比较好的载体。具身的含义不是身体本身,而是与环境交互以及在环境中做事的整体需求和功能。按照上海交大卢策吾的举例,上图右上角有两只猫,一直猫被绑起来,只能看这个世界;另一只猫可以主动去走。被动的猫是一种旁观的智能,而主动的

文章图片
#人工智能
具身智能之RT-H

例如,如果机器人在拿起一个物体时动作不正确,人类可以输入新的指令,如“向左移动手臂”或“更慢地旋转手腕”,以纠正机器人的动作。RT-H在高层次任务描述(task descriptions)和低层次动作(action)之间引入一个中间层,即语言动作(language motions),这些语言动作是用更细粒度的短语来描述机器人的低级动作,例如“向前移动手臂”或“向右旋转手臂”。RT-H模型不仅可以响

文章图片
#人工智能#数据库#算法
多模态图文训推一体化平台 X-AnyLabeling 3.0 版本正式发布!首次支持远程模型推理服务,并新增 Qwen3-VL 等多款主流模型及诸多功能特性,等您来体验~

X-AnyLabeling 是面向个人与中小团队的一站式多模态AI标注平台,基于纯Python生态,集成训练、推理与标注,架构高内聚低耦合,支持高度定制,致力于高效、灵活的真实场景应用。

文章图片
#深度学习#人工智能#计算机视觉
X-Anylabeling: 一款多SOTA深度学习模型集成的新一代自动标注工具

是一款全新的交互式自动标注工具,其基于进行构建和二次开发,在此基础上扩展并支持了许多的模型和功能,并借助和YOLO等主流模型提供强大的 AI 支持。无须任何复杂配置,下载即用,支持自定义模型,极大提升用户标注效率!本文主要为大家介绍一款新颖实用的基于交互式的全自动标注工具——,更多功能和特性可直接下载体验!源码链接:https://github.com/CVHub520/X-AnyLabeling

文章图片
#深度学习#人工智能#机器学习
大疆招聘 | 2D/3D感知、具身智能、SLAM、机器人算法与嵌入式工程师(HC多多,欢迎加入)

申请邮箱:walter.wang@dji.com(坐标:深圳)邮箱主题:“姓名-社招/校招-岗位名称”(来信请务必附上。

文章图片
#3d#机器人#人工智能 +3
具身智能开篇

扯了这么多,那到底啥是机器人具身智能?是不是机器人长成人样的就是具身智能?回答是:否!具身具身,不是人形就表示具身,具身智能不是一定是人形机器人!!!只能说人形机器人是具身智能一个比较好的载体。具身的含义不是身体本身,而是与环境交互以及在环境中做事的整体需求和功能。按照上海交大卢策吾的举例,上图右上角有两只猫,一直猫被绑起来,只能看这个世界;另一只猫可以主动去走。被动的猫是一种旁观的智能,而主动的

文章图片
#人工智能
具身智能之RT2

做的事情和大致的思路其实和以前的RT-1, VIMA等模型没啥区别,本质上就是一种将预训练的 PaLM-E 等预训练的 VLM 大模型如何加进这些模型中,不过从VLM finetune、action token对齐text token是比较新的点限制:RT-2可以执行更加复杂的指令,这是因为从自然语言到动作能更容易被理解;但是不能泛化到新的行为上,因为网络上获取的数据只能帮助模型学会更多的视觉语义

文章图片
#人工智能#深度学习
    共 52 条
  • 1
  • 2
  • 3
  • 6
  • 请选择