
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
AI处理数据主要是通过数据挖掘和数据分析。一、数据挖掘(Data mining),又译为资料探勘、数据采矿。它是数据库知识发现(Knowledge-Discovery in Databases,简称KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)...
前言SMOKE是一种用于自动驾驶的实时单目 3D 物体检测器。为什么会注意这边文章呢?是因为这两天发布的百度Apollo 7.0的摄像头障碍物感知,也是基于这个模型改进的;于是令我产生了一些兴趣。论文名称:SMOKE: Single-Stage Monocular 3D Object Detection via Keypoint Estimation论文地址:https://arxiv.org/p

DD3D是一种端到端单阶段的单目3D目标检测方法,它在训练时用到了点云数据,监督深度图的生成,共享预测深度的特征提取层;推理时不用点云数据了,只需图像数据和相机内参,即可完成3D框的信息预测。这是预训练和共享权重的思路。

本文综合整理单目3D目标检测的方法模型,包括:基于几何约束的直接回归方法,基于深度信息的方法,基于点云信息的方法。万字长文,慢慢阅读~ 直接回归方法涉及到模型包括:MonoCon、MonoDLE、MonoFlex、CUPNet、SMOKE等。基于深度信息的方法涉及到模型包括:MF3D、MonoGRNet、D4LCN、MonoPSR等。基于点云信息的方法涉及到模型包括:Pseudolidar、DD3

苹果团队提出的FastVLM通过创新的FastViTHD混合编码器解决了高分辨率视觉语言模型(VLM)的效率问题。该模型采用5阶段混合架构,前3阶段使用RepMixer块进行局部特征提取,后2阶段采用自注意力机制捕捉全局依赖,通过渐进式下采样将视觉token减少16倍。相比传统ViT-L/14模型,FastVLM在保持同等性能(38项任务平均66.3分)的同时,模型尺寸缩小2.4倍,推理速度提升6

本文分享 MonoDLE 的模型训练、模型推理、可视化3D检测结果。

RoboBrain2.0是一款先进的机器人具身大脑模型,具备多模态感知、推理和规划能力。该模型提供3B、7B和32B三种版本,支持视觉编码和语言处理。主要功能包括: 图文问答(支持思考模式) 目标检测与定位 轨迹预测与规划 空间位置指向 具身导航任务 安装过程包括创建conda环境、安装依赖库和PyTorch。模型支持中文交互,可输出详细推理过程,并提供可视化结果。代码和论文已开源,适用于机器人复

RoboBrain2.0是一款先进的机器人具身大脑模型,具备多模态感知、推理和规划能力。该模型提供3B、7B和32B三种版本,支持视觉编码和语言处理。主要功能包括: 图文问答(支持思考模式) 目标检测与定位 轨迹预测与规划 空间位置指向 具身导航任务 安装过程包括创建conda环境、安装依赖库和PyTorch。模型支持中文交互,可输出详细推理过程,并提供可视化结果。代码和论文已开源,适用于机器人复

本文分享SMOKE的模型推理,和可视化结果。以kitti数据集为例子,对训练完的模型进行推理,并可视化3D框的结果,画到图像中。

前言在Ubuntu系统,创建一个docker,然后搭建conda深度学习环境,这样可以用conda或pip安装相关的依赖库了。一、创建一个docker为了方便开发,在Docker Hub官方中选择一个合适的condadocker镜像,然后下载到本地。我选择了“docker-anaconda”,地址是:https://hub.docker.com/r/continuumio/anaconda3下载








