logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

RCM:特征匹配

本文提出了一种新型特征匹配方法RCM(Raising the Ceiling of Matching),通过动态视图切换、无冲突粗匹配和半稀疏范式三大创新点,显著提升了特征匹配的理论上限和实际性能。针对小尺度图像匹配点稀缺、密集方法匹配冲突和稀疏方法依赖关键点可重复性三大挑战,RCM分别提出了解决方案:动态切换源/目标图像以增加可匹配点、采用多对一匹配策略避免冲突、结合半稀疏范式与由粗到细架构。实

#计算机视觉#人工智能#深度学习
Top-k 和 Top-p 有什么区别

Top-k和Top-p是文本生成中的两种采样方法。Top-k固定选择概率最高的k个词随机采样,确保连贯性但可能不够灵活;Top-p则动态选择累计概率超过p的词,适配模型当前置信度,生成更自然多样。Top-k适合需要稳定输出的场景,Top-p追求创造性和流畅度。实际应用中,Top-p通常更优,可配合温度参数调节多样性。两种方法都旨在平衡生成质量与多样性,是控制大模型文本输出的核心技术。理解其原理和区

#人工智能#深度学习
DINOv3上手指南:改变视觉模型使用方式,一个模型搞定分割、检测、深度估计

DINOv3是Meta推出的突破性自监督视觉模型,其核心优势在于冻结主干网络仅需训练轻量级任务头即可实现密集预测任务SOTA。该模型在16.89亿图像上预训练,支持跨领域零微调应用,通过改进训练目标(加入iBOT掩码建模、Gramanchoring等)显著提升特征质量。提供ViT(21M-67亿参数)和ConvNeXt系列模型,支持遥感专用版本。实测显示冻结主干下,ViT-7B在ADE20K分割任

#人工智能#计算机视觉
清华开源 VLA 数据集:面向自动驾驶极端场景,安全提升35%

《ImpromptuVLA:面向非结构化道路的开放权重与数据驱动的视觉-语言-动作模型》提出了一套专为解决自动驾驶在非结构化场景(如乡村道路、施工区域等)数据匮乏问题的大规模数据集。该数据集从8个公开来源精选8万条视频片段,涵盖边界模糊道路、临时交通规则变动等四大挑战场景,采用视觉-语言模型进行多任务标注并经人工核验。实验表明,基于该数据集训练的模型在NeuroNCAP测试中碰撞率降低7%(72.

#自动驾驶#人工智能#机器学习
Grounding DINO

图1。(a) 封闭集物体检测需要模型检测预定义类别的对象。(b) 以前的工作将模型零样本传输到新类别以实现模型泛化。我们建议将指称表达式理解(REC)作为对具有属性的新对象的模型泛化的另一种评估。(c) 我们通过组合Grounding DINO和Stable Diffusion[42]呈现图像编辑应用程序。以彩色查看效果最佳。本文提出了一种开放集物体检测器,称为基于定位的DINO,通过将基于Tra

文章图片
#自动驾驶#深度学习
VSCode 插件 Python Image Preview 使用笔记

Python Image Preview支持numpy pillow opencv-python matplotlib seaborn plotly imageio skimage tensorflow pytorch等library的可显示为图像的变量。这里以matplotlib官方的一个热力图例程为例,来展示如何使用Python Image Preview插件在远程调试时查看绘制的实验图像。

文章图片
#vscode#ide
具身智能中 VLA 主流方案全解析:技术总结与未来展望

本文详细总结了具身智能中 VLA 的主流方案,包括基于经典 Transformer 结构、预训练 LLM/VLM、扩散模型、LLM + 扩散模型、视频生成 + 逆运动学以及不同类型的端到端方案。通过对各方案的开源项目和核心思想的介绍,对比了它们在模型架构、动作类型、训练目标等方面的特点,得出了相应的结论共识。同时,探讨了 VLA 面临的数据稀缺、运动规划、实时响应、多模态融合、泛化能力、长时域任务

#人工智能#自动驾驶
双目深度估计大模型 FoundationStereo

本文介绍了 FoundationStereo,一种用于立体深度估计的基础模型,旨在实现强大的零样本泛化能力。通过构建大规模(100 万立体图像对)合成训练数据集,结合自动自筛选流程去除模糊样本,并设计了网络架构组件(如侧调谐特征主干和远程上下文推理)来增强可扩展性和准确性。这些创新显著提升了模型在不同领域的鲁棒性和精度,为零样本立体深度估计设立了新标准。相关论文 FoundationStereo:

文章图片
#计算机视觉#人工智能
分布式训练

分布式训练的动机很简答:单节点算力和内存不足,因此不得不做分布式训练。训练机器学习模型需要大量内存。假设一个大型神经网络模型具有 1000 亿的参数(LLM 时代有不少比这个参数量更大的模型),每个参数都由一个 32 位浮点数(4 个字节)表达,存储模型参数就需要 400GB 的内存。在实际中,我们需要更多内存来存储激活值和梯度。假设激活值和梯度也用 32 位浮点数表达,那么其各自至少需要 400

#分布式#人工智能#深度学习
自动驾驶系统系统时间同步方案设计

下一代自动驾驶系统需要采用多激光雷达、多毫米波雷达、多摄像头等各类传感器,传感器从采集数据到处理到发送到域控制器内部,存在延时,且延时的时长不稳定。为了提高自动驾驶的传感器融合、决策规划和融合定位等性能,自动驾驶高级域控制器HPC与其关联的传感器均需要做时间同步,实际过程就是需要定义清楚传感器输入数据的时间戳信息(包括打时间戳的时刻及精度要求),同时也需要定义整体时间同步方案和同步精度要求。...

文章图片
#自动驾驶#人工智能#机器学习
    共 222 条
  • 1
  • 2
  • 3
  • 23
  • 请选择