logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

打破 3D 感知瓶颈:OVSeg3R 如何推动开集 3D 实例分割应用落地

IDEA 计算机视觉与机器人研究中心 (CVR, Computer Vision and Robotics) 的张磊团队提出了一种名为 OVSeg3R 的开集 3D 实例分割学习范式。该范式基于团队此前发布的最强闭集 3D 实例分割模型 SegDINO3D(参考 https://mp.weixin.qq.com/s/OfWUEE-nOp2lqYDRyctA1w)拓展至开放词表,大幅缩小了长尾类与头

#3d
理论 + 实践:最近大火的 MCP 协议,看这篇文章就够了

本文将从使用者的角度出发,分享实用内容,并以一个示例展示 MCP 的开发过程与实际应用作为结尾。本篇旨在回答三个问题:1)什么是 MCP;2)为什么需要 MCP;3)作为用户,我们如何使用/开发 MCP。

文章图片
#人工智能#自然语言处理#语言模型 +2
定制模板 101:如何在 DINO-X 平台定制“专属小模型”

定制模板是由 DINO-X 开放平台独家提供的一项能力。用户只需提供少量标注样本,即可训练出一个高质量的视觉模板(Embedding),用于模型推理中精准识别特定目标。相比于传统模型仅能识别人、车、动物等常见类别,定制模板可识别用户业务中独有的目标,例如品牌 logo、工业缺陷、异形部件、特殊商品等,特别适用于长尾类别识别、工业定制、非标物体检测等复杂场景,帮助用户高效完成 AI 验证与部署。

文章图片
#人工智能#计算机视觉#AI +2
【DINO Talk】视启未来创始人张磊:打造具有超强物体级理解能力的视觉大模型,为空间智能提供核心支撑

揭秘 DINO-X 的成长历程,探讨 DINO-X 视觉大模型的发展脉络,以及企业在空间智能与具身智能领域的未来布局与深度思考。

文章图片
#计算机视觉#人工智能#机器人 +1
从生成式到具身:英伟达 GTC 大会揭示 AI 的三重进化

英伟达 GTC 大会描绘了一幅 AI 进化的宏伟蓝图——从生成式 AI(Generative AI)向代理式 AI (Agentic AI)再到具身式 AI(Physical AI)的跨越式发展。这不仅是技术路径的演进,更是人类与智能系统互动方式的根本性变革。本文将此探讨,AI 的进化将如何重塑各个行业,并带来生产力的指数级提升,以及目前面对的挑战。

文章图片
#人工智能#语言模型#自然语言处理 +4
探访 DINO 家族 Part 1:始祖目标检测模型 DINO

本文将带读者了解目标检测模型 Grounding DINO 和 DINO-X 的始祖 DINO。该模型不仅在端到端目标检测方面取得了重大突破,在 COCO 基准测试上实现了当时最先进的结果,还显著提升了训练效率,使类 DETR 模型更适用于实际应用。DINO 模型的成功证明了基于 Transformer 的目标检测方法的可行性,还开辟了新的研究方向。随着计算资源的增加和数据规模的扩大,DINO 模

文章图片
#目标检测#人工智能#计算机视觉 +3
最新视觉语言模型 DINO-XSeek,你想知道的都在这里!

DINO-XSeek 是一款基于多模态大语言模型的目标检测模型。该模型能够根据用户输入的自然语言描述,分析对应的处理逻辑,最终推理出待检测目标的属性(如颜色、大小、姿势、穿着等)、方位(如朝向、距离、深度等)或者(物品之间或与环境的)交互关系,从而实现精准的目标定位。本文将从 DINO-XSeek 的原理、技术架构以及应用场景带您全方面了解 DINO-XSeek。

文章图片
#目标跟踪#人工智能#计算机视觉 +4
DINO-X 进化!新一代面向多实例指代任务的视觉语言模型 DINO-XSeek 登场!

IDEA-CVR 发布新一代面向多实例指代任务的视觉语言模型 DINO-XSeek,该模型通过融合DINO-X 统一视觉模型基座与多模态大语言模型,在保持精确感知能力的同时,拥有多模态大语言模型强大的推理和理解能力,突破了传统视觉模型对自然语言理解的浅层限制,实现从词汇到语法,再到指代逻辑的多层次理解。

文章图片
#语言模型#人工智能#自然语言处理 +3
小白一文读懂“面向多实例指代任务的视觉语言模型” DINO-XSeek

生动有趣地讲解“面向多实例指代任务的视觉语言模型” DINO-XSeek

文章图片
#语言模型#人工智能#自然语言处理 +3
    共 26 条
  • 1
  • 2
  • 3
  • 请选择