logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

TPAMI 2025 | 大模型导航新突破!NavCoT用三步推理链实现视觉语言导航性能跃升

上图展示了NavCoT的完整工作流程:首先通过视觉到文本系统将环境图像转换为文字描述,然后LLM基于指令、历史轨迹和当前观察,依次完成未来想象、视觉信息过滤和行动预测三个步骤,形成可解释的推理链。在R2R数据集上,基于LLaMA 2的NavCoT通过简单微调,在成功率(SR)和路径长度加权成功率(SPL)上比基于GPT-4的方法提升约7个百分点,同时单步推理时间从9.8秒缩短至0.5秒。实验表明,

#人工智能#机器学习#深度学习
只需6G显存,就能本地跑的AI视频算法,开源了!

FramePack 的出现非常重要,不仅是对技术本身的突破,而是在大幅度降低本地 AI 视频创作硬件需求的情况下,让 AI 视频生成技术变得更加更加容易上手玩,让更多人可以享受到 AI 视频创作的乐趣。而现在,使用新发布的 FramePack,只需要一个带有 6GB GPU 内存的 RTX 3060 笔记本,就可以在本地流畅地生成。实验发现第三种采样方法可以将用户的输入视为高质量的第一帧,并不断优

#人工智能
用Qwen3+MCPs实现AI自动发布小红书笔记!支持图文和视频

在Cherry Studio MCP服务器里配置文生图MCP-server,魔搭上目前有几个支持生图的MCP,比如ModelScope-Image-Generation-MCP和MiniMax-MCP,两者都在魔搭的云端资源上部署,可以支持SSE的方式调用。魔搭自动发布小红书MCP,是魔搭开发者小伙伴实现的小红书笔记自动发布器,可以通过这个MCP自动完成小红书标题、内容和图片的发布。而就在今天,自

#人工智能
英伟达 GPU显卡计算能力查询表

近期小白因为项目需要开始在电脑上配置深度学习环境。经过一些列的苦难折磨之后,电脑环境终于配置好了,但是却被我的显卡劝退了。我是用的是算力2.1的显卡,环境要求算力3以上的显卡,无奈最后只能使用实验室的服务器了。下面列出各种型号的英伟达 GPU与对应的算力,希望能够帮助各位读者。在配置环境之前先看一下自己显卡的算力,以免像小白一样耽误时间。提示:利用浏览器的搜索功能(Ctrl+F),查询自身GPU的

没有穿越,DeepSeek-V3又登顶了!杭州黑马撼动硅谷AI霸主,抹去1万亿市值神话

在AI大模型竞技场LMSYS上,发布不到半个月的DeepSeek-V3-0324,已经超过了曾经的「当红炸子鸡」DeepSeek-R1!腾讯旗下拥有超10亿用户的微信平台,将DeepSeek的模型接入后,用户量呈爆发式增长,迅速成为中国AI领域的明星企业。作为异军突起的现象级产品,DeepSeek的增长速度除了创造AI产品的增长奇迹,更是重新定义了全球的AI竞赛格局。奥特曼也表达了自己的焦虑,并考

#人工智能
NeurIPS 2025 爆仓!AI顶会反噬整个学术圈!「不发表就会死」。。。

从投稿到发表就长达6-7个月,而AI领域的技术每7个月就更新一轮,这意味着——论文刚发出来,SOTA就已更新换代,导致很多成果已经过时。因此,学生、独立研究者、边缘学者可能被「挡在门外」,自然交流、跨领域合作机会被压缩,这样就使得学术社群的包容性和开放性也严重受限。尤其是在2023-2024年,由于LLM的爆炸式进展,AI研究者的年均发文数已经超过了4.5篇,并且还有继续飙升的趋势。这样做的优势就

#人工智能
太香了!让Qwen3-0.6B拥有视觉,保姆级教程来了!

以Qwen2.5-VL为例,其3B、7B、72B模型大小指的只是LLM部分,并没有包含Vision模块,实际上3B模型的参数量接近4B,视觉模块大概0.4B左右,三个不同大小的VLM使用的是统一的视觉模型。识别错误的原因实际上是由于训练步数过少导致的。SmolVLM2-256M版本用的是Google的SigLip模型,一个基于ViT的视觉模型,选用的是最小的SigLip-93M的版本,HF论文里没

DEIMv2登场:当实时DETR遇上DINOv3,YOLO系列迎来最强对手

DEIMv2的成功,标志着基于DETR的实时检测器在与YOLO的竞争中,已经从“追赶者”变成了“领跑者”。它不仅证明了视觉基础模型(如DINOv3)在实时检测任务中的巨大潜力,更通过巧妙的适配器设计(STA)和系统性的多尺度优化,为如何在资源受限的条件下有效利用这些大模型提供了宝贵的经验。CV君认为,这个STA模块是本文最大的亮点,它用一种“参数免费”的方式(双线性插值)和极小的代价(轻量CNN)

CVPR 2025最佳论文揭晓!3D视觉研究最被看好?

:实验采用了新收集的数据集,并通过在野外问答数据和创新的2D指向数据上的微调,证明了72B Molmo模型在开放权重和数据模型类别中的领先性能,并与GPT-4o、Claude 3.5和Gemini 1.5等私有系统在学术基准和人类评估中进行了比较。】:PanAf-FGBG数据集包含20小时野生黑猩猩行为视频,共350个独立相机位置,实验使用该数据集,评估了在分布内和分布外条件下的模型性能,并提出了

#3d
ICLR 2026惊现SAM 3,分割一切的下一步:让模型理解「概念」

同时,它在可提示概念分割方面(右图)也取得了进展,用户可以通过一个简短的名词短语、图像范例或两者的组合,来指定一个视觉概念并分割出其所有实例。与 SAM 2 相比,SAM 3 在可提示视觉分割(Promptable Visual Segmentation,PVS)上表现更优,并为可提示概念分割(Promptable Concept Segmentation,PCS)设定了新的标准。例如,在 LVI

    共 1778 条
  • 1
  • 2
  • 3
  • 178
  • 请选择