logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【CVPR26-俞思悦-西交利物浦大学】TALENT:面向指代表达图像分割的目标感知高效微调方法

文章:TALENT: Target-aware Efficient Tuning for Referring Image Segmentation代码:https://github.com/Kimsure/TALENT单位:西交利物浦大学、利物浦大学、中国石油大学(华东)、北京科技大学、北京交通大学RIS需要建立文本描述 ↔ 视觉区域的一对一精确匹配,对类别、属性、空间关系的细粒度对齐要求极高,是

【ICCV25-汪烈军-新疆大学】相似性记忆先验是医学图像分割的关键

新疆大学团队提出的Sim-MPNet网络,将灵长类视觉系统的“祖母细胞”机制与医学图像分割结合,通过构建动态的相似性记忆先验,让模型实现了医学目标类别特征的主动提取与记忆,在四大公开数据集上刷新SOTA,为医学图像分割提供了全新的生物启发式研究范式,也为后续结合先验知识的医学计算机视觉研究奠定了基础。另一个基于MaxViT构建,负责强化全局上下文学习。,从特征分布和空间位置两个维度,精细挖掘医学图

【arXiv26-Intellindust AI Lab】EdgeCrafter:面向密集预测中轻量级视觉Transformer的任务特定蒸馏与边缘友好设计

另一方面,现有轻量级ViT的设计多为通用型,未针对密集预测的逐像素分析特性做优化,且传统的模型蒸馏技术缺乏任务针对性,大模型的“能力”无法有效传递给小模型,导致轻量级ViT在图像分割、目标检测等密集预测任务中精度表现不佳,难以满足实际应用需求。:区别于传统泛化的模型蒸馏,该技术专为视觉密集预测任务定制,让训练成熟的大尺寸高精度ViT模型,把针对逐像素分析、目标特征提取、区域分割的“专属本领”精准传

#人工智能#transformer#深度学习
【CVPR26-雷涛-陕西科技大学陕西省人工智能联合实验室】SPEGC:基于语义提示增强图聚类的医学图像分割持续测试时自适应

在五轮长期持续适配测试中,SPEGC实现了83.10%的平均DSC,为所有方法最优,同时仅出现1.27%的性能衰减,有效缓解了错误累积和灾难性遗忘,远优于梯度对齐、熵最小化等方法。,前者提取跨医院、跨设备的通用语义知识,后者捕捉特定数据的专属特征,通过注意力和反向注意力机制,将两类全局信息注入局部特征,有效缓解域偏移下的噪声干扰,让特征更稳定、更具代表性。:消融实验证明,移除语义提示或图聚类模块后

#人工智能#科技#聚类 +2
【环境配置】macOS的Xcode中使用C++万能头文件bits/stdc++.h

启动终端cd /Applications/Xcode.app/Contents/Developer/Toolchains/XcodeDefault.xctoolchain/usr/include/c++/v1sudo mkdir bitssudo touch stdc++.hsudo vim stdc++.h编写stdc++.h// C++ includes used for precompili

【炼丹配置】vscode+docker 进行深度学习炼丹

前置条件vscodedocker以上默认大家已经安装Docker SSH配置拉取镜像后,执行下面的命令docker run -it -p 8023:22 --ipc=host --name="darknet" -v /home/wxd/yingshe/:/home/darknet joinaero/ubuntu18.04-cuda10.2:opencv4.4.0-darknet /bin/bash

【ICLR26-尹义龙-山东大学】DVLA-RL:基于强化学习选通机制的双层次视觉-语言对齐用于少样本学习

在miniImageNet、tieredImageNet、CIFAR-FS数据集上,1-shot和5-shot设置下均取得最优或次优性能,其中miniImageNet的1-shot准确率达81.69%、5-shot达88.25%,CIFAR-FS的1-shot准确率达87.18%、5-shot达90.59%,超越强基线SemFew 0.6%-2.8%。此外,消融实验证实,DSC的双级语义和Top-

#学习#人工智能
【ICLR26-Oral Paper-字节跳动】推理即表征:重新思考图像质量评估中的视觉强化学习

文章:Reasoning as Representation: Rethinking Visual Reinforcement Learning in Image Quality Assessment代码:暂无图像质量评估的核心需求,一是泛化能力,能跨数据集、跨场景准确评判不同类型的图像质量;二是部署效率,能适配手机、实时检测等对速度和内存有要求的场景。随着多模态大语言模型的发展,以Q-Insig

#人工智能#深度学习#机器学习 +2
【ICLR26-鲁继文团队-清华大学】Astra:具有自回归去噪功能的通用交互式世界模型

定量指标全面领先:在指令遵循度、主体/背景一致性、运动流畅度等6项核心指标上,显著超越Wan-2.1、MatrixGame、YUME等SOTA模型,旋转误差低至1.23、平移误差4.86,指令遵循度达0.669。ASTRA通过自回归去噪框架+三大创新设计,打造出兼具高保真、强交互、长时一致的通用世界模型,为自动驾驶、机器人操作等真实场景的模拟与探索提供了高效解决方案,同时也为轻量化实时世界模型的研

#回归#数据挖掘#人工智能 +2
【中科院-张启超组-AAAI26】WorldRFT: 用于自动驾驶的带强化微调的潜在世界模型规划

让规划“先抓大局、再抠细节” 不要求AI“一步到位”规划路线,而是拆成三个并行任务:先确定“大概能去的目标区域”(而非固定点,包容不确定性),再画“空间路径”(比如走中间车道),最后补“时间轨迹”(每个时间点该到哪)。其中“车道合规性”得分96.8,是所有方案中最高的,说明模型能精准保持在车道内行驶,安全性拉满。: 相比基线模型,碰撞率大幅降低83%(从0.30%降至0.05%),路线偏差减少21

#自动驾驶#人工智能#机器学习
    共 70 条
  • 1
  • 2
  • 3
  • 7
  • 请选择