logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

轻量级超分的双频域协同:深入源码解析 DMNet 架构设计

在边缘计算设备(如手机、无人机)上部署图像超分辨率(SR)模型时,算法工程师常常面临一个权衡:如何在极其有限的计算资源(低参数量、低 FLOPs)下,尽可能恢复出高保真的图像细节?现有的轻量级超分网络大多局限于空间域(Spatial Domain)进行操作,这天然限制了模型的感受野,导致难以捕捉全局结构。为了打破这一限制,研究者开始引入频域(如傅里叶域或小波域)信息。。本文将结合论文作者开源的源码

文章图片
#人工智能
【IEEE TGRS (2026)】WESSP-Mamba:基于小波先验注入的 Mamba 图像超分网络深度解析

在高光谱图像(Hyperspectral Image, HSI)的处理任务中,超分辨率重建(HSI-SR)是提升遥感图像空间分辨率的重要技术。近年来,基于状态空间模型(如 Mamba)的架构因其线性的计算复杂度,在序列建模中展现出显著优势。然而,将 Mamba 应用于高光谱图像超分时,网络在特征提取过程中容易出现空间-光谱细节丢失的问题。近期,发表于遥感领域顶级期刊。

文章图片
#人工智能
【Nature 2025】**LCTfound** :肺部 CT 视觉基础模型

本文发表在Nature Communications 2025,设计一个名为 LCTfound 的肺部 CT 视觉基础模型,它通过大规模的自监督学习,旨在成为肺部影像诊断与处理的通用智能平台。作者主要来自清华大学、复旦大学、广州医科大学第一附属医院等单位,背靠国家支持,资源和团队都比较豪华,训练集直接来自五个医院收集,验证集才使用开源数据集,算力直接上天河二号超算平台,文章撰写和配图都很漂亮,这不

文章图片
#人工智能
【IEEE TNNLS 2025】赋予大模型“跨院行医”的能力:基于全局与局部提示的医学图像泛化框架 (GLP) 解析

在医学图像分割的临床落地中,一个长期存在的痛点是**“领域偏移 (Domain Shift)”**。一个在A医院(源域)表现完美的深度学习模型,当部署到使用不同成像设备、不同扫描参数的B医院(未知目标域)时,往往会遭遇性能的断崖式下跌。如图1所示,同样的糖尿病视网膜病变影像由于不同的拍摄设备展示出来的效果完全不同,虽然从分割mask的结果看,眼球结构类似。近年来,大视觉模型(PVM,如 Visio

文章图片
#人工智能
【TMI2025】赋予AI医生“解耦思维”:基于概率属性学习(PAL)的皮肤病变分割框架拆解

在医学图像分割领域,近年来基于CNN和Vision Transformer(ViT)的模型层出不穷。然而,在面对皮肤病变(如黑色素瘤)时,这些模型往往面临着边界模糊、毛发遮挡、病灶颜色形态变化剧烈等严峻挑战。下图中(a) 是皮肤病变分割中的挑战性案例:第一行是颜色、形状和尺寸变化的挑战,第二行是模糊的边界,第三行是毛发遮挡,第四行是噪声干扰。真实的皮肤科医生是如何克服这些干扰的?

文章图片
#人工智能#学习
打破“像素级”扫描瓶颈:聚类驱动的4K图像恢复新范式 (解读 Scan Clusters, Not Pixels)

在图像恢复(Image Restoration)领域,如何在获得全局感受野的同时保持计算的高效性,始终是一个核心难题。从早期的卷积神经网络(CNN)到近年的视觉Transformer(ViT),算力与精度的博弈从未停止。最近,状态空间模型(State Space Models, SSMs,如Mamba)凭借其线性的计算复杂度(ON)备受瞩目。然而,面对超高清(Ultra-High-Definiti

文章图片
#聚类#数据挖掘#机器学习
【npj Digital Medicine2026】CFG-MambaNet在医疗图像分割中的频域与多尺度创新

在医疗图像分割领域,研究人员长期面临着一个被戏称为“不可能三角”的挑战:如何在一个模型中同时实现高效的全局上下文建模、高分辨率下的计算效率,以及对病灶边界的精准勾画。传统的卷积神经网络(CNN)擅长捕捉局部边界细节,但受限于感受野,难以进行全局建模;而Transformer虽然具备完美的全局自注意力机制,但其计算复杂度随图像分辨率呈二次方增长,难以高效处理高分辨率的医疗图像。

文章图片
#人工智能
无需配对图文?解析MIT新视角:利用无配对多模态数据增强单模态表征

因此这篇论文在理论上画饼,如果要真刀真枪地做 ©,模型不能有分类头。它必须是一个底层的生成式大模型(比如一个共享的 Transformer Backbone),同时跑图像的“掩码重建(MAE)”和文本的“预测下一个词(Causal LM)”。工程实现上如果没有任何配对信号,也没有标签牵线搭桥,你把一堆毫不相干的纯图像像素和纯文本单词扔给同一个网络,网络极大概率会发生**“模态隔离(Modality

文章图片
#人工智能
【TMI 2025】破解医学视觉基础模型的“高频盲区”——Frepa预训练框架解码

近年来,随着掩码自编码器(MAE)和对比学习(CLIP)的兴起,视觉基础模型在自然图像领域取得了令人瞩目的成就。然而,当这些模型被直接迁移到医学图像分析时,往往遭遇水土不服。发布在医学图像分析顶刊IEEE Transactions on Medical Imaging的一篇题为《Improving Representation of High-frequency Components for Me

文章图片
#人工智能
从DFL到无NMS推理:一文拆解YOLO26背后的工程取舍与数学原理

因为矩阵是 3x3,但我们只用了2条线,线数(2)< 维度(3),说明目前的 0 还不够多,还没法达成完美的一对一分配。MuSGD 利用这一迭代,在几乎不增加额外显存负担的情况下,获取了包含平滑曲率信息的正交化梯度 ,使得 YOLO26 能够以更少的训练轮数(Epochs)稳定收敛。在模型优化方面,YOLO26 提出了 MuSGD 优化器,它结合了传统 SGD(随机梯度下降)的泛化能力,并吸收了常

文章图片
#机器学习#人工智能
    共 54 条
  • 1
  • 2
  • 3
  • 6
  • 请选择