logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

从DFL到无NMS推理:一文拆解YOLO26背后的工程取舍与数学原理

因为矩阵是 3x3,但我们只用了2条线,线数(2)< 维度(3),说明目前的 0 还不够多,还没法达成完美的一对一分配。MuSGD 利用这一迭代,在几乎不增加额外显存负担的情况下,获取了包含平滑曲率信息的正交化梯度 ,使得 YOLO26 能够以更少的训练轮数(Epochs)稳定收敛。在模型优化方面,YOLO26 提出了 MuSGD 优化器,它结合了传统 SGD(随机梯度下降)的泛化能力,并吸收了常

文章图片
#机器学习#人工智能
【Kimi最新技术报告解读】Attention Residual:用注意力机制重构Transformer残差连接

在现代大语言模型(LLM)的架构中,带有 PreNorm 的标准残差连接(Residual Connections)几乎是不可或缺的基石。然而,这一习以为常的基础结构是否存在底层的数学缺陷?2026年3月16日,Kimi 团队发布了技术报告《Attention Residuals》,直接向这一经典结构提出了挑战。该研究指出,传统的残差连接会导致深层网络出现严重的“幅值膨胀”与“信息稀释”问题。为此

文章图片
#重构#transformer#深度学习
OpenManus介绍及本地部署体验

OpenManus,由 MetaGPT 团队精心打造的开源项目,于2025年3月发布。它致力于模仿并改进 Manus 这一封闭式商业 AI Agent 的核心功能,为用户提供无需邀请码、可本地化部署的智能体解决方案。换句话说,OpenManus 就像一位全能的数字助手,能够在你的本地设备上运行,随时听候差遣,完成各种复杂任务。它的出现,打破了技术领域的高墙,让每一位开发者都有机会站在同一起跑线上,

文章图片
#php#开发语言
用扩散模型“一次生成图像和标注”:CoSimGen 如何实现可控的图像-Mask 同步生成

本文介绍一篇生成式视觉/医学图像方向有意思的论文:。它的核心问题不是单纯“生成一张图”,而是。这类问题在医学影像、手术场景、遥感、自动驾驶等领域很重要,因为这些领域最昂贵的往往不是原始图像,而是高质量、专家标注的像素级 mask。论文明确指出,现有生成模型多数只生成图像或只生成 mask,缺少对“成对图像-mask”的统一生成能力,也缺少灵活的文本/类别条件控制能力。

文章图片
#计算机视觉#人工智能#深度学习
【BIBM2025】 MedMamba-YOLO:医疗目标检测,当 YOLO 遇见轻量级 Mamba

通过阅读上述代码实现,我们可以发现 MedMamba-YOLO 的改进并非盲目的模块堆砌。CPIB 的通道交叉保证了微弱特征不丢失,MSF-FPN 与 SAVSSB 通过跨尺度连接与“CNN + Mamba”的互补机制构建了强大的时空感知能力,而 HMDA 进一步实现了对尺度变化的自适应兼容。理解这套设计逻辑,对改进其他工业视觉模型同样具有极高的参考价值。

文章图片
#目标检测#深度学习
SBLDM + TumorRefiner:用条件潜空间扩散生成高保真多模态 MRI 和多标签肿瘤掩码

在算力与数据双重受限的情况下,如何通过先验知识(医学影像的切片连续性)与任务分解(全局结构生成+局部细节超分)来榨干扩散模型的潜力。这不仅对医疗影像领域的同行极具启发性,其源码中的设计模式(特征聚合、局部裁剪细化流)也可广泛应用于卫星遥感、材料切片等其他含有三维空间结构但难以获得海量3D数据的场景中。

文章图片
#人工智能
【AAAI2026】GuideGen:用文本引导生成全躯干 CT 图像与解剖掩码的前沿方法解析

GuideGen 通过的组合,实现了全躯干 CT 与掩码的渐进式生成。数学原理、潜空间建模、mask-prompt 对齐和可学习下采样等技术保证了生成数据的结构与语义一致性,为医学影像 AI 数据增强提供了可行的解决方案。

文章图片
#人工智能
YOLOv1-v26实时目标检测架构的演进思想与技术

本文系统地梳理了从2016年诞生到2026年预见性的十年演进历程。文章核心聚焦于从传统的“分治法”向的哲学转变,详细解析了各代版本如何通过优化主干网络、引入及后续转向,在检测精度与推理速度之间寻找动态平衡。技术演进的主线涵盖了、梯度信息保护以及最终消除与极致推理效率发展的未来工业趋势。

文章图片
#目标检测#架构
【CVPR2024】用Diffusion“造”遥感分割数据:SatSynth论文解读

SatSynth最重要的贡献,不是提出了一个特别复杂的网络结构,而是提出了一种清晰的数据生成范式:用diffusion model学习图像和语义标签的联合分布,生成新的image-mask pairs,再作为数据增强用于下游semantic segmentation。它证明了三件事:第一,diffusion model可以不只生成图像,也可以生成与图像匹配的语义mask。第二,合成image-ma

文章图片
#人工智能#计算机视觉#深度学习
【CVPR2024】用Diffusion“造”遥感分割数据:SatSynth论文解读

SatSynth最重要的贡献,不是提出了一个特别复杂的网络结构,而是提出了一种清晰的数据生成范式:用diffusion model学习图像和语义标签的联合分布,生成新的image-mask pairs,再作为数据增强用于下游semantic segmentation。它证明了三件事:第一,diffusion model可以不只生成图像,也可以生成与图像匹配的语义mask。第二,合成image-ma

文章图片
#人工智能#计算机视觉#深度学习
    共 71 条
  • 1
  • 2
  • 3
  • 8
  • 请选择