logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

自监督学习的知识点总结

机器学习中最常见的方法是监督学习。在监督学习中,我们得到一组标记数据(X,Y),即(特征,标签),我们的任务是学习它们之间的关系。但是这种方法并不总是易于处理,因为训练通常需要大量数据,而标记数百万行数据既耗时又昂贵,这就对许多不同任务的训练模型造成了瓶颈。以这种方式训练的模型通常非常擅长手头的任务,但不能很好地推广到相关但是非相同领域内的任务。因为网络只专注于学习 X 的良好表示以生成之间的直接

文章图片
#学习
传统图像增强三大类别:点增强、空域增强、频域增强

图像增强是图像模式识别中非常重要的图像预处理过程。图像增强的目的是通过对图像中的信息进行处理,使得有利于模式识别的信息得到增强,不利于模式识别的信息被抑制,为图像的信息提取及其识别奠定良好的基础。图像增强按实现方法不同可分为点增强、空域增强和频域增强。

文章图片
#机器学习
全新神经网络架构KAN一夜爆火!

与传统的MLP架构截然不同,且能用更少的参数在数学、物理问题上取得更高精度。比如,200个参数的KANs,就能复现DeepMind用30万参数的MLPs发现数学定理研究。不仅准确性更高,并且还发现了新的公式。要知道后者可是登上Nature封面的研究啊~在函数拟合、偏微分方程求解,甚至处理凝聚态物理方面的任务都比MLP效果要好。而在大模型问题的解决上,KAN天然就能规避掉灾难性遗忘问题,并且注入人类

文章图片
#神经网络#人工智能#深度学习
计算机视觉中的数据预处理与模型训练技巧总结

计算机视觉主要问题有图像分类、目标检测和图像分割等。针对图像分类任务,提升准确率的方法路线有两条,一个是模型的修改,另一个是各种数据处理和训练的技巧(tricks图像分类中的各种技巧对于目标检测、图像分割等任务也有很好的作用,因此值得好好总结。本文在精读论文的基础上,总结了图像分类任务的各种tricks如下:WarmupCutoutAdaBoud其他经典的tricks。

文章图片
#深度学习
机器学习、深度学习知识点总结

在这里,每个单独的分类器的bias都是低的,平均之后bias依然低;Boosting是一族可将弱学习器提升为强学习器的算法.Boosting的每一次抽样的样本分布是不一样的,每一次迭代,都是根据上一次迭代的结果,增加被错误分类的样本的权重。卷积层之后经过激励层,1*1的卷积在前一层的学习表示上添加了非线性激励( non-linear activation ),提升网络的表达能力,但是也可以这样说:

文章图片
#机器学习#深度学习
深度学习的泛化能力-论文笔记

本篇博客为阅读谷歌最近出品的82页论文《ON THE GENERALIZATION MYSTERY IN DEEP LEARNING》的小小感悟,有兴趣的可以看看原文:github.com/aialgorithm/Blog。

文章图片
#深度学习#论文阅读#人工智能
DepthDark让单目深度估计在低光环境下也能火眼金睛

本文提出DepthDark模型,用于解决低光环境下单目深度估计的挑战。通过设计低光数据集生成(LLDG)模块和低光参数高效微调(LLPEFT)策略,该模型有效克服了噪声放大和光度不一致问题。LLDG结合光晕模拟和物理噪声模型生成74,000对高质量训练数据;LLPEFT采用光照引导和多尺度特征融合技术,在几乎不增加参数的情况下显著提升性能。实验表明,DepthDark在nuScenes-Night

文章图片
#人工智能#计算机视觉
IROS 2025 | 北理工提出BoRe-Depth:仅8.7M参数,在嵌入式设备实现50.7 FPS高清深度估计

本文提出了一种面向嵌入式系统的自监督单目深度估计方法BoRe-Depth,旨在解决轻量化模型深度估计中边界模糊的问题。该方法采用创新的增强特征自适应融合模块(EFAF)和两阶段训练策略:第一阶段通过视图重建损失和边界对齐损失进行初步训练,第二阶段引入语义信息损失优化边界细节。实验表明,在NYUv2和KITTI等数据集上,BoRe-Depth仅用8.7M参数即达到SOTA性能,特别是在边界质量指标上

文章图片
#深度学习#计算机视觉
全景图单目尺度深度估计基座模型

影石Insta360联合多所高校推出全景深度估计基础模型DAP,通过构建200万张全景图数据集和渐进式三阶段训练方法,有效解决了数据稀缺和泛化难题。该模型采用DINOv3-Large作为骨干网络,结合几何感知优化策略,在多个基准测试中展现出优异的零样本性能。DAP不仅能精准处理真实拍摄的全景图像,对AIGC生成的艺术风格图像也表现出良好适应性,为全景深度估计提供了新的研究思路和实践路径。相关代码和

文章图片
#人工智能#计算机视觉
Nano Banana Pro (Gemini 3 Pro) 是低层视觉全能选手吗?

最近,文生图(Text-to-Image)模型的进化速度让人惊叹,它们在视觉内容创作领域掀起了一场革命。像Nano Banana Pro这样的商业产品(),更是吸引了无数眼球。不过,大家普遍关心的是,这个有着谷歌旗舰血统的强大模型除了能“画画”,能不能也作为一种通用的解决方案,去解决那些传统的、更基础的计算机视觉问题,比如图像去噪、超分辨率等?今天我们要解读的这篇技术报告,就深入探讨了这个关键问题

文章图片
#计算机视觉#人工智能
    共 24 条
  • 1
  • 2
  • 3
  • 请选择