
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
图像和视频上色是图像修复中最为常见的问题之一。这是一个不适定问题,人们已经提出了各种各样的方法,从较为传统的计算机视觉策略到基于 Transformer 或生成式神经网络模型的最新进展都有涉及。在这项工作中,我们展示了一个在文本到图像合成任务上预训练的潜在扩散模型,如何针对图像上色进行微调,并为各种场景提供灵活的解决方案:能够产生多样结果的高质量直接上色、通过颜色提示、文本提示或参考图像实现的用户

本文研究者们旨在从单张全对焦图像生成高分辨率浅景深(DoF)图像,并支持对焦距离与光圈大小的可控调节。为此,本文提出一种新颖的神经网络模型,由深度预测模块镜头模糊模块与引导上采样模块组成。所有模块均可微分,并从数据中学习得到。为训练深度预测模块,本文作者采集了一个包含2462张由手机双摄拍摄的RGB-D图像数据集,并借助现有分割数据集提升边缘预测效果。本文进一步利用带真实深度信息的合成数据集监督镜

色温(单位 K,开尔文)来自物理学:不同温度的黑体辐射不同颜色的光。低色温(2700K)是暖黄色(蜡烛光),高色温(7000K)是冷蓝色(阴天)。升高色温(变暖):增加 R,减少 B降低色温(变冷):减少 R,增加 B✅色彩平衡:用亮度权重函数把调色分区到阴影/中间调/高光,实现分区调色✅通道混合:3×3 矩阵乘法,统一所有线性调色操作;多步骤可合并为一次矩阵乘法✅色温调整:R 与 B 通道的反向

不同于将冻结的大型语言模型(LLMs)和视觉语言模型(VLMs)用于构建人工智能智能体,我们也可以采用单一的智能体 Transformer 模型,该模型接收视觉令牌(visual tokens)和语言令牌(language tokens)作为输入,类似 Gato(Reed et al., 2022)。除视觉和语言外,我们新增了第三种通用输入类型,称为智能体令牌(agent tokens)。

随着深度学习的兴起,神经网络也似乎成了所有计算机视觉任务的标配,大家除了研究各种各样的网络结构之外,还有研究优化方法的,以及激活函数的,这篇博客就对当前各种各样的激活函数做一个总结,分析其背后的性质。到目前为止,激活函数的形式有很多种了,早期的激活函数主要是 sigmoid 以及 tanh 函数,这两种函数都能将输入限制在很小的范围内,算是一种非线性函数,后来又出现了 RELU 以及各种基于 RE
迁移学习也是最近机器学习领域很火热的一个方向,尤其是基于深度学习的迁移学习。
当前大多数任意尺度图像超分辨率(SR)方法通常依赖于由简单的合成退化模型(例如,双三次下采样)在连续的各种尺度下生成的模拟数据,因此在捕捉真实世界图像的复杂退化方面存在不足。这一局限性在将这些方法应用于真实世界图像时,会影响其视觉质量。为了解决这一问题,我们提出了连续光学变焦数据集(COZ),通过构建一个自动成像系统来收集特定范围内细粒度不同焦距下的图像,并提供严格的图像对配准。COZ 数据集可作

对更小外形尺寸相机的需求,推动了对光学复杂度降低(如减少透镜元件数量)的计算成像系统的研究。但此类简化的光学系统通常存在严重的像差问题,离轴区域尤为突出,且难以仅通过软件实现有效校正。本文提出中央凹堆叠成像系统,该系统利用新型动态光学元件 —— 可变形相位板(DPP),对图像传感器上任意位置实现局部像差校正。通过可微光学模型优化可变形相位板的形变模式,离轴像差得以局部校正,在注视点处生成清晰度提升

今天介绍一篇发表在 ACM SIGGRAPH 上的文章,是用手机的双摄系统来做人脸去模糊的工作。这也是谷歌计算摄影研究组的工作。快速运动物体的运动模糊在摄影中是一个一直以来的难题,在手机摄影中也是非常常见的问题,尤其在光照不足,需要延长曝光时间的场景。最近几年,我们也看到了图像去模糊领域的巨大进步,不过大多数的图像去模糊方法的算法开销很高,需要依赖很高的算力,同时在处理高分辨率图像时还存在局限于不

***中文大学Xue Tianfan团队在CVPR 2025提出了一项利用偏振信息消除图像反光的新方法PolarFree,并构建了目前最大规模的偏振反射消除数据集PolaRGB。该研究通过分析偏振特性区分反射与透射光,解决了传统方法依赖小规模合成数据的局限性。PolaRGB数据集包含6,500组精准对齐的RGB-偏振图像对,覆盖多样化的真实场景。PolarFree创新性地结合扩散模型生成无反射先验








