
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
不同于将冻结的大型语言模型(LLMs)和视觉语言模型(VLMs)用于构建人工智能智能体,我们也可以采用单一的智能体 Transformer 模型,该模型接收视觉令牌(visual tokens)和语言令牌(language tokens)作为输入,类似 Gato(Reed et al., 2022)。除视觉和语言外,我们新增了第三种通用输入类型,称为智能体令牌(agent tokens)。
多模态人工智能系统有望在我们的日常生活中普及。让这些系统具备更强交互性的一个有效途径,是将其作为智能体(Agent)嵌入物理与虚拟环境中。目前,现有系统以大型基础模型为核心构建模块来打造具象化智能体(embodied agents)。将智能体嵌入此类环境,能助力模型处理和解读视觉信息与上下文数据 —— 这对于开发更复杂、更具上下文感知能力的人工智能系统至关重要。例如,一个能够感知用户动作、人类行为

不同的相机传感器具有不同的噪声模式,因此在一个传感器上训练的图像去噪模型通常难以很好地适用于另一个传感器。一种可行的解决方案是为每个传感器收集大量数据集用于训练或微调,但这不可避免地很耗时。为了应对这一跨域挑战,我们提出了一种新颖的自适应域学习(ADL)方案,用于跨域原始图像去噪,该方案利用来自不同传感器(源域)的现有数据以及来自新传感器(目标域)的少量数据。ADL 训练方案会自动去除源域中对目标

迁移学习也是最近机器学习领域很火热的一个方向,尤其是基于深度学习的迁移学习。
本文提出了一种基于陀螺仪的低成本实时视频稳像与卷帘快门校正方法。通过统一建模相机旋转运动与卷帘快门畸变,设计了一套自动化校准框架,仅需单次采集即可标定陀螺仪与相机的时空参数(如漂移、延迟、焦距等)。实验表明,该方法在复杂场景(含大运动前景、视差及低光照)下仍保持强鲁棒性,计算效率优于传统基于特征跟踪的算法。通过手机内置陀螺仪与GPU实现了实时处理,有效消除了视频抖动与卷帘快门畸变。相比依赖图像特征

图像或者视频降噪,是在细节与平滑度之间的一个微妙的平衡,因为噪声与细节都属于高频信息,降噪在去除噪声的同时,也会对纹理细节造成一定的损害,而且最终的图像效果与人的主观感受有关,所以降噪强度也是一个众口难调的问题。所以文章的主旨非常明确,就是要做可控的降噪,而且是实时可控。这个在传统的降噪方法中,可以通过调整算法中的某些超参进行控制。不过对于目前主流的神经网络一类的方法来说,调整降噪强度,需要每次重

引导上采样是加速高分辨率图像处理的一种有效方法。在本文中,文章作者提出了一种简单而有效的引导上采样方法。高分辨率图像中的每个像素表示为两个低分辨率像素的线性插值,其索引和权重经过优化以最小化上采样误差。下采样可以联合优化,以防止遗漏小的孤立区域。该方法可以从颜色线模型和局部颜色变换推导得出。与以前的方法相比,该方法可以更好地保留细节效果,同时抑制诸如渗色和模糊等伪影。它高效、易于实现且没有需要仔细

近年来,Transformer 和多层感知机(MLP)模型的发展为计算机视觉任务提供了新的网络架构设计。尽管这些模型在图像识别等许多视觉任务中已被证明是有效的,但在将它们应用于底层视觉任务时仍存在挑战。对高分辨率图像支持的灵活性不足以及局部注意力机制的局限性,可能是主要的瓶颈所在。在这项工作中,我们提出了一种基于多轴 MLP 的架构,称为 MAXIM,它可以作为一种高效且灵活的通用视觉主干架构,用

计算摄影资源汇总计算摄影是一个交叉学科,融合了图像处理,光学,信号处理,计算机视觉,计算机图形学,优化,机器学习等各个领域,计算摄影最早在国外的大学里只是一个比较小众的研究方向,比如早期斯坦福大学的光场,相机阵列,以及杜克大学的多光谱成像等,基本还是停留在学术研究阶段,而且比起计算机领域的识别,检测,分割,跟踪等方向来说,计算摄影这块算是比较低调的一个研究方向。这些年,随着智能手机拍照的兴起,计算
在 AE 之后,出现了 DAE,也就是 Denoising Autoencoder,DAE 与 AE 的流程也非常类似,唯一的区别在于编码器的输入,AE 的编码器的输入是原始的高维向量,而 DAE 的编码器的输入是对原始高维向量加入噪声扰动之后的高维向量,DAE 就是希望把加了噪声的高维向量恢复成原始的高维向量,这个过程有点像是对高维向量去噪,所以就叫 Denoising Autoencoder。








