logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

ICCV | 达摩院联合开源融合不确定度的自监督MVS框架

多视图立体视觉作为计算机视觉领域的一项基本的任务,利用同一场景在不同视角下的多张图片来重构3D的信息。自监督多视角立体视觉(MVS)近年来取得了显著的进展。然而,以往的方法缺乏对自监督MVS中pretext任务提供的监督信号进行有效性的全面解释。本文首次提出在自监督MVS中估计认知不确定性(epistemic uncertainty)。

文章图片
#深度学习#人工智能#计算机视觉
达摩院开源预训练数据微调框架UOT NeurIPS论文深入解读

达摩院开源利用预训练数据增强微调泛化性框架UOT。在这项工作中,我们使用学习理论中流行的超额风险界限,从泛化分析的角度重新审视了这一现象。当下游数据有限时,我们提出利用预训练数据进行微调。使用预训练数据来进行微调的泛化结果表明,当微调中包含适当的预训练数据时,可以改善目标任务的过度风险界限。基于我们的理论分析,我们提出了一种新的选择策略,从预训练数据中选择一个子集,以帮助提高对目标任务的泛化能力。

文章图片
#深度学习#人工智能
ICML long talk | 达摩院开源半监督学习框架Dash

本文介绍ICML long talk (top 3.02%) 论文 “Dash: Semi-Supervised Learning with Dynamic Thresholding”。该论文提出半监督学习框架Dash,用动态阈值的方式筛选无标签样本进行半监督学习,该框架简单高效,可以应用在众多视觉领域任务中。

文章图片
#人工智能#深度学习
[caffe]深度学习之图像分类模型AlexNet解读

在imagenet上的图像分类challenge上Alex提出的alexnet网络结构模型赢得了2012届的冠军。要研究CNN类型DL网络模型在图像分类上的应用,就逃不开研究alexnet,这是CNN在图像分类上的经典模型(DL火起来之后)。在DL开源实现caffe的model样例中,它也给出了alexnet的复现,具体网络配置文件如下(https://github.com/BVLC/caff

工业级开源facechain人物写真sd-webui插件使用方式

本文介绍如何在sd webui中安装facechain插件使用工业级人物写真功能。

文章图片
#人工智能#深度学习
【ICCV】PointDC,基于深度聚类的无监督3D场景语义分割,FaceChain团队联合出品

针对无监督3D场景的语义分割,提出一套基于深度聚类的自监督学习算法,可以大幅提升3D分割的效果(ScanNet-v2 (+18.4 mIoU)、S3DIS (+11.5 mIoU))。

文章图片
#人工智能#深度学习
Mini-Gemini: 探索多模态视觉语言模型的新境界

最近,一篇名为“Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models”的文章在arXiv上发表,为我们展示了一个简单而有效的框架,旨在提升多模态视觉语言模型(VLMs)的性能。它即能直接提升图像感知能力,也能作为多模态环境下图像生成任务的前置prompt生成器。主要探索了如何增强图像全局感受野,以及探索

文章图片
#人工智能
【ICCV】AIGC时代下的SOTA人脸表征提取器TransFace,FaceChain团队出品

本文介绍由FaceChain团队出品的AIGC时代下的SOTA人脸表征提取器TransFace,可广泛应用于人物写真、人物视频等人物类数字孪生的应用研究中。

文章图片
#人工智能#深度学习
【CVPR】闻声识人FaceChain-ImagineID,从音频中想象出说话人脸,FaceChain团队出品

本文提出了一个新的说话人脸生成任务,即直接从音频中想象出符合音频特征的多样化动态说话人脸,而常规的该任务需要给定一张参考人脸。具体来说,该任务涉及到两个核心的挑战,首先如何从音频中解耦出说话人的身份(性别、年龄等语义信息以及脸型等结构信息)、说话内容以及说话人传递的情绪,其次是如何根据这些信息生成多样化的符合条件的视频,同时保持视频内的一致性。

文章图片
#人工智能#深度学习
视觉AIGC元年:技术大爆炸!Dalle-3、Sora、Stable Diffusion 3 掀起AIGC新浪潮,究竟有哪些模块值得借鉴!

随着科技的飞速发展,我们迎来了视觉AIGC高光时刻,一个充满无限可能与机遇的新时代。在这个时代里,三大里程碑Dalle-3、Sora和Stable Diffusion 3以其炸裂式的技术发展,引领着AIGC领域的新浪潮。文章首先做相应简要介绍,后半部分着重做新兴技术拆解分析,看看究竟哪些模块值得借鉴!

文章图片
暂无文章信息