简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
Lumina-T2X是由上海人工智能实验室开发的基于流匹配的扩散变换器(Flag-DiT)系列,它能够根据文本指令生成图像、视频、3D对象和音频。该框架通过标记化潜在的空间时间并使用如[nextline]和[nextframe]的占位符,实现了不同模态和分辨率的统一表示。Lumina-T2X允许在单一框架内训练不同模态,并在推理时灵活生成多模态数据。集成了DiTs、流匹配、RoPE和RMSNorm
让Virtualbox虚拟机中Ubuntu能够全屏:(1)“设备”–“安装增强功能”,然后执行第二步重启之后就能看到下载的镜像文件(2)在终端中运行:sudo apt-get install dkms 然后会自动下载安装312kb的软件包,然后“控制”–“重启”
第一步,输入命令 sudo apt-get install poppler-data 安装完成后打开pdf文档发现中文乱码都变成方块了,于是进行第二步,删除字体 sudo rm /etc/fonts/conf.d/49-sansserif.conf 完成后再打开pdf文档,发现中
我是7月5日来的实验室,我来的时候我们组有一位同学已经在4月份的时候就来了。呆实验室的这段时间,我学到了不少东西,学习的一条主线就是完成导师给的OpenGL的Training。在此学习过程中我接触到了Linux下的C/C++编程,用的开发环境是emacs(代码编辑器)+g++(编
AIGC大模型在人工智能领域取得了重大突破,涵盖了LLM大模型、多模态大模型、图像生成大模型以及视频生成大模型等四种类型。这些模型不仅拓宽了人工智能的应用范围,也提升了其处理复杂任务的能力。a.) LLM大模型通过深度学习和自然语言处理技术,实现了对文本的高效理解和生成;b.) 多模态大模型则能够整合文本、图像、声音等多种信息,实现跨模态的交互和理解;c.) 图像/视频生成大模型则进一步将AI技术
本文提出一种基于代价体Transformer的多视角立体三维重建方法,该方法设计了一种高效的Transformer,即CostFormer,改善了卷积神经网络代价体聚合的缺陷,从而进一步改善整体重建的效果;CostFormer做到深度感知的同时也克服了全局自注意力机制指数级别增长复杂度带来的显存的耗尽以及推理时间的大幅增长。CostFormer是一种可即插即用于当前基于卷积神经网络的多视角立体方法
多视图立体视觉作为计算机视觉领域的一项基本的任务,利用同一场景在不同视角下的多张图片来重构3D的信息。自监督多视角立体视觉(MVS)近年来取得了显著的进展。然而,以往的方法缺乏对自监督MVS中pretext任务提供的监督信号进行有效性的全面解释。本文首次提出在自监督MVS中估计认知不确定性(epistemic uncertainty)。
达摩院开源利用预训练数据增强微调泛化性框架UOT。在这项工作中,我们使用学习理论中流行的超额风险界限,从泛化分析的角度重新审视了这一现象。当下游数据有限时,我们提出利用预训练数据进行微调。使用预训练数据来进行微调的泛化结果表明,当微调中包含适当的预训练数据时,可以改善目标任务的过度风险界限。基于我们的理论分析,我们提出了一种新的选择策略,从预训练数据中选择一个子集,以帮助提高对目标任务的泛化能力。
本文介绍ICML long talk (top 3.02%) 论文 “Dash: Semi-Supervised Learning with Dynamic Thresholding”。该论文提出半监督学习框架Dash,用动态阈值的方式筛选无标签样本进行半监督学习,该框架简单高效,可以应用在众多视觉领域任务中。
在imagenet上的图像分类challenge上Alex提出的alexnet网络结构模型赢得了2012届的冠军。要研究CNN类型DL网络模型在图像分类上的应用,就逃不开研究alexnet,这是CNN在图像分类上的经典模型(DL火起来之后)。在DL开源实现caffe的model样例中,它也给出了alexnet的复现,具体网络配置文件如下(https://github.com/BVLC/caff