简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
1、ViewDiff: 3D-Consistent Image Generation with Text-to-Image Models3D资产生成正受到大量关注,受到最近文本引导的2D内容创建成功的启发,现有的文本到3D方法使用预训练文本到图像扩散模型来解决优化问题,或在合成数据上进行微调,这往往会导致没有背景的非真实感3D物体。本文提出利用预训练的文本到图像模型作为先验,并从真实世界数据中单一
本文编辑来源paperweekly文生图在最近一年取得了显著的进步,DreamBooth 定制化生成工作,进一步证明了文生图的潜力,并且广泛引起了社区关注,相比于单概念生成,在一张图内定制多个概念是更加有趣且具有广泛应用场景(AI 影楼,AI 漫画生成....)。相比于单概念定制生成取得的成功,阿里提出的 Cones 和 Adobe 提出的 Custom Diffusion 作为现有的多定制概念.
丰色 发自 凹非寺 量子位 | 公众号 QbitAI多模态大模型最全综述来了!由微软7位华人研究员撰写,足足119页——它从目前已经完善的和还处于最前沿的两类多模态大模型研究方向出发,全面总结了五个具体研究主题:视觉理解视觉生成统一视觉模型LLM加持的多模态大模型多模态agent并重点关注到一个现象:多模态基础模型已经从专用走向通用。Ps. 这也是为什么论文开头作者就直接画了一个哆啦A梦的形象.
作者:竹鼠商人 | (源:知乎)编辑:CVerhttps://zhuanlan.zhihu.com/p/606364639最近ChatGPT风头正劲,但只能理解文字或多或少限制其才华的发挥。得益于Transformer在NLP和CV领域的大放异彩,多模态近几年取得了非常大的进步。但之前的工作大多数局限在几个特定的,比如VQA,ITR,VG等任务上,限制了其应用。最近,Junnan Li大佬挂出了.
机器之心作者:快手Y-tech本文提出了一种基于 Transformer 的图像风格迁移方法,我们希望该方法能推进图像风格化的前沿研究以及 Transformer 在视觉尤其是图像生成领域的应用。论文链接:https://arxiv.org/abs/2105.14576代码地址:https://github.com/diyiiyiii/StyTR-2图像风格化是一个有...
001 (2024-06-5) Non-stationary Spatio-Temporal Modeling Using the Stochastic Advection-Diffusion Equationhttps://arxiv.org/pdf/2406.03400.pdf002 (2024-06-5) Generative Diffusion Models for Fast...
YOLOv5 Lite在YOLOv5的基础上进行一系列消融实验,使其更轻(Flops更小,内存占用更低,参数更少),更快(加入shuffle channel,yolov5 head进行通道...
在大批量的工业自动生产中,用人工进行质量检测的效率低且精度不高,因此深度学习方法正逐步的取代人工的岗位。本文收集整理了十个工业检测相关的数据集,并附有下载链接。本文来自:极市平台在大批量的...
点击上方“机器学习与生成对抗网络”,关注星标获取有趣、好玩的前沿干货!金磊 丰色 发自 凹非寺量子位 报道 | 公众号 QbitAI“排队1241人,等待2600秒……”——这届网友为了...
本文来源 新智元 编辑:LRS【新智元导读】再也不用担心图像生成的位置错乱了!随着Stable Diffusion的开源,用自然语言进行图像生成也逐渐普及,许多AIGC的问题也暴露了出来,比如AI不会画手、无法理解动作关系、很难控制物体的位置等。其主要原因还是在于「输入接口」只有自然语言,无法做到对画面的精细控制。最近来自威斯康星大学麦迪逊分校、哥伦比亚大学和微软的研究人员提出了一个全新的方法.