logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

CVPR 2024 | 可控文生图11篇汇总!基于扩散模型diffusion的text-to-image

1、ViewDiff: 3D-Consistent Image Generation with Text-to-Image Models3D资产生成正受到大量关注,受到最近文本引导的2D内容创建成功的启发,现有的文本到3D方法使用预训练文本到图像扩散模型来解决优化问题,或在合成数据上进行微调,这往往会导致没有背景的非真实感3D物体。本文提出利用预训练的文本到图像模型作为先验,并从真实世界数据中单一

可控文生图 | 组合式、多目标概念,定制生成 ,阿里研究新进展

本文编辑来源paperweekly文生图在最近一年取得了显著的进步,DreamBooth 定制化生成工作,进一步证明了文生图的潜力,并且广泛引起了社区关注,相比于单概念生成,在一张图内定制多个概念是更加有趣且具有广泛应用场景(AI 影楼,AI 漫画生成....)。相比于单概念定制生成取得的成功,阿里提出的 Cones 和 Adobe 提出的 Custom Diffusion 作为现有的多定制概念.

#人工智能#计算机视觉
综述 | 多模态大模型,7位微软研究员合作,5大主题,119页

丰色 发自 凹非寺 量子位 | 公众号 QbitAI多模态大模型最全综述来了!由微软7位华人研究员撰写,足足119页——它从目前已经完善的和还处于最前沿的两类多模态大模型研究方向出发,全面总结了五个具体研究主题:视觉理解视觉生成统一视觉模型LLM加持的多模态大模型多模态agent‍并重点关注到一个现象:多模态基础模型已经从专用走向通用。Ps. 这也是为什么论文开头作者就直接画了一个哆啦A梦的形象.

#计算机视觉#人工智能
BLIP-2:下一代多模态模型的雏形

作者:竹鼠商人 | (源:知乎)编辑:CVerhttps://zhuanlan.zhihu.com/p/606364639最近ChatGPT风头正劲,但只能理解文字或多或少限制其才华的发挥。得益于Transformer在NLP和CV领域的大放异彩,多模态近几年取得了非常大的进步。但之前的工作大多数局限在几个特定的,比如VQA,ITR,VG等任务上,限制了其应用。最近,Junnan Li大佬挂出了.

CVPR 2022|Transformer图像风格迁移,快手、中科院自动化

机器之心作者:快手Y-tech本文提出了一种基于 Transformer 的图像风格迁移方法,我们希望该方法能推进图像风格化的前沿研究以及 Transformer 在视觉尤其是图像生成领域的应用。论文链接:https://arxiv.org/abs/2105.14576代码地址:https://github.com/diyiiyiii/StyTR-2图像风格化是一个有...

#神经网络#算法#python +2
最新200篇!2024年5月 diffusion 生成扩散模型论文汇总

001 (2024-06-5) Non-stationary Spatio-Temporal Modeling Using the Stochastic Advection-Diffusion Equationhttps://arxiv.org/pdf/2406.03400.pdf002 (2024-06-5) Generative Diffusion Models for Fast...

YOLOv5-Lite 详解教程 | 嚼碎所有原理、训练自己数据集、TensorRT部署落地应有尽有...

YOLOv5 Lite在YOLOv5的基础上进行一系列消融实验,使其更轻(Flops更小,内存占用更低,参数更少),更快(加入shuffle channel,yolov5 head进行通道...

#计算机视觉#xhtml#深度学习
10个开源工业检测数据集汇总

在大批量的工业自动生产中,用人工进行质量检测的效率低且精度不高,因此深度学习方法正逐步的取代人工的岗位。本文收集整理了十个工业检测相关的数据集,并附有下载链接。本文来自:极市平台在大批量的...

#机器学习#人工智能#深度学习 +2
AnimeGAN v2:动漫风格化GAN

点击上方“机器学习与生成对抗网络”,关注星标获取有趣、好玩的前沿干货!金磊 丰色 发自 凹非寺量子位 报道 | 公众号 QbitAI“排队1241人,等待2600秒……”——这届网友为了...

#机器学习#深度学习#人工智能 +2
GLIGEN:diffusion+目标检测,控制生成对象的空间位置

本文来源 新智元 编辑:LRS【新智元导读】再也不用担心图像生成的位置错乱了!‍随着Stable Diffusion的开源,用自然语言进行图像生成也逐渐普及,许多AIGC的问题也暴露了出来,比如AI不会画手、无法理解动作关系、很难控制物体的位置等。其主要原因还是在于「输入接口」只有自然语言,无法做到对画面的精细控制。最近来自威斯康星大学麦迪逊分校、哥伦比亚大学和微软的研究人员提出了一个全新的方法.

#目标检测#计算机视觉#深度学习 +2
    共 67 条
  • 1
  • 2
  • 3
  • 7
  • 请选择