logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

性能狂飙89%! 新加坡国立开源Conceptrol:让个性化图像生成更懂你的文字提示

个性化图像生成中的平衡问题:现有的zero-shot adapters方法(如IP-Adapter和OminiControl)在生成个性化图像时,难以平衡保留参考图像内容和遵循文本提示的要求。生成的图像往往只是复制个性化内容,而不是根据文本提示进行调整。设计缺陷:现有的adapters在将个性化图像与文本描述结合时存在设计缺陷,导致生成的图像无法充分利用基础文本到图像扩散模型的概念理解能力。

文章图片
#AIGC
王者归来!Stability-AI又放大招 | Stable Cascade:更快更强的图像生成模型!

Stable Cascade由三个模型组成:Stage A, Stage B和Stage C,,代表了用于生成图像的阶段,因此得名“Stable Cascade”。Stage A 和 B 用于压缩图像,类似于Stable Diffusion中 VAE 的工作。然而,正如前面提到的,通过这种设置可以实现对图像的更高压缩。此外,Stage C 负责在给定文本提示的情况下生成小尺寸的 24 x 24 的

文章图片
#人工智能#AIGC
​ ​视觉任务大一统!图像生成,编辑,翻译三合一!全能视觉助手PixWizard来袭!

图像生成、操作和转换的复杂性,特别是基于自由形式语言指令的多种视觉任务。

文章图片
图像生成与各种编辑任务大一统!贾佳亚团队提出DreamOmni:训练收敛速度快且性能强大

文生图遇到了一些挑战:将这些模型适应到下游应用通常需要以不同的方式集成各种插件(如ControlNet和IP-adapter),或扩展输入通道(例如,SD-inpainting 、InstructP2P)。这种对专门化框架的依赖限制了多任务泛化能力,并增加了部署的复杂性。高质量和准确的编辑数据难以获得,包括基于指令的编辑、拖拽编辑和主题驱动的生成数据。

文章图片
#图像处理
阿里巴巴提出AnyText:首个解决多语言视觉文本生成的工作

基于扩散模型的文本到图像在最近取得了令人瞩目的成就。尽管当前的图像合成技术已经非常先进,能够以高保真度生成图像,但当关注生成图像中的文本区域时,往往可能会暴露问题,因为合成文本通常包含模糊、不可读或不正确的字符,使得视觉文本生成成为该领域最具挑战性的问题之一。为了解决这个问题,本文引入了AnyText,这是一个基于扩散的多语言视觉文本生成和编辑模型,专注于在图像中呈现准确而连贯的文本。AnyTex

文章图片
#AIGC
PhotoMaker:高效个性化的文本生成逼真人物照片方法

给定要定制的几个 ID 图像,PhotoMaker 的目标是生成一张新的逼真人像,保留输入 ID 的特征并在文本提示的控制下更改生成的 ID 的内容或属性。尽管像 DreamBooth 一样输入多个 ID 图像进行定制,但仍然享有与其他无微调方法相同的效率,通过单次前向传递完成定制,同时保持较好的 ID 保真度和文本可编辑性。此外,还可以混合多个输入 ID,生成的图像可以很好地保留不同 ID 的特

文章图片
#人工智能#AIGC
如何从文本生成图像和视频?9个常用生成器一览!

近年来,深度学习和自然语言处理(NLP)技术的快速进步推动了AI文本到图像和AI文本到视频生成器的发展,这些生成器已成为一种先进而强大的工具,能够从文本描述中生成图像和视频。这些AI生成器利用先进而复杂的技术,如基于注意力的循环神经网络,生成对抗网络和变压器,来分析文本数据,从而生成相应的高质量图像或视频。AI文本到图像和AI文本到视频生成器的动机在于推动内容创作过程的自动化,以更快、更有效的方式

文章图片
#人工智能#音视频#AIGC
使用大语言模型生成自动驾驶指令代码可行吗?

大语言模型最近太火了,大家都在各个方向上应用它。自动驾驶也是当下一个热门领域,两个热门领域的结合自然非常令人期待。AIGCer在读了一些相关文献后,感觉在自动驾驶这个热点方向上应用大语言模型,也将是一个很有前途的方向。这里AIGCer分享一个基于大语言模型的自动驾驶规划任务新框架LaMPilot。它重新思考规划任务为一个利用已有的行为原语的代码生成过程。这种方法旨在解决解释和执行用户指令(如“ov

文章图片
#自动驾驶#人工智能#语言模型 +1
提升77%,推理时间降一半 | CogView3:最新SOTA文生图方案(清华&智谱AI)

扩散模型已经成为当今文本到图像生成系统的主流框架。与自回归模型和生成对抗网络的范式相比,扩散模型将图像合成任务概念化为一个多步去噪过程,从各向同性高斯噪声开始。随着训练数据量和神经网络计算成本的激增,扩散模型的框架在视觉生成领域已经取得了有效性,能够遵循用户指令并生成具有令人赞赏细节的图像。当前最先进的文本到图像扩散模型大多在单一阶段操作,在高分辨率图像上进行扩散过程,如1024×1024。对高分

文章图片
#人工智能#AIGC
一张照片,开口说话!阿里等最新音视频对齐技术FantasyTalking:打造超写实可控数字人!

阿里等发布FantasyTalking,通过单张照片+音频,实现与输入音频对应的、包含背景和上下文对象(而不仅限于肖像本身)的连贯全局运动,并能够构建精确对齐的唇部运动视频。

文章图片
#视频生成#音视频
    共 119 条
  • 1
  • 2
  • 3
  • 12
  • 请选择