logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

文生图也会“精神分裂”?北大、字节联手揭秘:越思考越画错!并行框架终结AI“左右互搏”

本文提出了一种并行多模态扩散框架MMaDA-Parallel,用于提升"思考感知"型图像生成与编辑任务中的跨模态对齐性。针对现有顺序生成方法中推理错误会传播到图像生成阶段的问题,该框架通过双向注意力机制实现文本和图像的并行生成,并在去噪过程中持续强化语义一致性。实验表明,在自建的ParaBench基准测试中,该方法在输出对齐指标上比现有最优模型提升6.9%,同时保持了单模态生成质量。这项工作为多模

文章图片
#人工智能
ECCV2024 | 小成本微调CLIP大模型!CLAP开源来袭:零样本和少样本训练有救了!

论文链接:https://arxiv.org/pdf/2311.16445代码链接:https://github.com/YichaoCai1/CLAP亮点直击:本文提出了一种通过对比学习和数据增强,从因果角度微调预训练CLIP类模型的原始特征,以改进其视觉-语言特征的方法。:本文提出了一种针对预训练CLIP类模型的定制化方法。该方法利用一个解耦网络,通过对比学习和图像增强进行训练,从CLIP类模

文章图片
#AIGC
使用大语言模型生成自动驾驶指令代码可行吗?

大语言模型最近太火了,大家都在各个方向上应用它。自动驾驶也是当下一个热门领域,两个热门领域的结合自然非常令人期待。AIGCer在读了一些相关文献后,感觉在自动驾驶这个热点方向上应用大语言模型,也将是一个很有前途的方向。这里AIGCer分享一个基于大语言模型的自动驾驶规划任务新框架LaMPilot。它重新思考规划任务为一个利用已有的行为原语的代码生成过程。这种方法旨在解决解释和执行用户指令(如“ov

文章图片
#自动驾驶#人工智能#语言模型 +1
从秒级到小时级:TikTok等发布首篇面向长视频理解的多模态大语言模型全面综述

文章链接:https://arxiv.org/pdf/2409.18938将大语言模型(LLMs)与视觉编码器的集成最近在视觉理解任务中显示出良好的性能,利用它们理解和生成类人文本的固有能力进行视觉推理。考虑到视觉数据的多样性,多模态大语言模型(MM-LLMs)在图像、短视频和长视频理解的模型设计和训练上存在差异。本论文集中讨论长视频理解与静态图像和短视频理解之间的显著差异和独特挑战。与静态图像不

文章图片
2024年Top 10的人工智能岗位及如何准备

随着我们深入数字时代,像GPT(生成式预训练Transformer)这样的AI模型在各个行业的整合不仅彻底改变了我们工作的方式,还创造了大量新的工作机会。以下是2024年的Top 10的人工智能职位,以及如何为这些前沿职业做好准备的一个指导。

文章图片
#人工智能#AIGC
入门必读!多模态大语言模型的演变全回顾!(视觉定位、图像生成、编辑、理解)

注意力算子和Transformer架构的引入使得我们可以创建大规模的,能够处理各种模态的模型。这一进步主要归因于算子的多功能性和架构的适应性。最初,它们主要应用于语言模型,但很快就扩展到支持视觉处理骨干,并最终用于集成多种模态的模型。随着复杂的大语言模型的激增,尤其是它们在上下文学习方面的能力的进步,鼓励研究人员将这些模型的范围扩大到多种模态,既作为输入又作为输出。这种扩展促使了像GPT-4V和G

文章图片
#人工智能#AIGC
一文回顾生成式AI的发展:GANs、GPT、自编码器、扩散模型和Transformer系列

回顾生成式AI的发展:GANs、GPT、自编码器、扩散模型和Transformer系列,涵盖了从文本生成和音乐创作,图像创建,视频制作,代码生成,甚至科学工作等各种任务。

文章图片
#人工智能#transformer
阿里商业级视频生成框架——轨迹控制版视频生成 Tora 重磅开源!

值得注意的是,它可以生成符合指定轨迹的高质量视频,最高可达204帧,分辨率为720p。从GitHub 上的 README 文件来看,由于阿里目前的商业使用计划,当前开放的是文生视频版本的Tora。未来,阿里团队计划推出 ModelScope 的试用 demo、训练代码以及完整版本的 Tora,以满足更多用户的需求,这无疑将推动文生视频技术的进一步发展。尤其值得注意的是,当文本提示中的对象与预设轨迹

文章图片
#视频生成
具身智能成败之关键!干货长文首次全面回顾具身智能领域中的视觉-语言-动作模型!

文章链接:https://arxiv.org/pdf/2405.14093本综述是关于具身智能领域中新兴的视觉-语言-动作模型的首次全面回顾。对具身智能领域中涌现的VLA模型进行了全面回顾,涵盖了架构、训练目标和机器人任务等各个方面。引入了当前机器人系统的分层结构分类法,包含三个主要组件:预训练、控制策略和任务规划器。预训练技术旨在增强VLAs的特定方面,如视觉编码器或动力学模型。低层次控制策略根

文章图片
#AIGC#transformer
如何科学评价视频生成模型?AIGCBench:全面可扩展的视频生成任务基准来了!

AIGC领域正迅速发展,特别是在视频生成方面取得了显著进展。本文介绍了AIGCBench,这是一个首创的全面而可扩展的基准,旨在评估各种视频生成任务,主要关注图像到视频(I2V)生成。AIGCBench解决了现有基准的局限性问题,这些问题主要表现为缺乏多样化的数据集,通过包含一个多样且开放域的图像文本数据集,该数据集评估了不同的最新算法在等效条件下的性能。本文采用了一种新颖的文本组合器和GPT-4

文章图片
#人工智能#AIGC
    共 110 条
  • 1
  • 2
  • 3
  • 11
  • 请选择