logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【OpenVI】AIGC纪元,兔年AI绘画实践

本文主要介绍AIGC体验方法,up主们纷纷使用AIGC进行短视频内容创作,能绘画天马行空的场景、栩栩如生的人物。如此精细的ai绘画和去年Stable Diffusion、MidJourney、DALL-E 2的横空出世息息相关,技术革新带来了令人震撼的效果。这些新技术可以提高创意的效率,缩短创意到实现的周期,并且能够在艺术设计、电影、游戏等领域产生巨大的影响。对于普通人来说,这些新技术可以提供更好

文章图片
#人工智能#深度学习#AIGC +1
CVPR最佳论文:谷歌基于Spectral Volume从单图生成视频

本文提出了一种新颖的方法来模拟场景运动的图像空间先验。通过从真实视频序列中提取的自然振荡动态(如树木、花朵、蜡烛和衣物随风摆动)学习运动轨迹,作者将长期运动建模为傅里叶域中的频谱体积。给定单张图片,训练好的模型使用频率协调的扩散采样过程预测频谱体积,进而转换为整个视频的运动纹理。结合基于图像的渲染模块,预测的运动表示可以用于多种应用,例如将静态图像转换为无缝循环视频,或允许用户与真实图像中的对象进

文章图片
#人工智能#深度学习
达摩院高清人像美肤模型ABPN CVPR论文深入解读

随着数字文化产业的蓬勃发展,人工智能技术开始广泛应用于图像编辑和美化领域。其中,人像美肤无疑是应用最广、需求最大的技术之一。本文着重介绍该技术,并做代码、模型开源分享。

文章图片
#计算机视觉#人工智能#深度学习
FaceChain-FACT:免训练的丝滑体验,秒级别的人像生成

作为AI人像写真开源项目的佼佼者,FaceChain凭借其丰富多样的风格模版和卓越的人像保真度,深受社区的喜爱并已在商业应用中得到了广泛的应用。近期,FaceChain团队推出了全新的版本——FaceChain FACT。这一创新版本摒弃了传统的人物模型训练过程,能够直接生成zero-shot目标人像,引领AI人像生成进入了无需训练的单阶段时代。

文章图片
#人工智能#深度学习#AIGC
【达摩院OpenVI】老片图像上色,一键开源体验

本文介绍开源图像上色一键体验,它是指对黑白图像添加色彩,使其变成彩色图像。更具体的说,我们常见的彩色图像通常是三通道图像,而黑白图像只有一个灰度通道,因此,图像上色旨在利用单一灰度通道恢复图像的两个彩色通道。随着摄影技术的演进,彩色照片在现在已经非常普及,但仍然有大量历史黑白照片遗留。图像上色可以对这些宝贵的旧时代遗产进行修复,令老照片重获新生。

文章图片
#计算机视觉#深度学习#人工智能
AIGC元年大模型发展现状手册

AIGC大模型在人工智能领域取得了重大突破,涵盖了LLM大模型、多模态大模型、图像生成大模型以及视频生成大模型等四种类型。这些模型不仅拓宽了人工智能的应用范围,也提升了其处理复杂任务的能力。a.) LLM大模型通过深度学习和自然语言处理技术,实现了对文本的高效理解和生成;b.) 多模态大模型则能够整合文本、图像、声音等多种信息,实现跨模态的交互和理解;c.) 图像/视频生成大模型则进一步将AI技术

文章图片
#AIGC#深度学习#人工智能
ICLR 2024 Oral InfoBatch 助力大模型时代训练加速!FaceChain与NUS尤洋团队最新工作!

在本篇工作中,研究者从数据迭代这个角度切入进行了研究。长久以来,数据集的迭代方式大都采用随机迭代。对此,作者提出了InfoBatch框架,根据网络对样本的拟合情况进行动态剪枝采样的方法,并利用重缩放(rescaling)来维持剪枝后的梯度更新(Gradient Update)期望,以此在性能无损的情况下提高训练效率,加快训练速度。在CIFAR10/100、ImageNet-1K(分类)和ADE20

文章图片
#人工智能#深度学习#AIGC
VAR:自回归家族文生图新SOTA,ImageNet上超越Diffusion与DiTs

本文提出了一种名为视觉自回归(VAR)建模的新范式,它通过将图像的自回归学习重新定义为“下一尺度预测”。VAR模型采用多尺度VQ-VAE来编码图像,并利用自回归Transformer来学习图像的分布。这种方法不仅提高了图像生成的质量,还显著加快了推理速度。VAR模型在ImageNet 256×256基准测试中的表现超越了现有的自回归和扩散模型,其FID和IS分别达到了1.80和356.4,同时推理

文章图片
#人工智能#深度学习#AIGC
视频与音频的交响:探索达摩院VideoLLaMA 2的技术创新

VideoLLaMA 2是阿里巴巴DAMO Academy团队开发的视频大型语言模型,专注于提升视频和音频任务的空间-时间建模与音频理解。该模型引入了新的时空卷积连接器,强化了对视频时空动态的捕捉能力,并通过联合训练集成音频分支,增强了多模态理解。在MC-VQA、OE-VQA和VC任务中,VideoLLaMA 2展现了与顶尖开源模型相媲美的性能,接近一些专有模型。

文章图片
#音视频#AIGC
AIGC元年大模型发展现状手册

AIGC大模型在人工智能领域取得了重大突破,涵盖了LLM大模型、多模态大模型、图像生成大模型以及视频生成大模型等四种类型。这些模型不仅拓宽了人工智能的应用范围,也提升了其处理复杂任务的能力。a.) LLM大模型通过深度学习和自然语言处理技术,实现了对文本的高效理解和生成;b.) 多模态大模型则能够整合文本、图像、声音等多种信息,实现跨模态的交互和理解;c.) 图像/视频生成大模型则进一步将AI技术

文章图片
#AIGC#深度学习#人工智能
    共 79 条
  • 1
  • 2
  • 3
  • 8
  • 请选择