logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

人工智能内容生成元年—AI绘画原理解析

AIGC元年达到了学术-商业共振,本文介绍现有AI绘画、AI作画背后的相应基本原理、应用、以及论文参考文献。

文章图片
#人工智能#AI作画#计算机视觉 +1
图像生成新篇章:Stable Diffusion 3 Medium开源评析

在数字艺术与AI的交汇处,Stable Diffusion 3(SD3)Medium版本的开源标志着技术革新的新篇章。继3月份我在CSDN上发表的SD3技术博文后,这一新里程碑的实现,展示了AI在图像生成领域的显著进步。通过Hugging Face平台的开源,SD3 Medium不仅为艺术创作提供了新土壤,也推动了文生图社区的发展。尽管存在挑战,社区的协作和技术创新将不断解锁创造潜力,引领我们进入

文章图片
#AIGC#人工智能
[caffe]深度学习之图像分类模型VGG解读

vgg和googlenet是2014年imagenet竞赛的双雄,这两类模型结构有一个共同特点是go deeper。跟googlenet不同的是,vgg继承了lenet以及alexnet的一些框架,尤其是跟alexnet框架非常像,vgg也是5个group的卷积、2层fc图像特征、一层fc分类特征,可以看做和alexnet一样总共8个part。根据前5个卷积group,每个group中的不同配置,

探索视频合成新境界:加快加长视频生成,PAB加速与ExVideo延展技术介绍

随着人工智能技术的不断进步,视频合成领域正迎来前所未有的发展机遇。本文介绍近期两项视频生成方向的创新技术:PAB(Pyramid Attention Broadcast)和ExVideo。这两篇文章合在一起主要介绍如何提升视频生成的速度与长度(当前视频生成主要瓶颈方向之一),从而实现更加高效和多样化的视频内容创作。

文章图片
#人工智能#视频生成
视频与音频的交响:探索达摩院VideoLLaMA 2的技术创新

VideoLLaMA 2是阿里巴巴DAMO Academy团队开发的视频大型语言模型,专注于提升视频和音频任务的空间-时间建模与音频理解。该模型引入了新的时空卷积连接器,强化了对视频时空动态的捕捉能力,并通过联合训练集成音频分支,增强了多模态理解。在MC-VQA、OE-VQA和VC任务中,VideoLLaMA 2展现了与顶尖开源模型相媲美的性能,接近一些专有模型。

文章图片
#音视频#AIGC
FaceChain-FACT:开源10秒写真生成,复用海量LoRa风格,基模友好型写真应用

FaceChain-FACT:开源10秒写真生成,复用海量LoRa风格,基模友好型写真应用。FaceChain-FACT的代码和模型目前已经在github和modelscope创空间上同步开源。FaceChain-FACT具有简单的交互式界面设计,只需一张人物形象图片和简短的操作,即可实现无限风格写真和固定模板写真的生成。同时,FaceChain-FACT还支持包括指定人物姿态、自定义风格LoRA

文章图片
#人工智能#AIGC
【ICCV】AIGC时代下的SOTA人脸表征提取器TransFace,FaceChain团队出品

本文介绍由FaceChain团队出品的AIGC时代下的SOTA人脸表征提取器TransFace,可广泛应用于人物写真、人物视频等人物类数字孪生的应用研究中。

文章图片
#人工智能#深度学习#AIGC
【NeurIPS】解决离线强化学习中的互模拟缺陷,FaceChain团队联合出品

本文旨在解决离线强化学习中的互模拟缺陷。强化学习中的表征学习对于控制任务而言至关重要,将来的一个重要研究方向是将大模型为基础的文本或图像信息与控制任务对应的状态表征做进一步对齐。这里,互模拟为基础的表征算法可能是一个重要的未来研究方向,可能对多模态数据与控制任务的对齐起到关键性作用。

文章图片
#人工智能#深度学习
【OpenVI】AIGC纪元,兔年AI绘画实践

本文主要介绍AIGC体验方法,up主们纷纷使用AIGC进行短视频内容创作,能绘画天马行空的场景、栩栩如生的人物。如此精细的ai绘画和去年Stable Diffusion、MidJourney、DALL-E 2的横空出世息息相关,技术革新带来了令人震撼的效果。这些新技术可以提高创意的效率,缩短创意到实现的周期,并且能够在艺术设计、电影、游戏等领域产生巨大的影响。对于普通人来说,这些新技术可以提供更好

文章图片
#人工智能#深度学习#AIGC +1
CVPR最佳论文:谷歌基于Spectral Volume从单图生成视频

本文提出了一种新颖的方法来模拟场景运动的图像空间先验。通过从真实视频序列中提取的自然振荡动态(如树木、花朵、蜡烛和衣物随风摆动)学习运动轨迹,作者将长期运动建模为傅里叶域中的频谱体积。给定单张图片,训练好的模型使用频率协调的扩散采样过程预测频谱体积,进而转换为整个视频的运动纹理。结合基于图像的渲染模块,预测的运动表示可以用于多种应用,例如将静态图像转换为无缝循环视频,或允许用户与真实图像中的对象进

文章图片
#人工智能#深度学习
    共 85 条
  • 1
  • 2
  • 3
  • 9
  • 请选择