logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

AI生成3D一手实测:卖家秀vs买家秀,差一个宇宙

正是在这样的背景下,LGM(即 Large Gaussian Model,大型多视角高斯模型)由北京大学、南洋理工大学 S-Lab 和上海人工智能实验室的研究者联合提出,旨在依靠一张二维图片,就可5秒生成同款3D物体。同时,negative prompt可以理解为保证结果水准的外框和标尺,目前默认的设置就是去掉难看、不清晰、像素模糊、不自然色彩、糟糕光线等效果,这项参数保持默认就可以。,即可通过首

文章图片
#人工智能#3d
AI视频生成:不是Veo用不起,FramePack更有性价比

以本次使用的图片为例,图片是即梦AI绘制,提示词为:设计师(处在画面左下的位置)坐在屏幕前修改文件,向右侧着头,听着周围的4个同事正在给出的修改意见,设计师的表情平和、略带微笑,双手敲击着键盘。最终,能让图片的角色动起来,动作和镜头还算连贯自然,由于片段的时长较短(5s以内),最适合短剧、片段生成、视频草图等内容创作场景,还可以脑洞大开,用它来做gif图和表情包。,却首次通过技术的升级,让普通设备

文章图片
#人工智能#音视频
Ollama Open WebUI:无需代码!本地运行强大 AI!

我们隆重推出 Ollama Open WebUI,一个让你在本地就能运行强大人工智能模型的开源 Web 界面。Ollama Open WebUI 就像一个神奇的工具箱,已经为你准备好了各种强大的 AI 模型,包括最新潮的。你可以尝试各种不同的问题,让 AI 为你写故事、出主意、甚至进行简单的头脑风暴!现在,无需复杂的配置和深厚的专业知识,你也可以轻松拥有属于自己的 AI 大脑!在输入框中输入一个你

文章图片
#人工智能
ChatTTS:最像真人的文生语音工具是怎样炼成的?

现在如果告诉你,有一款新的AI工具ChatTTS,你只需输入一段文字,AI就能声情并茂地全文读出来,不仅支持中英文混合,还能恰到好处地加入语气词和停顿,完胜Azure,那么你想不想试试呢?也提供了【清理所有wav文件】按钮,在任务操作需要一键清空时,十分方便。它采取了目前最先进的深度学习算法,在音调、情感表达、多语言识别方面极其出色,可以生成非常逼真的语音,不仅开源,而且还在不断迭代升级。从默认音

文章图片
#人工智能
Dia:活人感的一小步,AI语音的一大步

的基础性能进行测试,先虚拟一段发生在火车站的对话场景,火车快开了,A催促B快上车,B抱怨行李太重,A开玩笑说B拎着行李的样子像企鹅,并提出帮忙,同时嵌入笑声(laugh)、叹气(sigh)、咳嗽(cough)等情绪,测试自然度。其次,在默认参数设置下,尝试了几组不同的提示词、不同长度的参考音频,结果发现,生成的最终文件中总是会缺失前两句,应该是系统自带bug,使用时可以铺垫2句无用的文字在前面。在

文章图片
#人工智能#语音识别
Stable Video Diffusion:手搓视频,3步生成电影级画面

Stable Video Diffusion是Stability AI发布的视频生成大模型,基于Stability AI原有的Stable Diffusion文生图模型,Stable Video Diffusion可实现文生视频。‌。

文章图片
#音视频#人工智能
AI视频生成:不是Veo用不起,FramePack更有性价比

以本次使用的图片为例,图片是即梦AI绘制,提示词为:设计师(处在画面左下的位置)坐在屏幕前修改文件,向右侧着头,听着周围的4个同事正在给出的修改意见,设计师的表情平和、略带微笑,双手敲击着键盘。最终,能让图片的角色动起来,动作和镜头还算连贯自然,由于片段的时长较短(5s以内),最适合短剧、片段生成、视频草图等内容创作场景,还可以脑洞大开,用它来做gif图和表情包。,却首次通过技术的升级,让普通设备

文章图片
#人工智能#音视频
IOPaint:一键修图神器,迅速实现智能擦除,替换对象功能

IOPaint 是一款免费开源的 AI 图像处理工具,基于先进的 AI 模型(如 LaMa、Stable Diffusion 等),专注于图像修复、擦除、扩展和内容替换。

文章图片
#人工智能
FishSpeech:中日英文生语音,自然流畅

不少AI语音合成软件的生成作品都缺乏“人味”,而流畅自然的语音交互体验却逐渐被更多AI应用场景所需要。今天要介绍的就是Fish Audio出品的一款文本转语音(TTS)解决方案——FishSpeech,其在中文语音生成场景下的出色表现如同一骑绝尘,几乎能够达到接近人类自然语音的效果。在实测中,差不多长度的中文文本的生成速度最快>英文文本>日文文本。但是从语音文件本身来说,有起承转合,准确率也接近1

文章图片
#语音识别#人工智能
实测万相2.1文生视频大模型:能歌善舞、能写会画,堪比四栖艺术家

她衣袂飘飘,裙上白梅隐约,眉眼低垂含愁。阿里最新开源的视频生成模型阿里万相Wan2.1火遍全网,不仅迅速在全球权威垂直类榜单VBench上登顶,完胜‌Sora,更在整个AI界,乃至内容创意领域一石激起千层浪,开启了视频生成的无限可能。提示词越详细,生成视频效果会越好,但也不宜过长,否则会影响万相2.1大模型的理解,生成过程的时长也会被无限拉长(实测一般长度提示词至少需要300s以上的生成时长)。万

文章图片
#人工智能
    共 17 条
  • 1
  • 2
  • 请选择