AppMall 个人主页

@AppMall

AppMall

2025-02-25 18:01:59 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

AI生成3D一手实测：卖家秀vs买家秀，差一个宇宙

正是在这样的背景下，LGM（即 Large Gaussian Model，大型多视角高斯模型）由北京大学、南洋理工大学 S-Lab 和上海人工智能实验室的研究者联合提出，旨在依靠一张二维图片，就可5秒生成同款3D物体。同时，negative prompt可以理解为保证结果水准的外框和标尺，目前默认的设置就是去掉难看、不清晰、像素模糊、不自然色彩、糟糕光线等效果，这项参数保持默认就可以。，即可通过首

#人工智能 #3d

AI视频生成：不是Veo用不起，FramePack更有性价比

以本次使用的图片为例，图片是即梦AI绘制，提示词为：设计师（处在画面左下的位置）坐在屏幕前修改文件，向右侧着头，听着周围的4个同事正在给出的修改意见，设计师的表情平和、略带微笑，双手敲击着键盘。最终，能让图片的角色动起来，动作和镜头还算连贯自然，由于片段的时长较短（5s以内），最适合短剧、片段生成、视频草图等内容创作场景，还可以脑洞大开，用它来做gif图和表情包。，却首次通过技术的升级，让普通设备

#人工智能 #音视频

Ollama Open WebUI：无需代码！本地运行强大 AI！

我们隆重推出 Ollama Open WebUI，一个让你在本地就能运行强大人工智能模型的开源 Web 界面。Ollama Open WebUI 就像一个神奇的工具箱，已经为你准备好了各种强大的 AI 模型，包括最新潮的。你可以尝试各种不同的问题，让 AI 为你写故事、出主意、甚至进行简单的头脑风暴！现在，无需复杂的配置和深厚的专业知识，你也可以轻松拥有属于自己的 AI 大脑！在输入框中输入一个你

#人工智能

ChatTTS：最像真人的文生语音工具是怎样炼成的？

现在如果告诉你，有一款新的AI工具ChatTTS，你只需输入一段文字，AI就能声情并茂地全文读出来，不仅支持中英文混合，还能恰到好处地加入语气词和停顿，完胜Azure，那么你想不想试试呢？也提供了【清理所有wav文件】按钮，在任务操作需要一键清空时，十分方便。它采取了目前最先进的深度学习算法，在音调、情感表达、多语言识别方面极其出色，可以生成非常逼真的语音，不仅开源，而且还在不断迭代升级。从默认音

#人工智能

Dia：活人感的一小步，AI语音的一大步

的基础性能进行测试，先虚拟一段发生在火车站的对话场景，火车快开了，A催促B快上车，B抱怨行李太重，A开玩笑说B拎着行李的样子像企鹅，并提出帮忙，同时嵌入笑声(laugh)、叹气(sigh）、咳嗽(cough)等情绪，测试自然度。其次，在默认参数设置下，尝试了几组不同的提示词、不同长度的参考音频，结果发现，生成的最终文件中总是会缺失前两句，应该是系统自带bug，使用时可以铺垫2句无用的文字在前面。在

#人工智能 #语音识别

Stable Video Diffusion：手搓视频，3步生成电影级画面

Stable Video Diffusion是Stability AI发布的视频生成大模型，基于Stability AI原有的Stable Diffusion文生图模型，Stable Video Diffusion可实现文生视频。‌。

#音视频 #人工智能

AI视频生成：不是Veo用不起，FramePack更有性价比

#人工智能 #音视频

IOPaint：一键修图神器，迅速实现智能擦除，替换对象功能

IOPaint 是一款免费开源的 AI 图像处理工具，基于先进的 AI 模型（如 LaMa、Stable Diffusion 等），专注于图像修复、擦除、扩展和内容替换。

#人工智能

FishSpeech：中日英文生语音，自然流畅

不少AI语音合成软件的生成作品都缺乏“人味”，而流畅自然的语音交互体验却逐渐被更多AI应用场景所需要。今天要介绍的就是Fish Audio出品的一款文本转语音（TTS）解决方案——FishSpeech，其在中文语音生成场景下的出色表现如同一骑绝尘，几乎能够达到接近人类自然语音的效果。在实测中，差不多长度的中文文本的生成速度最快>英文文本>日文文本。但是从语音文件本身来说，有起承转合，准确率也接近1

#语音识别 #人工智能

实测万相2.1文生视频大模型：能歌善舞、能写会画，堪比四栖艺术家

她衣袂飘飘，裙上白梅隐约，眉眼低垂含愁。阿里最新开源的视频生成模型阿里万相Wan2.1火遍全网，不仅迅速在全球权威垂直类榜单VBench上登顶，完胜‌Sora，更在整个AI界，乃至内容创意领域一石激起千层浪，开启了视频生成的无限可能。提示词越详细，生成视频效果会越好，但也不宜过长，否则会影响万相2.1大模型的理解，生成过程的时长也会被无限拉长（实测一般长度提示词至少需要300s以上的生成时长）。万

#人工智能

共 17 条

请选择