
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
现在迎来了大更新,就像 Claude Artifact 一样,支持了对话生成前端界面了,背后的知识库都升级到最新版本。视频演示的是使用 v0 chat 生成的俄罗斯方块游戏,即使你不懂代码也推荐你试试,非常的强。如果你是一个前端开发,那么 vercel 家 的。你一定知道,俺还是早期测试人员哩。

TangoFlux 是一个开源的极速文本转音频(TTA)生成模型,在单个 A40 GPU 上仅需 3.7 秒即可生成 30 秒的 44.1kHz 音频。看看,速度确实飞快,生成的质量也算还行。

早在 7 月份,智谱公布了他们的视频生成模型 CogVideoX(清影),昨晚他们的官推宣布 CogVideoX-5B 即将开源(大概率今天),框架已经提前完成了适配。

Suno 之前发布了多个 V4 版本的预告,今天终于正式发布了!新版本能够生成具有更好音频质量、更清晰歌词和更动态歌曲结构的歌曲。Suno 在音乐生成的竞争对手好像没有几个能打的,我知道就海绵音乐,还有别的吗?

是京东健康开源的一个音频驱动的数字人头项目,它不仅支持唇形一致和表情控制,还能为动物生成数字头。这类技术在市场上非常多,有需求的读者可以在三花上搜索‘数字人’,不过真正落地的不多,JoyVASA 看起来是个不错的选择。

此外,1.5 模型也更新支持了标准模式和 720p 文生视频,比 Sora 强。版本,该版本在提示词遵循、视觉美观和物理特效方面都有显著改进。

是阿里基于 Qwen2 推出的专业数学模型,其数学能力上的表现一骑绝尘,超越各大 GPT4o 等闭源模型和一众开源模型,目前仅支持英文,后面会出双语。

是一个能够接受多模态输入的开源图像生成模型,只需输入提示词,就能自动识别输入图像中的特征,就像是内置了 ControlNet、IpAdapter 等预处理模型。这个模型使用特殊的 XML 标记提示词,可以实现文生图、风格迁移、角色一致性、图像编辑和图生图。官方提供了在线使用,你们可以自己玩下。

功能,可以根据图片或视频生成音乐。不过,目前该功能仅支持 Suno 的 iOS 客户端,仅在美国地区可用。

是一个专为 Flux 设计的通用图像引导生成控制模型,能够实现虚拟试穿、背景融合、图像修复等多种功能。它还支持类似 ControlNet 的效果,如 Canny 边缘到图像、深度到图像、着色和去模糊。生成的三花 logo 摆件,看着效果非常不错。








