logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

前端又要被替代了 v0.dev 全新升级

现在迎来了大更新,就像 Claude Artifact 一样,支持了对话生成前端界面了,背后的知识库都升级到最新版本。视频演示的是使用 v0 chat 生成的俄罗斯方块游戏,即使你不懂代码也推荐你试试,非常的强。如果你是一个前端开发,那么 vercel 家 的。你一定知道,俺还是早期测试人员哩。

文章图片
#人工智能#前端
TangoFlux:极速文本转音频生成模型

TangoFlux 是一个开源的极速文本转音频(TTA)生成模型,在单个 A40 GPU 上仅需 3.7 秒即可生成 30 秒的 44.1kHz 音频。看看,速度确实飞快,生成的质量也算还行。

文章图片
#人工智能
智谱清影 CogVideoX-5B: 开源视频生成模型

早在 7 月份,智谱公布了他们的视频生成模型 CogVideoX(清影),昨晚他们的官推宣布 CogVideoX-5B 即将开源(大概率今天),框架已经提前完成了适配。

文章图片
#人工智能
Suno 发布 V4 版本:提升音频质量与创意歌词

Suno 之前发布了多个 V4 版本的预告,今天终于正式发布了!新版本能够生成具有更好音频质量、更清晰歌词和更动态歌曲结构的歌曲。Suno 在音乐生成的竞争对手好像没有几个能打的,我知道就海绵音乐,还有别的吗?

文章图片
#人工智能
京东健康开源音频驱动的数字人头项目 JoyVASA

是京东健康开源的一个音频驱动的数字人头项目,它不仅支持唇形一致和表情控制,还能为动物生成数字头。这类技术在市场上非常多,有需求的读者可以在三花上搜索‘数字人’,不过真正落地的不多,JoyVASA 看起来是个不错的选择。

文章图片
#人工智能
快手发布 KLING AI 1.6:提升提示词遵循与视觉特效

此外,1.5 模型也更新支持了标准模式和 720p 文生视频,比 Sora 强。版本,该版本在提示词遵循、视觉美观和物理特效方面都有显著改进。

文章图片
#人工智能
阿里 Qwen2-Math:最强数学模型开源

是阿里基于 Qwen2 推出的专业数学模型,其数学能力上的表现一骑绝尘,超越各大 GPT4o 等闭源模型和一众开源模型,目前仅支持英文,后面会出双语。

文章图片
#阿里云#人工智能
OmniGen: 多模态输入的开源图像生成模型

是一个能够接受多模态输入的开源图像生成模型,只需输入提示词,就能自动识别输入图像中的特征,就像是内置了 ControlNet、IpAdapter 等预处理模型。这个模型使用特殊的 XML 标记提示词,可以实现文生图、风格迁移、角色一致性、图像编辑和图生图。官方提供了在线使用,你们可以自己玩下。

文章图片
#人工智能#开源
Suno AI 推出 Suno Scenes:根据视频和图像生成音乐

功能,可以根据图片或视频生成音乐。不过,目前该功能仅支持 Suno 的 iOS 客户端,仅在美国地区可用。

文章图片
#人工智能
Flux 的 OminiControl:多功能图像生成与控制

是一个专为 Flux 设计的通用图像引导生成控制模型,能够实现虚拟试穿、背景融合、图像修复等多种功能。它还支持类似 ControlNet 的效果,如 Canny 边缘到图像、深度到图像、着色和去模糊。生成的三花 logo 摆件,看着效果非常不错。

文章图片
#人工智能#图像处理
    共 217 条
  • 1
  • 2
  • 3
  • 22
  • 请选择