logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

字节豆包团队推出 SeedEdit:强大的图像编辑模型

是由字节豆包团队推出的图像编辑工具,它能够根据任何文本提示修改现有图像,并保持一致性。该工具支持多种功能,如局部替换、几何变换、重新打光、风格更改、表情编辑、文字替换、姿势修改以及局部擦除等。从演示视频和官方提供的演示来看,效果非常强大,你们可以。不过,我看了下代码实现,发现它调用了字节的 API,但目前这个 API 还没有公开申请的地方,期待后续的开放。

文章图片
#人工智能#图像处理
阿里云:通义千问Qwen2 正式发布

Qwen2 是对前一代 Qwen1.5 全面升级,它提供了多种尺寸的模型,支持更多语言,并在代码理解、数学解题等方面表现更加出色。千问 2 系列模型基本能够超越同等规模的最优开源模型甚至更大规模的模型,尤。其是代码及中文理解上,重回开源天花板模型。

文章图片
#人工智能
字节跳动发布豆包视频生成模型

火山引擎正式发布豆包视频生成模型 PixelDance 和 Seaweed,两款大模型均基于 DiT 架构,主要面向企业市场。字节跳动正式宣告进军 AI 视频生成领域,目前除了发布的演示外,没啥特别多的信息,不过可以关注字节的“即梦 AI” 公众号,发“内测”俩字来获取申请表单链接。我看好多人说比肩Sora,确实和Sora一样都用不上,要我说不如开源模型 Cog 来的实在,起码能用上。

文章图片
#人工智能
阿里开源 OmniAvatar:音频驱动数字人模型

NVIDIA 推出的 Describe Anything Model (DAM)[3] 是一款多模态大语言模型,它能够为图像或视频中的特定区域生成详细描述,支持通过点击、框选、涂鸦或遮罩等多种交互方式指定目标区域。OmniAvatar[1] 是阿里开源的一款基于 Wan 2.1 的音频驱动数字人模型。从目前已有的开源数字人模型来看,OmniAvatar 的表现算是相当出色了。EasyEdit[2]

文章图片
#人工智能
京东健康开源音频驱动的数字人头项目 JoyVASA

是京东健康开源的一个音频驱动的数字人头项目,它不仅支持唇形一致和表情控制,还能为动物生成数字头。这类技术在市场上非常多,有需求的读者可以在三花上搜索‘数字人’,不过真正落地的不多,JoyVASA 看起来是个不错的选择。

文章图片
#人工智能
Aria-UI:领先的 GUI 多模态模型,AndroidWorld 基准测试第一

是一个专为 GUI 基础设计的大型多模态模型,类似于 Claude Computer use。它无需 HTML 或 AXTree 输入,采用纯视觉方法。作为 Moe 模型其速度也非常快。在 AndroidWorld 基准测试中以 44.8% 的成功率排名第一。,确实速度挺快的,不过该技术是底层模型,没有封装成可交互的应用。

文章图片
#人工智能
AnchorCrafter:AI 驱动的高效带货视频生成技术

是一项创新技术,只需输入角色图片和要推广的产品,即可生成自然流畅的带货视频。

文章图片
#人工智能
抖音国际版 Symphony AI 内容创作工具合集支持创建数字人

Symphony Assistant:创意灵感、最佳实践、趋势识别和灵感发现,这个已经可以用了,官网右上角点击就能打开对话窗口,支持中文。Symphony Creative Studio: 提供产品介绍和素材,就能自动生成视频,并支持翻译为多种语言。TikTok Ads Manager: 集成 Symphony 创意增强功能,简化 AI 驱动的广告创作流程。Symphony Digital Ava

文章图片
#人工智能
百度与复旦大学联合开源 Hallo3:革命性数字人头动画技术

是复旦大学和百度联合开源的数字人头(肖像动画)技术,能让静态肖像在各种场景下动起来,而且动作自然、画面逼真。它不仅能处理正面肖像,还能应对各种角度和姿态,甚至能让肖像与周围物体互动。相比,Hallo3 在生成动态场景和沉浸式背景方面有了显著提升,让肖像动画不再局限于简单的表情变化,而是能将角色也融入到场景中。

文章图片
#人工智能
谷歌推出 Veo2:顶级视频生成模型

该模型能够生成分辨率高达 4K 的视频,并能根据提示词完成相机控制,如广角镜头、POV 和无人机拍摄,更好地遵循物理效果。从官方演示来看,效果非常出色,甚至优于 Sora。视频模型,支持文生视频和图生视频。的候补名单才有机会体验。

文章图片
#人工智能#图像处理
    共 209 条
  • 1
  • 2
  • 3
  • 21
  • 请选择