最近玩了下数字人生成工具:D-ID,HeyGen和SadTalker(其中SadTalker是SD开源,就不作特别介绍了)。

网上关于这些数字人工具的教程很多,大家自行搜索学习哈~本文主要来闲聊一下用户产品体验设计,也是AGI产品体验设计杂谈001期-数字人生成。


D-ID

访问链接:https://www.d-id.com/

2d40cfe411079549730a4445eeeeb998.png

(图片素材来自D-ID官网)

D-ID的产品功能之一,chat.D-ID,face-to-face聊天对话。比如在销售、客服、培训等场景下,使用数字人模型沟通。并支持提供API接口和模型集成。

47ac05dc72a033c1522624ca1929d00f.gif

D-ID的产品功能之二,创建数字人。目前有2种创建方式,一种是prompt生成,一种是图片生成。语音支持GPT3输入、文本输入和音频输入。

59470459ca327b880937529ae96cb205.gif

2种方式都尝试了一下。关键词也调整了多次,prompt生成的数字人有点辣眼睛。如果不想用它自带的,推荐上传自己图吧。

上传图片生成e74df7376076a9d8667243fe9355dd29.png

Prompt生成

2a99f99f38483114c161b25577ba60fa.png

交互流程比较简单。从注册后,直接进入主界面,进行数字人生成。以鼠标点击和输入为主,没有语音输入。

界面布局结构设计,比较工程化导向。信息模块化区分比较清楚,但人机交互框架比较呆板。当用户主操作是数字人像生成时,界面信息冗余,不需要操作的功能固定在整个界面框架中,造成有效利用空间局促。

303d4cb99385dcb76bd82e4a9d13f79b.png

声音可选择,国家地区语言(甚至有吴侬软语方言),性别(包含不同年龄段的音质),语气(负面和正面情绪)。数字人生成后的效果,基本满足一个简单数字人需求,但可能是免费版的原因,嘴形匹配和图像质量并不是很好(详见本文开头的视频)。

8be783fd9c06fcd5d72b5494abcf6350.png

71b89cdb804c7d4a94551da63ab54e80.png

c04084320b5bcc202eaec06d524648b3.png

产品价格定位如下。D-ID数字人限20分钟免费体验。

8c0cb3318d750f12ef180e4c93cdce87.png

HeyGen

点击邀请链接:https://app.heygen.com/guest/templates?cid=a01967c5

8ca407ef99917046c14c31694ade9574.png

(图片素材来自HeyGen官网)

c27891e4f6b87bad2201e659dcc5b16e.png

比起D-ID以主打产品功能为介绍,HeyGen的官网营销内容有不少。比如,为什么选择HeyGen的四个理由,以及有针对性的5个场景中的应用案例,充分的让人去了解产品的使用。

b4ecd13c2dabbc5bbdff28dbf64adba2.png

上传图片生成

a8605d3b43c576af4b33f66e37fd60cf.png

自带Prompt生成

9f54e489bc06ae2c99deec7cb73270d2.png

还是建议自行上传合适的数字人照片,并可建立自己的数字人模型。

使用流程上,HeyGen拆解了用户步骤。当用户选定一个横向或纵向界面后,进入编辑生成内容,界面如下。HeyGen有丰富的视频模版供选择使用,也可以自己编辑PPT生成。

4ec4094d9486b074d4368d8946d8d6c9.png

语音输入,除了常规的文本和上传音频之外,HeyGen提供了5分钟的语音输入,

f84fd083e12ad376c490a89699a972f3.png

而声音选项,内容较多,HeyGen是单独的弹层来选择,且设置了筛选项目,比较清晰。

c72624f8c678c930593c37de7f65bba8.png

产品价格定位如下。HeyGen数字人每日1分钟免费体验。

df035a6815b922967ba3b1459dbe7e0a.png

数字人生成工具

除了D-ID、HeyGen...数字人的AGI工具还有很多,像synthesia、pictory...等等数不过来,还有fakeface这类的影视换脸技术,kupid这类在线聊天版Her,Chriper这类的创作型数字人...数字人生成工具的用户体验,和数字人实际应用场景中的体验,是2个分开又关联的话题。本次我们只浅谈了数字人生成工具体验,也欢迎大家留言和更多交流~

8d64ca60a284ff506b1015d58c4f6bb8.jpeg

社群入口

cd6e0e5b5e69d427bb09d450f5b28df6.jpeg

Logo

旨在为数千万中国开发者提供一个无缝且高效的云端环境,以支持学习、使用和贡献开源项目。

更多推荐