
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
EchoMimic是一个由蚂蚁集团开发的AI项目,主要用于生成高质量的数字人像动画。这个项目特别之处在于它能够根据人像的面部特征和音频内容来帮助人物“对口型”,即让静态的照片或者图像中的角色看起来像是在说话或唱歌,生成的视频效果既稳定又自然。EchoMimic项目通过音频驱动和面部标志点驱动的结合,解决了传统方法中存在的不稳定性和不自然性的问题。EchoMimic通过深度学习模型,实现了音频和面部

VITA-MLLM,全称Visual Interactive Task AI - Multimodal Large Language Model,是由腾讯优图实验室联合南京大学、厦门大学以及中国科学院自动化研究所共同研发的首个开源多模态大语言模型。VITA-MLLM是一个基于Mixtral8×7B基础架构的扩展模型,它通过增加中文词汇量并进行双语指令微调来提升其在中文环境下的表现。不同于传统的单模

Parler-TTS是一个由 Hugging Face 推出的开源文本转语音(TTS)项目。Parler-TTS不仅提供了高保真的语音合成能力,还允许用户根据特定说话者的风格(如性别、音调、说话风格等)来定制声音,从而生成听起来更加自然和个性化的语音。虽然Parler-TTS提供了高质量的语音合成,但其设计上考虑了效率和资源消耗,使其成为一个轻量级的解决方案,适合各种应用场景。

Qwen2-Audio是由阿里巴巴集团研发的一款大型音频语言模型。Qwen2-Audio应用技术包括多模态输入处理、预训练与微调、注意力机制、条件文本生成、编码器-解码器架构以及Transformer架构。Qwen2-Audio支持直接语音输入和多语言文本输出,具备语音聊天和音频分析两大功能,并支持超过8种语言,包括中文、英语、粤语、法语等。

Emu3是由北京智源人工智能研究院推出的一款原生多模态世界模型。Emu3模型的特点在于它能够处理和理解多种类型的数据,包括文本、图像以及视频,并且在这些不同模态之间实现统一的输入和输出。Emu3的核心是下一个token预测,属于一种自回归方法,模型被训练预测序列中的下一个元素,无论是文本、图像还是视频。为了处理大规模的数据集,Emu3采用了张量并行、上下文并行和数据并行相结合的方法,以便有效地利用

Qwen2-Audio是由阿里巴巴集团研发的一款大型音频语言模型。Qwen2-Audio应用技术包括多模态输入处理、预训练与微调、注意力机制、条件文本生成、编码器-解码器架构以及Transformer架构。Qwen2-Audio支持直接语音输入和多语言文本输出,具备语音聊天和音频分析两大功能,并支持超过8种语言,包括中文、英语、粤语、法语等。

VITA-MLLM,全称Visual Interactive Task AI - Multimodal Large Language Model,是由腾讯优图实验室联合南京大学、厦门大学以及中国科学院自动化研究所共同研发的首个开源多模态大语言模型。VITA-MLLM是一个基于Mixtral8×7B基础架构的扩展模型,它通过增加中文词汇量并进行双语指令微调来提升其在中文环境下的表现。不同于传统的单模

Parler-TTS是一个由 Hugging Face 推出的开源文本转语音(TTS)项目。Parler-TTS不仅提供了高保真的语音合成能力,还允许用户根据特定说话者的风格(如性别、音调、说话风格等)来定制声音,从而生成听起来更加自然和个性化的语音。虽然Parler-TTS提供了高质量的语音合成,但其设计上考虑了效率和资源消耗,使其成为一个轻量级的解决方案,适合各种应用场景。

Vchitect2.0,也称为书生·筑梦2.0,是由上海人工智能实验室推出的一款新一代视频生成大模型。Vchitect2.0模型集成了文生视频、图生视频、插帧超分、训练系统一体化的功能,支持长达5秒至20秒的视频生成,分辨率可达到720x480。Vchitect 2.0还支持多种视频格式,包括横屏、竖屏、4:3、9:16和16:9等比例,极大地扩展了其应用场景。

CogVideo是由智谱AI开源的视频生成模型,它是与商业版视频生成产品“清影”同源的模型。CogVideoX-2B是CogVideoX系列中的第一个模型,拥有20亿参数,支持在单张4090显卡上进行推理,推理时的显存消耗为18GB,微调时显存消耗为40GB。CogVideoX-2B通过3D VAE在空间和时间维度上压缩视频数据,实现了高压缩率和优秀的重建质量。此外,模型还包括编码器、解码器和潜在








