logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【多模态大模型】Janus-Pro+ms-swift 推理-微调

我们介绍使用ms-swift对deepseek-ai/Janus-Pro-7B进行微调(注意:目前只支持图像理解的训练而不支持图像生成)。这里,我们将展示可运行的微调demo,并给出自定义数据集的格式。conda create -n swift #创建虚拟环境。如果要使用自定义数据集进行训练,你可以参考以下格式,并指定。在开始微调之前,请确保您的环境已准备妥当。微调完成,保存到output。是一个

文章图片
#AIGC#python#人工智能 +2
F5-TTS论文、代码学习分享

通过简化输入建模、优化扩散架构与采样策略,实现高效且高质量的非自回归语音合成。一个基于E2 TTS模型的模型,通过ConvNeXt文本建模DiT架构轻量化与动态采样策略,解决了传统非自回归TTS的收敛慢、对齐差、推理效率低等痛点,实现了高效、鲁棒的语音合成。

#学习#AIGC#人工智能
UVR-MDX-NET模型总结对比

以下是对 MDX-Net 系列模型的总结对比表格,帮助读者快速了解各个模型的特点和适用场景。模型名称特点与优势适用场景主流音频分离模型,支持多任务处理一般音乐制作、音频分离高质量人声提取模型,支持 fine-tuning人声提取、背景音乐去除高质量乐器与人声分离模型专业音乐制作、乐器与人声分离高质量乐器分离模型专业音乐制作、乐器分离高质量乐器分离模型,针对复杂音频场景优化复杂音乐场景、乐器分离​高

#人工智能#网络
LatentSync论文-代码学习分享

视频+音频->视频口型同步更像是一个视频到视频的编辑框架,需要保持嘴巴以外的区域与输入视频一致图像+音频->视频音频驱动人像动画更像是一个图像到视频的动画框架,可以改变头部的运动,甚至面部表情,整体框架的差异导致了唇形同步:Wav2Lip、Diff2LipMuseTalkMyTalk音频驱动的肖像动画:EMO、HalloEchoMimicVASA-1DreamTalkSadTalker。

文章图片
#深度学习#人工智能#算法
到底了