
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
Qwen2-Audio是由阿里巴巴集团研发的一款大型音频语言模型。Qwen2-Audio应用技术包括多模态输入处理、预训练与微调、注意力机制、条件文本生成、编码器-解码器架构以及Transformer架构。Qwen2-Audio支持直接语音输入和多语言文本输出,具备语音聊天和音频分析两大功能,并支持超过8种语言,包括中文、英语、粤语、法语等。

Edge-tts是一个利用微软 Azure Cognitive Services 的在线文本转语音服务的 Python 库。它允许开发者在 Python 代码中使用该服务,而无需安装 Microsoft Edge 浏览器、Windows 操作系统或使用 API 密钥。这个Edge-tts库通过调用微软 Edge 浏览器的文本朗读相关 API 实现文本转语音功能,不需要本地部署模型,使用简单,声音效

CogVideo是由智谱AI开源的视频生成模型,它是与商业版视频生成产品“清影”同源的模型。CogVideoX-2B是CogVideoX系列中的第一个模型,拥有20亿参数,支持在单张4090显卡上进行推理,推理时的显存消耗为18GB,微调时显存消耗为40GB。CogVideoX-2B通过3D VAE在空间和时间维度上压缩视频数据,实现了高压缩率和优秀的重建质量。此外,模型还包括编码器、解码器和潜在

CogVideoX-5B 是由智谱AI开发的一款视频生成大模型,它是在先前版本CogVideoX-2B的基础上进行的重大升级。这一版本不仅提高了视频生成的质量,增强了视觉效果,而且还通过优化推理性能,降低了运行所需的硬件门槛,使得更多用户能够在现有的硬件条件下使用这一先进的技术。CogVideoX-5B模型采用了3D因果变分自编码器(3D causal VAE)和专家Transformer技术,结

GLM-4是智谱AI研发的最新一代开源基座预训练大模型,与GPT-4性能比肩,尤其擅长中文处理。该模型在多个关键领域进行了升级,比如提高了上下文处理长度至128KB,加快推理速度并降低成本,增强智能特性。它在“大海捞针”测试中展现了极高的精确度,并在多模态能力上接近DALLE-3,拓宽了其在图像和语音等领域的应用范围。

BLSP-Emo模型是一个创新的中英双语共情语音对话模型,特别是在跨语言情感理解和生成方面。该模型通过深度学习技术,特别是情感分析算法,精确识别用户言语中的情绪状态(如喜悦、悲伤、愤怒等),并能根据识别到的情绪生成相应的、富有同情心的回应。

GLM-4是智谱AI研发的最新一代开源基座预训练大模型,与GPT-4性能比肩,尤其擅长中文处理。该模型在多个关键领域进行了升级,比如提高了上下文处理长度至128KB,加快推理速度并降低成本,增强智能特性。它在“大海捞针”测试中展现了极高的精确度,并在多模态能力上接近DALLE-3,拓宽了其在图像和语音等领域的应用范围。

EchoMimic是一个由蚂蚁集团开发的AI项目,主要用于生成高质量的数字人像动画。这个项目特别之处在于它能够根据人像的面部特征和音频内容来帮助人物“对口型”,即让静态的照片或者图像中的角色看起来像是在说话或唱歌,生成的视频效果既稳定又自然。EchoMimic项目通过音频驱动和面部标志点驱动的结合,解决了传统方法中存在的不稳定性和不自然性的问题。EchoMimic通过深度学习模型,实现了音频和面部

GLM-4是智谱AI研发的最新一代开源基座预训练大模型,与GPT-4性能比肩,尤其擅长中文处理。该模型在多个关键领域进行了升级,比如提高了上下文处理长度至128KB,加快推理速度并降低成本,增强智能特性。它在“大海捞针”测试中展现了极高的精确度,并在多模态能力上接近DALLE-3,拓宽了其在图像和语音等领域的应用范围。

Yi-Coder是零一万物推出的一系列开源AI编程助手模型,专为提升代码生成、理解、调试和补全等任务的效率而设计。Yi-Coder能够处理长达128K tokens的上下文内容,有效捕捉长期依赖关系,适用于复杂项目级代码的理解和生成。Yi-Coder支持52种主要编程语言,包括但不限于Java、Python、C++、JavaScript等,能够在代码生成和跨文件代码补全方面表现优异。








