logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

新一代 Kaldi 中的 LSTM GradientFilter

本文介绍新一代 Kaldi 中的 LSTM GradientFilter:相关代码:https://github.com/k2-fsa/icefall/blob/master/egs/librispeech/ASR/pruned_transducer_stateless2/scaling.py#L115。

文章图片
#lstm#深度学习#rnn
最强开源中英双语大模型发布,340亿参数超越Llama2-70B !

未来,FlagScale 将继续保持与上游项目 Megatron-LM 最新代码同步,引入更多定制功能,融合最新的分布式训练与推理技术以及主流大模型、支持异构AI硬件,力图构建一个通用、便捷、高效的分布式大模型训练推理框架,满足不同规模和需求的模型训练任务。在开放式的环境中学习多种任务是通用智能体的重要能力。《我的世界》(Minecraft)作为一款受欢迎的开放世界游戏,具有无限生成的复杂世界和大

文章图片
#开源#人工智能#深度学习 +1
【开源项目】Flow Matching 语音合成

时光仿佛有穿越到了从前,在你诗情画意的眼波中,在你舒适浪漫的暇思里,我如风中的思绪徜徉广阔天际,仿佛一片沾染了快乐的羽毛,在云环影绕颤动里浸润着风的呼吸,风的诗韵,那清新的耳语,那婉约的甜蜜,那恬淡的温馨,将一腔情澜染得愈发的缠绵。(Grad-TTS-CFM,使用BigVGAN通用声码器,优化1&3&5还未集成,还有明显发音错误)CFM是一种新技术,已被证明可以改进扩散模型,Meta的Voiceb

文章图片
#语音识别#人工智能#开源 +2
​Edge-TTS:微软推出的,免费、开源、支持多种中文语音语色的AI工具

edge-tts --voice zh-CN-YunyangNeural --text "大家好,欢迎关注语音之家,语音之家是一个助理AI语音开发者的社区。查询结果中的Gender为声音的性别,Name为声音的名字,如zh-CN-YunjianNeural,其中zh表示语言,CN表示国家或地区,可以根据需求选择不同的声音。它接受与 edge-tts 选项相同的参数。此外,必须使用 --rate=-

文章图片
#edge#microsoft#前端
知识类问答数据集资源对外开放:百万级百度知道、社区问答及六大领域级小规模语料概述

本文主要介绍目前开源可下载的两个较大规模的知识类数据集,包括147万百度知道知识类数据集、425万社区问答webtext2019zh知识类数据2大数据集,以及8000条保险行业问答数据、15.6万条电信问答数据、77万条金融行业问答数据、20.3万条联通问答数据以及4万条农业银行问答数据等6大小规模领域问答数据集。

文章图片
#语音识别#人工智能
58同城AI Lab在WeNet中开源GPU热词增强功能

端到端语音识别系统在足够多数据上训练后,往往能达到不错的识别效果,然而在实际应用场景中,对于不常见的专有名词,例如人名、产品名、小区名等,往往容易识别错误,此类问题需要快速修复,这就需要用到热词增强功能。

文章图片
#人工智能#语音识别
阿里达摩院五年磨一剑,重磅推出AI模型社区,直击“AI应用难”

中国计算机学会副理事长、澜舟科技创始人兼CEO周明博士表示,随着预训练模型的兴起,魔搭这样的模型社区有望成为AI时代的基础设施,能将AI模型以较低门槛提供给广大开发者,让AI惠及全社会。目前已上架的中文模型超过100个,占比超过1/3,包括了一批探索人工智能前沿的中文大模型,如阿里通义大模型系列、澜舟科技的孟子系列模型、智谱AI的中英双语千亿大模型等。,旨在降低AI的应用门槛。达摩院率先向魔搭社区

文章图片
#人工智能#深度学习
2.8k star! 用开源免费的edge-tts平替科大讯飞的语音合成服务

edge-tts是github上的一个开源项目,可以免费将文本转为语音,别看它只有2.8k star,替代科大讯飞的收费TTS服务完全没问题,因为这个项目实际是调用的微软edge的在线语音合成服务,支持40多种语言,300多种声音,效果毋容置疑。

文章图片
#edge#前端#语音识别 +3
ESPnet-SE 开源工具介绍

今天主要是围绕ESPnet-SE这个工具做一个简单的介绍。

文章图片
#人工智能
一文全面了解火山语音无监督预训练技术的落地实践

现有的模型在10万小时规模时其性能就接近饱和,团队在中文10万小时标注数据训练的模型基础上,利用100万小时无标注数据做NST[10]训练,在通用测试集上取得相对7%的CER下降,同时模型的泛化能力得到明显的改善,在20个领域测试集上平均CER相对下降15%。以中文普通话和英语这样的大语种为例,尽管视频平台提供了充足的业务场景语音数据,但有监督数据达到一定规模之后,继续标注的ROI将非常低,必然需

文章图片
#语音识别#人工智能
暂无文章信息