logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

热词增强和热词唤醒在实现上的区别是什么?

热词增强是语音识别中的一项技术,它对一些特定场景中特定名词做实时的定向增强,一般会部署在算力比较强劲的端侧。热词唤醒即为Hot Word或者Wake-up Word,是一个轻量级的关键词检测,通常部署在端侧的设备上,如音响、手机等。它占用资源很小,网络规模一般在几十k到几百k。...

文章图片
#人工智能#语音识别
Azure 语音用人工智能改变游戏开发的三种方式

通过 Azure 认知服务的智能语音功能[1],用户可以使用语音 SDK 开发工具包快速构建支持语音交互的各种应用。将语音转录为准确的文本 (STT,或语音识别)或者将文本转换成生动的语音 (TTS,或语言合成),从未像今天如此简单。

文章图片
#人工智能#azure#语音识别
Sora 2瑟瑟发抖!通义万相2.5放大招:一句话出1080P电影,音画精准同步

Veo 3真正对手,竟不是Sora 2!通义万相2.5全网首发,直接甩出王炸:一句话,直出10秒1080P电影级视频,首次实现音画精准同步。一键生成BGM、人声,全网实测玩疯。四个月前,谷歌DeepMind重磅推出Veo 3,首次实现「音画同步」,让AI视频彻底告别无声时代!一段提示,可以直吐4K高清视频,还自带逼真音效,唇同步准到毫秒级别。在云栖大会上,通义万相2.5(Wan2.5-previe

文章图片
#人工智能
2.8k star! 用开源免费的edge-tts平替科大讯飞的语音合成服务

edge-tts是github上的一个开源项目,可以免费将文本转为语音,别看它只有2.8k star,替代科大讯飞的收费TTS服务完全没问题,因为这个项目实际是调用的微软edge的在线语音合成服务,支持40多种语言,300多种声音,效果毋容置疑。

文章图片
#edge#前端#语音识别 +3
基于新一代kaldi项目的语音识别应用实例

本文是由郭理勇在第二届SH语音技术研讨会和第七届Kaldi技术交流会上对新一代kaldi项目在学术及“部署”两个方面报告的内容上的整理。如果有误,欢迎指正。

文章图片
#语音识别#人工智能
Rectified Flow Matching 语音合成,上海交大开源

https://github.com/cantabile-kwok/VoiceFlow-TTS(持续更新中)rectified flow matching 与 flow matching 对比效果。rectified flow matching 与 grad-tts 对比效果。项目实现的参考信息,可以看到该项目做的工作很完备。VoiceFlow框图。

文章图片
#语音识别#人工智能#交友
非Transformer架构站起来了!首个纯无注意力大模型,超越开源巨头Llama 3.1

例如,在 Arc、TruthfulQA 和 GSM8K 基准测试中,Falcon Mamba 7B 的得分分别为 62.03%,53.42% 和 52.54%,超过了 Llama 3 8 B, Llama 3.1 8B, Gemma 7B 和 Mistral 7B。具体而言,Falcon Mamba 7B 经过了 AdamW 优化器、WSD(预热 - 稳定 - 衰减)学习率计划的训练, 并且在前

文章图片
#transformer#架构#语言模型
诺贝尔物理学奖为啥颁给AI?谈谈人工智能的历史变迁及对人类社会的影响

直到2012年,Geoffrey Hinton带着他的学生Alex在李飞飞构建的ImageNet图像大数据上,用提出的Alex网络将识别性能比前一届一次性提高将近10个百分点,这才让大部分的人工智能学者真正转向深度学习,因为以之前每届用统计机器学习方法较上一届提升性能的速度估计,这次的提高需要用20多年时间。尽管从神经生理学角度来看,这个网络的记忆能对应于原型说,每个神经元可以看成是一个具有某个固

文章图片
#人工智能#云计算
【智能语音】什么是第三代人工智能?

自1956年达特茅斯会议以来,人工智能经历了60多年的风风雨雨。在《中国科学》70周年纪念专刊上,清华大学张钹院士等撰文《迈向第三代人工智能》,提出了第三代人工智能的概念[1]。按张钹老师的观点,人工智能语音技术的发展总体可以分为两个阶段:基于知识驱动的方法和基于数据的方法,分别称为第一代人工智能语音和第二代人工智能语音。在第一代人工智能中,人类的知识具有核心地位。人们将定理、概念、经验等知识形式

文章图片
#人工智能
2.8k star! 用开源免费的edge-tts平替科大讯飞的语音合成服务

edge-tts是github上的一个开源项目,可以免费将文本转为语音,别看它只有2.8k star,替代科大讯飞的收费TTS服务完全没问题,因为这个项目实际是调用的微软edge的在线语音合成服务,支持40多种语言,300多种声音,效果毋容置疑。

文章图片
#edge#前端#语音识别 +3
    共 89 条
  • 1
  • 2
  • 3
  • 9
  • 请选择