logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

“AI 正回应时,也可随时打断?”揭秘 GPT Realtime × Gemini 的“全双工魔力”,都离不开它!

就在最近,OpenAI 发布了 GPT-Realtime 语音模型,不仅能无缝处理打断和修正,还能捕捉笑声、停顿等非语言线索,甚至支持对话中无缝切换语言。几乎同时,社交平台Soul也展示了其自研端到端全双工语音通话大模型,打破传统“轮次对话”模式,赋予 AI 自主决策对话节奏的能力。语音中各种打断、反馈(比如“嗯”“对对”)、双说重叠、自然停顿、口语化表达,都需要真实、多样且标注精准的对话样本。依

文章图片
#人工智能#语音识别#数据库
模型开源|支持东方40语种+中国22方言的新SOTA语音大模型Dolphin开源啦!

在当今数字化时代,语音识别技术已成为人机交互的关键桥梁,广泛应用于智能客服、语音助手、会议转录等众多领域。然而,对于东方语言的识别如越南语、缅甸语等,现有模型往往表现不佳,难以满足用户的需求。为解决这一难题,支持东方40个语种的语音识别,中文语种支持22方言(含普通话);训练数据总时长21.2万小时:其中海天瑞声高质量专有数据13.8万小时,开源数据7.4万小时;在3个测试集(海天瑞声、Fleur

文章图片
#开源
高质量思维链(CoT)数据助力Deepseek成为国产大模型之光

而思维链(CoT)技术显式展示了模型在推理过程中所做的每一步推理和计算,使得模型的输出更加透明和易于理解。是近年来在人工智能领域逐渐被广泛采用的一种技术,它的核心优势在于通过模拟人类的思维过程,使得 AI 系统不仅能够做出决策,还能清晰地展示其推理过程。这种显式的推理过程提升了 AI 的可解释性和透明度,尤其在复杂的推理任务中,比传统模型更加出色。DeepSeek-R1采用了混合专家架构,能够根据

文章图片
#人工智能#自然语言处理
解锁 GPT-4o 背后数据带来的情绪价值

多模态数据涵盖文本、图像、音频、视频等,这些数据的收集和标注过程非常复杂且耗时,例如,视频数据需要逐帧标注画面中的物体、动作和背景环境,音频数据需要精细标注说话者的情感、语气和背景噪音等。当前的 AI 主要通过分析语言和语音的模式来“理解”情感,如通过改变语调和语速来表达快乐或悲伤,但这些表达往往缺乏人类的微妙和复杂性,无法完全复制人类的情感丰富性和自然流畅性。在客服、教育、娱乐等领域中,能够提升

文章图片
#人工智能#语音识别
模型开源|支持东方40语种+中国22方言的新SOTA语音大模型Dolphin开源啦!

在当今数字化时代,语音识别技术已成为人机交互的关键桥梁,广泛应用于智能客服、语音助手、会议转录等众多领域。然而,对于东方语言的识别如越南语、缅甸语等,现有模型往往表现不佳,难以满足用户的需求。为解决这一难题,支持东方40个语种的语音识别,中文语种支持22方言(含普通话);训练数据总时长21.2万小时:其中海天瑞声高质量专有数据13.8万小时,开源数据7.4万小时;在3个测试集(海天瑞声、Fleur

文章图片
#开源
Data-Centric AI 以数据为中心的人工智能

它由五个子目标组成,包括收集数据,用于添加信息标签的数据标记,用于清理和转换数据的数据准备,用于对原始数据做更further的processing,用于在不收集更多数据的情况下增强数据多样性。以数据为中心的AI不仅要求数据的数据大而且要求数据的质量高,需要专业的数据公司把控质量。数据的关键性日益凸显,特别是近年来大型模型的发展,如上图ChatGPT迭代过程所示,训练所需的数据不仅在质量上有所提升,

文章图片
#人工智能#机器学习
NCMMSC-CNVSRC 2023视觉语音识别竞赛圆满落幕

视觉语音识别,也称唇语识别,是一项通过口唇动作来推断发音内容的技术。12月9日晚,NCMMSC-CNVSRC 2023 学术研讨会在苏州召开的第十八届全国人机语音通讯学术会议(NCMMSC 2023)举办,会上公布了本次视觉语音识别竞赛 CNVSRC 2023 的获奖名次,在现场清华大学及各获奖团队进行精彩分享。研讨会中,清华大学王东老师主持技术交流会,海天瑞声副总经理、COO李科开场致辞并和语音

文章图片
#语音识别#人工智能#机器学习
数据清洗:大模型训练前的热身

经过清洗后的原始数据,约仅有1%成为语料库中的数据。

文章图片
#机器学习#语言模型#人工智能 +1
GPT-4o来了,超拟人语音合成系统的关键都在这里

GPT-4o 作为一款人机交互的先进大模型,融合了文本、语音和图像三种模态的理解能力,其响应速度之快、情感表达之丰富以及对人类行为的深刻理解,都标志着人机交互领域的又一次飞跃。然而,直接使用这些数据训练TTS模型可以更直接有效地学习如何表达情感、语气等副语言特征,简化系统结构,提高数据的一致性与质量,增强模型的泛化能力,并减少对外部系统的依赖。情感的自动检测是通过NLP技术实现,如情感分析,但如何

文章图片
#人工智能#语音识别
高质量思维链(CoT)数据助力Deepseek成为国产大模型之光

而思维链(CoT)技术显式展示了模型在推理过程中所做的每一步推理和计算,使得模型的输出更加透明和易于理解。是近年来在人工智能领域逐渐被广泛采用的一种技术,它的核心优势在于通过模拟人类的思维过程,使得 AI 系统不仅能够做出决策,还能清晰地展示其推理过程。这种显式的推理过程提升了 AI 的可解释性和透明度,尤其在复杂的推理任务中,比传统模型更加出色。DeepSeek-R1采用了混合专家架构,能够根据

文章图片
#人工智能#自然语言处理
    共 34 条
  • 1
  • 2
  • 3
  • 4
  • 请选择