logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

AISHELL-5 全球首套智能驾舱中文语音交互数据集开源

AISHELL-5作为首个开源的真实车载多通道中文语音识别数据集,填补了智能驾舱语音交互研究领域的数据空白。该数据集包含893.7小时真实车内录音(含706小时对话和187小时噪声),采集自165名说话人在60多个车载场景下的多方位麦克风信号。由希尔贝壳联合理想汽车等机构发布的该项研究入选INTERSPEECH2025会议,配套开源基线系统展示了主流ASR模型在复杂驾舱环境中的性能挑战。数据集下载

文章图片
#交互
希尔贝壳受邀参加IEEE自动语音识别与理解研讨会-ASRU 2021

ASRU 2021 IEEE Automatic Speech Recognition and Understanding Workshop将于2021年12月13日至17日在哥伦比亚卡塔赫纳举行。希尔贝壳作为此次ASRU的赞助商应邀参会。

#语音识别#人工智能
全球首个混合推理模型:Claude 3.7 Sonnet来袭,最强编程大脑暴击DeepSeek R1

具体而言,通过调用等同于256个独立样本的计算资源,结合训练优化的评分模型,并设置最大64,000个Token的推理限额,Claude 3.7 Sonnet在GPQA测试中达到了84.8%的总体得分(其中物理学部分高达96.5%)。仅仅这两条提示之后,就出现了一个功能齐全的交互式体验,甚至还配有粗糙但迷人的像素图像(这些图像实际上令人惊讶地印象深刻——AI必须使用纯代码「绘制」这些图像,而无法看到

文章图片
#人工智能#大数据#语言模型 +1
融声向善语音资源开源计划丨AISHELL-6 系列特殊声学特征语音语料库全面开放,助力人机交互向善发展

未来,希尔贝壳将秉持长期开源、优质开源的原则,持续迭代并开源更多覆盖多元场景、适配特殊需求的高质量语音数据集,为全球语音技术领域的模型创新、算法优化及应用落地提供坚实的数据支撑,助力破解非典型语音研究中的技术瓶颈,推动语音智能技术向更精准、更普惠、更多元的方向发展。我们期望以该语料库为纽带,凝聚全球协作力量,打破地域与技术壁垒,共建包容、公平、可持续的全球语音技术研究生态,推动语音技术普惠落地,覆

文章图片
#开源#人机交互
WenetSpeech-Wu:“史上最大”的多维度标注吴语语音数据集来啦!

摘要:希尔贝壳联合多家研究机构推出首个大规模吴语语音语料库WenetSpeech-Wu,包含8000小时多维度标注数据,覆盖8种吴语子方言和13个领域。针对吴语语音处理生态匮乏问题,团队同时发布标准化评测基准WenetSpeech-Wu-Bench,涵盖ASR、语音翻译、情感识别等6项任务,并开源多个高性能语音处理模型。实验表明,基于该数据集训练的模型在各项任务中均显著优于现有系统,其中Confo

文章图片
#开源
中国版Sora震撼登场,原生16秒直出超清视频!国产黑马火了,世界模型签约多个大客户

2024年5月,极佳科技联合国内外多家单位推出了全球首篇通用世界模型综述,该综述通过260余篇文献,对世界模型在视频生成、自动驾驶、智能体、通用机器人等领域的研究和应用进行了详尽的分析和讨论,该综述还审视了当前世界模型的挑战和局限性,并展望了它们未来的发展方向。「视界一粟 YiSu」基于团队自研的视频生成大模型技术,并没有止步于DiT,而是融合LLM和扩散模型的自研架构,结合各种路线的优势,在多模

文章图片
#人工智能#开源#语音识别
英伟达年终核弹!全新B300为o1推理大模型打造,RTX5090也曝光了

梦晨 西风 发自 凹非寺量子位 | 公众号 QbitAI英伟达老黄,成了今年的圣诞老黄。AI芯片大礼包刚刚曝光:GPU新核弹,以及附带CPU的超级芯片。,在产品层面上相比B200在FLOPS上提高50%,从192GB提升到288GB,也是提高了50%。包含72块GB300的“新一代计算单元,更是被评价为“能让OpenAI o1/o3推理大模型的思维链长度,在高batch size下达到10万tok

文章图片
#人工智能
全球首个超大规模、多维度标注开源粤语语音数据集丨WenetSpeech-Yue发布

摘要:WenetSpeech-Chuan是首个大规模多维标注的川渝方言语音语料库,包含10,000小时来自9大领域的语音数据,并配有ASR转录、说话人属性、情感等多维度标注。针对川渝方言语音技术发展受限的问题,研究团队提出完整的Chuan-Pipeline处理框架,创新性地采用LLM-GER转录方法提升方言识别准确率15%。实验表明,基于该数据集训练的模型在ASR和TTS任务中性能超越现有SOTA

文章图片
#人工智能
文字转语音、语音转文字! AI视频生成神器!

分享一波文字转语音、语音转文字!AI视频生成神器!让外国人说中文,口型自然,不限语言,感兴趣的同学可以试试~

文章图片
#人工智能
超越Devin!姚班带队,他们创大模型编程新世界纪录

SWEBench排行榜上迎来了新玩家——,姚班带队初创公司OpenCSG出品,以23.67%的成绩获得全球第二名的成绩。同时创造了(SOTA)。我们都知道,SWEBench评测高度贴近真实编程场景,难度极高,不仅要求模型能理解需求、协调多个函数/类甚至文件的变更,还要求模型与执行环境交互,处理超长上下文并执行远超传统代码生成任务的复杂逻辑推理。在这种高难度的真实测试中,行业中最先进的GPT4和De

文章图片
#人工智能#深度学习#语言模型
    共 38 条
  • 1
  • 2
  • 3
  • 4
  • 请选择