
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
AISHELL-5作为首个开源的真实车载多通道中文语音识别数据集,填补了智能驾舱语音交互研究领域的数据空白。该数据集包含893.7小时真实车内录音(含706小时对话和187小时噪声),采集自165名说话人在60多个车载场景下的多方位麦克风信号。由希尔贝壳联合理想汽车等机构发布的该项研究入选INTERSPEECH2025会议,配套开源基线系统展示了主流ASR模型在复杂驾舱环境中的性能挑战。数据集下载

ASRU 2021 IEEE Automatic Speech Recognition and Understanding Workshop将于2021年12月13日至17日在哥伦比亚卡塔赫纳举行。希尔贝壳作为此次ASRU的赞助商应邀参会。
具体而言,通过调用等同于256个独立样本的计算资源,结合训练优化的评分模型,并设置最大64,000个Token的推理限额,Claude 3.7 Sonnet在GPQA测试中达到了84.8%的总体得分(其中物理学部分高达96.5%)。仅仅这两条提示之后,就出现了一个功能齐全的交互式体验,甚至还配有粗糙但迷人的像素图像(这些图像实际上令人惊讶地印象深刻——AI必须使用纯代码「绘制」这些图像,而无法看到

未来,希尔贝壳将秉持长期开源、优质开源的原则,持续迭代并开源更多覆盖多元场景、适配特殊需求的高质量语音数据集,为全球语音技术领域的模型创新、算法优化及应用落地提供坚实的数据支撑,助力破解非典型语音研究中的技术瓶颈,推动语音智能技术向更精准、更普惠、更多元的方向发展。我们期望以该语料库为纽带,凝聚全球协作力量,打破地域与技术壁垒,共建包容、公平、可持续的全球语音技术研究生态,推动语音技术普惠落地,覆

摘要:希尔贝壳联合多家研究机构推出首个大规模吴语语音语料库WenetSpeech-Wu,包含8000小时多维度标注数据,覆盖8种吴语子方言和13个领域。针对吴语语音处理生态匮乏问题,团队同时发布标准化评测基准WenetSpeech-Wu-Bench,涵盖ASR、语音翻译、情感识别等6项任务,并开源多个高性能语音处理模型。实验表明,基于该数据集训练的模型在各项任务中均显著优于现有系统,其中Confo

2024年5月,极佳科技联合国内外多家单位推出了全球首篇通用世界模型综述,该综述通过260余篇文献,对世界模型在视频生成、自动驾驶、智能体、通用机器人等领域的研究和应用进行了详尽的分析和讨论,该综述还审视了当前世界模型的挑战和局限性,并展望了它们未来的发展方向。「视界一粟 YiSu」基于团队自研的视频生成大模型技术,并没有止步于DiT,而是融合LLM和扩散模型的自研架构,结合各种路线的优势,在多模

梦晨 西风 发自 凹非寺量子位 | 公众号 QbitAI英伟达老黄,成了今年的圣诞老黄。AI芯片大礼包刚刚曝光:GPU新核弹,以及附带CPU的超级芯片。,在产品层面上相比B200在FLOPS上提高50%,从192GB提升到288GB,也是提高了50%。包含72块GB300的“新一代计算单元,更是被评价为“能让OpenAI o1/o3推理大模型的思维链长度,在高batch size下达到10万tok

摘要:WenetSpeech-Chuan是首个大规模多维标注的川渝方言语音语料库,包含10,000小时来自9大领域的语音数据,并配有ASR转录、说话人属性、情感等多维度标注。针对川渝方言语音技术发展受限的问题,研究团队提出完整的Chuan-Pipeline处理框架,创新性地采用LLM-GER转录方法提升方言识别准确率15%。实验表明,基于该数据集训练的模型在ASR和TTS任务中性能超越现有SOTA

分享一波文字转语音、语音转文字!AI视频生成神器!让外国人说中文,口型自然,不限语言,感兴趣的同学可以试试~

SWEBench排行榜上迎来了新玩家——,姚班带队初创公司OpenCSG出品,以23.67%的成绩获得全球第二名的成绩。同时创造了(SOTA)。我们都知道,SWEBench评测高度贴近真实编程场景,难度极高,不仅要求模型能理解需求、协调多个函数/类甚至文件的变更,还要求模型与执行环境交互,处理超长上下文并执行远超传统代码生成任务的复杂逻辑推理。在这种高难度的真实测试中,行业中最先进的GPT4和De








