logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

阿里发布TTS新作CosyVoice 3,语音合成更准、更自然!!

在我们之前的工作中,我们介绍了一个可扩展的流式语音合成模型CosyVoice 2,该模型集成了大型语言模型(LLM)和分块感知流匹配(FM)模型,并实现了低延迟双向流式语音合成和人类水平的质量。尽管取得了这些进展,但CosyVoice 2在语言覆盖范围、领域多样性、数据量、文本格式和后训练技术方面仍存在局限性。

文章图片
#语音识别#人工智能#自然语言处理 +3
We-MP-RSS:微信公众号订阅管理的开源利器

We-MP-RSS 是一个功能强大、易于使用且高度可配置的微信公众号订阅工具。它不仅提供了丰富的功能特性,还支持多种部署方式,适合个人用户和团队使用。适合需要高效地管理和订阅微信公众号内容。

文章图片
#oracle#数据库#人工智能 +3
presenton:告别PPT熬夜!这个开源神器让AI帮你做演示文稿,本地部署不泄露数据

【PPT制作神器Presenton开源上线】这款本地部署的AI工具能自动生成专业演示文稿,支持多种模型自由组合(如GPT-4、Llama等),完美适配企业品牌模板。3分钟即可通过Docker部署,数据完全私有,还能用API批量生成。相比付费工具,它更安全灵活,支持PPTX/PDF导出,彻底告别排版熬夜。项目正在快速迭代,现已开放GitHub下载,是职场人士和学术工作者的效率利器。

文章图片
#人工智能#软件工程#算法 +1
国产AI女友开源了!24小时在线、可定制人设,网友:赛博灵魂伴侣终于来了?

《开源AI伴侣Airi爆火:技术+情感的双重革命》 GitHub开源项目Airi两周内斩获5K星,成为现象级"电子伴侣"。这款基于大语言模型的AI突破传统聊天机器人局限,具备动态人格建模、长期记忆和情境感知能力,能根据用户习惯提供个性化陪伴。其开源特性允许开发者高度定制人格参数,已有"东北唠嗑版"等创意变体走红。Airi的走红折射出Z世代对情感陪伴的刚需与A

文章图片
#人工智能#自然语言处理#爬虫 +2
告别 “数据焦虑”!微软新方法 TPT:给文本加推理步骤,大模型训练数据效率提升 3 倍,多任务性能暴涨

本文介绍了一种简单且可扩展的方法,通过添加思维轨迹来增强现有的文本数据,从而提高大型语言模型(LLM)训练的数据效率。预训练LLM的计算需求正在以空前的速度增长,而高质量数据的可用性仍然有限。因此,最大化利用现有数据成为一个重要的研究挑战。主要障碍是,在固定的模型容量下,某些高质量的标记很难被学习,因为单个标记背后的推理可能异常复杂且深入。

文章图片
#深度学习#人工智能#机器学习 +1
Opik:从调试黑洞到透明可控:这款开源工具让 LLM 应用开发效率提升 300%

做LLM应用就像在黑屋子里修灯,Opik不是直接给你换灯泡,而是先打开手电筒照亮整个房间。它不替代开发者的判断,却能提供前所未有的清晰度。聊聊看:你开发LLM应用时,最头疼的评估难题是什么?

文章图片
#深度学习#人工智能#机器学习 +2
微软开源神器MarkItDown:一键把PPT/PDF/Excel转成markdown,LLM直呼内行!

摘要:微软开源MarkItDown工具,专为AI打造文档转换神器 该工具能将PDF、Word、Excel、PPT等复杂格式文件转换为结构清晰的Markdown,保留标题、列表、表格等语义信息,显著提升大模型处理效率。支持多媒体文件(图片、音频、视频)元数据提取,集成Azure云端OCR增强识别。采用模块化设计,开发者可扩展插件生态。MIT许可下,该工具为RAG、Agent等AI应用提供了高效的&q

文章图片
#microsoft#开源#机器学习 +2
只用一行代码,碾压SFT:东南大学等团队提出DFT,让大模型数学能力暴涨5倍

我们提出了一种简单且具理论依据的改进方法——动态微调(DFT),以解决大语言模型监督微调(SFT)在泛化能力上逊于强化学习(RL)的问题。

文章图片
#人工智能#自然语言处理#语言模型 +2
WhisperLiveKit:本地部署实时语音转文字+说话人识别,这个开源神器让会议纪要秒生成!

开源实时语音转文字工具WhisperLiveKit上线,支持本地部署、多人对话识别和低延迟转录。该工具整合WhisperStreaming和SimulStreaming技术,1秒内完成语音转写,可区分不同说话人,保证隐私安全。提供简单安装教程,支持多语言互译和浏览器插件,适合会议记录、内容创作等场景。项目免费开源,但高性能模型需要较强硬件支持。

文章图片
#开源#音视频#深度学习 +3
又一个AI神器开源!专治大模型“瞎说话“,数据质量评估直接封神

你是不是是不是也遇到经历过这种崩溃时刻:让大模型写份报告,结果引用了不存在的研究;用RAG做知识库问答,答案驴唇不对马嘴;辛辛苦苦标注的数据,训练出的模型却频频"幻觉"……现在,这些头疼问题有了新解法——正式开源!这款被业内称为"AI数据质检官"的工具,直接把RAG幻觉检测精度干到94.6%,还能一键搞定50+项数据质量评估指标。

文章图片
#人工智能#语言模型#自然语言处理 +2
    共 73 条
  • 1
  • 2
  • 3
  • 8
  • 请选择