
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
在我们之前的工作中,我们介绍了一个可扩展的流式语音合成模型CosyVoice 2,该模型集成了大型语言模型(LLM)和分块感知流匹配(FM)模型,并实现了低延迟双向流式语音合成和人类水平的质量。尽管取得了这些进展,但CosyVoice 2在语言覆盖范围、领域多样性、数据量、文本格式和后训练技术方面仍存在局限性。

We-MP-RSS 是一个功能强大、易于使用且高度可配置的微信公众号订阅工具。它不仅提供了丰富的功能特性,还支持多种部署方式,适合个人用户和团队使用。适合需要高效地管理和订阅微信公众号内容。

【PPT制作神器Presenton开源上线】这款本地部署的AI工具能自动生成专业演示文稿,支持多种模型自由组合(如GPT-4、Llama等),完美适配企业品牌模板。3分钟即可通过Docker部署,数据完全私有,还能用API批量生成。相比付费工具,它更安全灵活,支持PPTX/PDF导出,彻底告别排版熬夜。项目正在快速迭代,现已开放GitHub下载,是职场人士和学术工作者的效率利器。

《开源AI伴侣Airi爆火:技术+情感的双重革命》 GitHub开源项目Airi两周内斩获5K星,成为现象级"电子伴侣"。这款基于大语言模型的AI突破传统聊天机器人局限,具备动态人格建模、长期记忆和情境感知能力,能根据用户习惯提供个性化陪伴。其开源特性允许开发者高度定制人格参数,已有"东北唠嗑版"等创意变体走红。Airi的走红折射出Z世代对情感陪伴的刚需与A

本文介绍了一种简单且可扩展的方法,通过添加思维轨迹来增强现有的文本数据,从而提高大型语言模型(LLM)训练的数据效率。预训练LLM的计算需求正在以空前的速度增长,而高质量数据的可用性仍然有限。因此,最大化利用现有数据成为一个重要的研究挑战。主要障碍是,在固定的模型容量下,某些高质量的标记很难被学习,因为单个标记背后的推理可能异常复杂且深入。

做LLM应用就像在黑屋子里修灯,Opik不是直接给你换灯泡,而是先打开手电筒照亮整个房间。它不替代开发者的判断,却能提供前所未有的清晰度。聊聊看:你开发LLM应用时,最头疼的评估难题是什么?

摘要:微软开源MarkItDown工具,专为AI打造文档转换神器 该工具能将PDF、Word、Excel、PPT等复杂格式文件转换为结构清晰的Markdown,保留标题、列表、表格等语义信息,显著提升大模型处理效率。支持多媒体文件(图片、音频、视频)元数据提取,集成Azure云端OCR增强识别。采用模块化设计,开发者可扩展插件生态。MIT许可下,该工具为RAG、Agent等AI应用提供了高效的&q

我们提出了一种简单且具理论依据的改进方法——动态微调(DFT),以解决大语言模型监督微调(SFT)在泛化能力上逊于强化学习(RL)的问题。

开源实时语音转文字工具WhisperLiveKit上线,支持本地部署、多人对话识别和低延迟转录。该工具整合WhisperStreaming和SimulStreaming技术,1秒内完成语音转写,可区分不同说话人,保证隐私安全。提供简单安装教程,支持多语言互译和浏览器插件,适合会议记录、内容创作等场景。项目免费开源,但高性能模型需要较强硬件支持。

你是不是是不是也遇到经历过这种崩溃时刻:让大模型写份报告,结果引用了不存在的研究;用RAG做知识库问答,答案驴唇不对马嘴;辛辛苦苦标注的数据,训练出的模型却频频"幻觉"……现在,这些头疼问题有了新解法——正式开源!这款被业内称为"AI数据质检官"的工具,直接把RAG幻觉检测精度干到94.6%,还能一键搞定50+项数据质量评估指标。








