logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

阿里 & 小红书提出 MVP-RAG:融合双级检索与 LLM 生成,攻克电商商品属性识别三大核心难题

本文提出MVP-RAG框架,创新性地融合多级检索与生成技术,显著提升电商属性识别的准确率与泛化能力。实验表明,该方法在工业级数据集上F1值达92.1%,较基线模型提升15.8%,尤其对OOD属性识别率提升20%。该技术已成功部署于闲鱼平台,每日处理千万级商品属性提取任务,为电商AI领域提供了可复用的技术范式。

文章图片
#人工智能#深度学习#软件工程 +2
又一个AI神器开源!专治大模型“瞎说话“,数据质量评估直接封神

你是不是是不是也遇到经历过这种崩溃时刻:让大模型写份报告,结果引用了不存在的研究;用RAG做知识库问答,答案驴唇不对马嘴;辛辛苦苦标注的数据,训练出的模型却频频"幻觉"……现在,这些头疼问题有了新解法——正式开源!这款被业内称为"AI数据质检官"的工具,直接把RAG幻觉检测精度干到94.6%,还能一键搞定50+项数据质量评估指标。

文章图片
#人工智能#语言模型#自然语言处理 +2
告别 LLM 幻觉难题:Meta 提出 TruthRL框架,基于RL显著降低幻觉!

TruthRL:用强化学习打造"知之为知之"的诚实AI 斯坦福团队提出TruthRL框架,通过三元奖励机制革新大型语言模型的真实性优化。该研究突破性地将模型回答分为正确、不确定和错误三类,给予差异化奖励(+1/0/-1),激励模型在知识边界内准确回答,超出范围时诚实弃权。实验表明,该方法在四大知识基准测试中平均降低28.9%的幻觉率,提升21.1%的真实性,且在不同规模模型和检

文章图片
#人工智能#机器学习#深度学习 +2
RLVER:让7B模型情商飙升5倍,比肩GPT-4o的情感能力

腾讯混元团队提出的RLVER框架首次实现了基于可验证情感奖励的强化学习,将Qwen2.5-7B模型的共情能力从13.3分提升至79.2分(Sentient-Benchmark),性能比肩GPT-4o和Gemini 2.5 Pro等顶级商用模型,同时保持数学和代码能力不衰退。

文章图片
#人工智能#语言模型#机器学习 +3
告别冗长文本输入!MLLM 新操作:转成图片就能省一半 Token

摘要:本文提出一种新颖的文本压缩方法,通过将长文本渲染为图像输入多模态大语言模型(如GPT-4V),显著减少token使用量而不损失性能。实验表明,在RULER长文本检索和CNN/DailyMail摘要任务中,这种"文本即图像"的方法能节省约50%的token,同时保持准确率。该方法无需模型微调,利用视觉编码器将图像转换为高效视觉token,为长文本处理提供了实用解决方案。核心

文章图片
#python#人工智能#深度学习 +1
LongCodeZip:面向代码大模型的长上下文压缩框架,实现 5.6 倍压缩比且保持任务性能

论文标题: LongCodeZip: Compress Long Context for Code Language Models 作者: Yuling Shi, Yichun Qian, Hongyu Zhang 发表年份: 2025 摘要: LongCodeZip提出了一种专为代码大模型设计的双阶段压缩框架,有效解决长代码上下文处理中的计算成本高、关键信息淹没和窗口限制问题。通过粗粒度压缩(函

文章图片
#人工智能#机器学习#软件工程 +2
只用一行代码,碾压SFT:东南大学等团队提出DFT,让大模型数学能力暴涨5倍

我们提出了一种简单且具理论依据的改进方法——动态微调(DFT),以解决大语言模型监督微调(SFT)在泛化能力上逊于强化学习(RL)的问题。

文章图片
#人工智能#自然语言处理#语言模型 +2
开源界炸了!蚂蚁开源 Ming-UniAudio「全能音频模型」,ASR + TTS + 用文字编辑语音!

摘要: 开源项目Ming-UniAudio突破AI音频技术壁垒,实现语音识别、合成与自然语言编辑的统一。其核心创新包括:1)首个兼顾理解与生成的Tokenizer(MingTok-Audio),语音质量评分达4.21;2)单一模型支持ASR/TTS任务,方言识别错误率低至9.8%;3)首创自然语言指令编辑功能,可精准修改语音内容。项目提供全流程Demo,支持5分钟快速部署,开发者可通过Huggin

文章图片
#音视频#深度学习#人工智能 +3
StreamCap:40+直播平台一键录屏,这个开源神器让你不错过任何精彩瞬间【无标题】

摘要:StreamCap是一款支持40+国内外直播平台的开源录制工具,可自动监控并录制抖音、B站、Twitch等平台的直播内容。该工具操作简单,支持多格式输出、定时录制、消息推送等功能,还能通过Docker部署实现24小时云录制。完全开源免费的特性使其成为留存直播内容的理想解决方案,未来还将加入AI剪辑等进阶功能。 (150字)

文章图片
#人工智能#深度学习#软件工程 +1
阿里发布TTS新作CosyVoice 3,语音合成更准、更自然!!

在我们之前的工作中,我们介绍了一个可扩展的流式语音合成模型CosyVoice 2,该模型集成了大型语言模型(LLM)和分块感知流匹配(FM)模型,并实现了低延迟双向流式语音合成和人类水平的质量。尽管取得了这些进展,但CosyVoice 2在语言覆盖范围、领域多样性、数据量、文本格式和后训练技术方面仍存在局限性。

文章图片
#语音识别#人工智能#自然语言处理 +3
    共 41 条
  • 1
  • 2
  • 3
  • 4
  • 5
  • 请选择