
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本文介绍了一个学术论文引文系统的实现过程,该系统通过规则抽取、Semantic Scholar API、Neo4j和LangGraph构建引文图谱。系统首先使用正则表达式和置信度分级从PDF中提取参考文献,然后通过Semantic Scholar API获取论文元数据,并利用Neo4j构建引文图谱。文章详细讨论了技术选型(规则抽取优于LLM)、参考文献格式处理、置信度分级策略以及应对API限流的解
摘要 本文探讨了如何为生成式AI代理添加Self-RAG自审机制,解决大模型在长文本输出中可能出现的"自圆其说"问题。作者发现深度阅读输出中存在模型编造数据的情况,提出了基于句子拆分的简化验证方案:将长文本按标点拆分为30-50个句子,通过多路检索获取原文证据,再让LLM进行YES/NO验证。系统设计了批处理查询、结果解析和回退循环等优化,在验证准确性和计算成本间取得平衡。最终方案能有效识别30%
摘要 本文探讨了如何为生成式AI代理添加Self-RAG自审机制,解决大模型在长文本输出中可能出现的"自圆其说"问题。作者发现深度阅读输出中存在模型编造数据的情况,提出了基于句子拆分的简化验证方案:将长文本按标点拆分为30-50个句子,通过多路检索获取原文证据,再让LLM进行YES/NO验证。系统设计了批处理查询、结果解析和回退循环等优化,在验证准确性和计算成本间取得平衡。最终方案能有效识别30%
论文图表智能转化系统开发总结 本文介绍了一个将学术论文中的图表转化为交互式ECharts图表的智能系统开发过程。系统通过以下步骤实现: 图表提取:使用PyMuPDF从PDF中定位图表区域,处理CMYK色彩空间问题,生成PNG图像 视觉识别:通过兼容OpenAI协议的API将图像发送给视觉模型,解析图表数据 交互转换:将识别结果转换为ECharts配置,前端渲染为可交互图表 容错机制:设计正则兜底方
本文介绍了如何优化论文检索和个性化推荐系统。主要工作包括:1)将检索功能独立为Agent节点,采用cosine和BM25混合召回策略,结合Cohere Rerank进行结果重排序,有效提升长论文检索效率;2)利用pgvector构建跨会话用户画像,实现个性化论文推荐。两项工作共享BGE嵌入模型等基础设施,在保持系统轻量化的同时显著提升了检索精度和用户体验。文章还详细探讨了中英混合分词、缓存优化等关







