
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
办公Agent意图识别的核心痛点在于处理用户表达的模糊性、多轮省略和复合任务需求。系统需结合上下文、状态管理和风险控制,采用分层意图体系(如邮件、日程等一级分类)和槽位抽取技术。解决方案包括:1)上下文感知识别;2)Session状态维护;3)主动澄清缺失信息;4)高风险操作二次确认;5)规则+小模型+LLM混合架构。典型场景如"发请假邮件"需识别初始意图后,逐步补全时间、收件

办公Agent意图识别的核心痛点在于处理用户表达的模糊性、多轮省略和复合任务需求。系统需结合上下文、状态管理和风险控制,采用分层意图体系(如邮件、日程等一级分类)和槽位抽取技术。解决方案包括:1)上下文感知识别;2)Session状态维护;3)主动澄清缺失信息;4)高风险操作二次确认;5)规则+小模型+LLM混合架构。典型场景如"发请假邮件"需识别初始意图后,逐步补全时间、收件

摘要: 本文探讨了大模型面试中关于实时性和多轮对话一致性的优化策略。实时性方面,建议采用流式输出、模型分层部署、Prompt精简、缓存优化及RAG检索加速,并设置超时降级策略。多轮一致性则需维护会话状态(如意图、关键实体、历史摘要),结合QueryRewrite避免信息丢失,并防止上下文污染。两者需平衡处理,简单问题走轻量链路,复杂问题启用RAG和校验。案例演示了企业知识库场景下如何动态管理会话状

摘要: 本文探讨了大模型面试中关于实时性和多轮对话一致性的优化策略。实时性方面,建议采用流式输出、模型分层部署、Prompt精简、缓存优化及RAG检索加速,并设置超时降级策略。多轮一致性则需维护会话状态(如意图、关键实体、历史摘要),结合QueryRewrite避免信息丢失,并防止上下文污染。两者需平衡处理,简单问题走轻量链路,复杂问题启用RAG和校验。案例演示了企业知识库场景下如何动态管理会话状

本文研究了长上下文大模型在RAG(检索增强生成)中的性能扩展问题,发现单纯增加检索文档数量并不能持续提升效果。作者提出DRAG和IterDRAG两种方法,通过合理分配推理计算资源(文档数量、示例数量、迭代轮数)来优化RAG性能。实验表明,当计算资源被合理分配时,RAG性能可随有效上下文长度近似线性提升。研究为长上下文RAG系统提供了重要启示:应动态调整资源配置而非简单增加文档数量,特别是在处理复杂

本文深入解析了LoRA和QLoRA在大模型微调中的显存优化原理。LoRA通过冻结基础模型参数,仅训练低秩增量矩阵(BA),显著减少了可训练参数、梯度及优化器状态,但基础模型仍需加载至显存。QLoRA进一步引入4-bit量化压缩基础模型权重,降低模型本体的显存占用。两者省显存的侧重点不同:LoRA优化训练开销,QLoRA优化模型加载。实际应用中需权衡显存、数据质量、任务复杂度,避免盲目调参(如ran

文章摘要: RAG项目在初期Demo表现良好,但进入实际业务后常出现检索效果差、回答错误等问题。核心原因往往不在大模型本身,而在于检索链路的数据质量与策略。常见问题包括:文档解析质量差导致文本失真;Chunk切分不合理破坏语义;Embedding模型与业务场景不匹配;单一向量检索忽略关键词;TopK设置不当导致召回不足或噪声过多;缺少Rerank导致相关结果排序靠后;Prompt约束不足引发幻觉;
文章摘要: RAG项目在初期Demo表现良好,但进入实际业务后常出现检索效果差、回答错误等问题。核心原因往往不在大模型本身,而在于检索链路的数据质量与策略。常见问题包括:文档解析质量差导致文本失真;Chunk切分不合理破坏语义;Embedding模型与业务场景不匹配;单一向量检索忽略关键词;TopK设置不当导致召回不足或噪声过多;缺少Rerank导致相关结果排序靠后;Prompt约束不足引发幻觉;
火苗检测是计算机视觉领域中的一个重要研究方向,旨在通过图像处理和机器学习技术自动检测图像或视频中的火焰区域。这项技术在火灾预警、智能监控、森林防火等领域具有广泛的应用。随着深度学习和人工智能技术的快速发展,火苗检测的准确性和效率得到了显著提升。本文将介绍火苗检测领域的基本概念、当前的主流算法、数据集、代码实现、优秀论文以及未来的研究方向。

该领域的技术演进将持续推动零售行业向数字化、智能化方向转型,未来 3-5 年有望实现全自动化货架管理系统的规模化落地。








