
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
文章介绍了RAGFlow这一开源RAG引擎,基于深度文档理解技术处理非结构化数据,减少大模型幻觉。系统由文档解析器、查询分析器、检索、重排和LLM等组件构成,支持多数据源和自动化工作流。RAGFlow秉承"高质量输入,高质量输出"理念,提供可解释的答案并支持溯源,适合从个人应用到企业级各类生态系统,显著提升大模型回答的准确性和可靠性。

文章介绍了如何使用轻量级方案(whoosh+DeepSeek-r1:1.5b)在本地搭建个人知识库。该方案无需向量数据库,对电脑性能要求低,查询速度快(ms级),AI回复秒级完成。所有工具开源免费,适合安全管理个人文档或企业机密文档。文章详细介绍了设计方案、功能演示和效果展示,并提供了开源软件的获取方式。该解决方案兼顾了轻量、极速和免费三大特点,是本地知识管理的理想选择。

本文详解了AI模型训练原理,从生物神经网络到人工神经网络构造,剖析神经元工作机制与训练本质:前向传播、计算损失、反向传播和权重更新。介绍了权重文件在模型保存、迁移学习和部署中的作用,为初学者提供系统学习大模型的框架。

文章介绍了一种基于LLM大模型+文档检索(whoosh)方法构建个人知识库的方案,具有高效、低硬件要求的特点。仅需8G内存电脑即可运行,支持PDF、Word、TXT等多种格式文档(最大200M),能快速检索文档并利用通义千问大模型进行智能分析和总结。作者提供了完整代码实现,并分享了丰富的AI大模型学习资料,帮助读者系统掌握相关技术。

RAG(检索增强生成)是结合信息检索与语言生成模型的技术,通过从外部知识库检索相关信息并输入给大语言模型,增强其处理知识密集型任务的能力。RAG流程包括检索、增强和生成三步,有效解决LLM的幻觉问题和知识断点问题。文章详细介绍了RAG的工作原理、使用方法、技术架构及实际应用,为开发者提供了完整的技术指南和实践参考。

塞巴斯蒂安·拉什卡(Sebastian Raschka)是Lightning AI的研究工程师,专注于LLM研究并开发开源软件。本书的技术编辑是大卫·卡斯韦尔(David Caswell)。

随着bert在NLP各种任务上取得骄人的战绩,预训练模型在这不到一年的时间内得到了很大的发展,本系列的文章主要是简单回顾下在bert之后有哪些比较有名的预训练模型,这一期先介绍几个国内开源的预训练模型。

文章讨论了RAG系统中多库召回时出现的不相关数据干扰问题。作者分析了原因包括数据处理质量不佳、文档逻辑隔离不彻底及阈值设置不合理。提出解决方案:采用两次召回策略,第一次高阈值召回最相关数据,然后在相关数据所在库中进行第二次低阈值召回,从而减少无关文档干扰。强调RAG系统召回质量直接影响大模型表现,需要通过持续实践优化才能达到理想效果。

PandaWiki是一款由长亭科技开源的AI大模型驱动知识库系统,具有AI辅助创作、智能问答和语义搜索功能。文章详细介绍了其环境要求、5分钟快速安装步骤、AI模型配置及知识库创建方法。该系统解决了传统文档管理痛点,安装简单、功能强大、开源免费,适用于企业技术文档、产品说明书、个人知识库等多种场景,是提升工作效率的智能助手。

文章分析了NL2SQL在制造业应用中的三大局限:指标语义复杂、口径不统一和数据模型多变,提出NL2MQL解决方案。NL2MQL通过指标体系作为核心单元模型,屏蔽底层SQL复杂性,实现业务语义对齐。文章详细介绍了系统架构设计、四阶段实施步骤及关键技术细节,强调指标体系建设是企业知识体系的重要组成部分,为AI在制造业落地提供可行路径。
