登录社区云,与社区用户共同成长
邀请您加入社区
和员外一起从上家公司离职后,我们便携手创办了属于自己的公司,全身心投入到 RAG 大模型 AI 产品应用的研发之中。这段历程里,我们恰好经历了一个春节,前后算下来,总耗时大概三个月左右。这三个月里,我们几乎全程昼夜兼程、全力以赴,直到三月底,我们的产品终于有了基础雏形,也算不负这段时间的奔波与付出。研发期间,我们分工明确、各司其职:员外主要负责整个产品的营销推广,以及商业客户的对接与洽谈工作;而我
对于正在迷茫择业、想转行提升,或是刚入门的程序员、编程小白来说,有一个问题几乎人人都在问:未来10年,什么领域的职业发展潜力最大?答案只有一个:人工智能(尤其是大模型方向)当下,人工智能行业正处于爆发式增长期,其中大模型相关岗位更是供不应求,薪资待遇直接拉满——字节跳动作为AI领域的头部玩家,给硕士毕业的优质AI人才(含大模型相关方向)开出的月基础工资高达5万—6万元;即便是非“人才计划”的普通应
用户A创建了私人菜谱"妈妈的红烧肉",用户B也有一道"秘制红烧肉"。私人菜谱的写入涉及两个存储:云数据库(主存储)+ Qdrant(向量索引)。私人菜谱向量检索是RAG系统从"通用"走向"个性化"的关键一步。标签让LLM知道这是用户自己的菜谱,推荐时可以优先提及。保存成功后,下次AI对话就能语义检索到这道私人菜谱。Qdrant的filter在向量搜索阶段就生效,,不会因为向量搜索失败而跳过私人菜谱
我对这块的理解是,学术 Benchmark 只能作为参考,真正重要的是在自己业务数据上的表现。MMLU / MMLU-Pro 测综合知识,HumanEval / SWE-bench Verified 测代码,GSM8K / MATH / GPQA 测数学和科学推理,LiveBench、Humanity’s Last Exam 这类更新型评测用来缓解数据污染。这些指标看一眼能大概判断模型能力区间,但
本文介绍了检索增强生成技术。RAG结合了参数化记忆(BART生成器)和非参数化记忆(维基百科的稠密向量索引),通过检索相关文档来增强生成过程。文章详细阐述了RAG-Sequence和RAG-Token两种模型,前者在整个生成过程中使用同一批文档,后者允许每个token参考不同文档。此外,文章还探讨了GraphRAG和AgenticRAG的扩展,前者通通过知识图谱提升多跳推理能力,后者引入智能体实现
官方llama.cpp现已支持MTP模型,无需单独draft模型。使用最新二进制程序和Qwen3.6-35B-A3B-UD-IQ2_M.gguf模型,通过添加--spec-type draft-mtp和--spec-draft-n-max 2参数可显著提升推理速度。测试显示,关闭推理模式后,RAG性能接近在线LLM,生成速度大幅提升(draft接受率达88.6%)。建议显存充足的用户尝试MTP优化
摘要:本文探讨了AI检索技术在代码库与知识库应用中的差异。传统RAG方法通过语义相似度检索适合自然语言文档,而代码检索更依赖精确匹配工具如Grep。Grep能实时搜索本地代码标识符,适合多轮探索式查询。CodeGraph则通过预索引代码结构提供调用关系等结构化信息。三种方法各有所长:RAG处理语义模糊的自然语言,Grep实现实时精确搜索,CodeGraph解析代码结构关系。实际应用中应根据任务特点
将权重映射到低精度空间,同时保留模型的语义信息。ONNX Runtime 是微软开发的跨平台推理引擎,可以将 PyTorch 模型转换为 ONNX 格式,并进行各种优化,推理速度可以提升 30%-50%。量化是将模型的权重从高精度(FP16/FP32)转换为低精度(4bit/8bit)的技术,可以在几乎不损失效果的前提下,大幅降低内存占用和提升推理速度。本地 RAG 与云服务 RAG 的性能瓶颈完
RAG 幻觉是指大模型生成的回答中包含了检索上下文中不存在的、未经证实的或错误的信息。即使检索到了正确的信息,大模型仍然可能编造内容,这是 RAG 系统从 "能用" 到 "好用" 的最大障碍。2026 年最新行业数据未经优化的 Naive RAG 系统平均幻觉率高达 35%-50%经过完整优化的工业级 RAG 系统幻觉率可控制在 5% 以下金融、法律、医疗等高风险领域要求幻觉率低于 1%
KV Cache 把前面所有 token 的 K 和 V 矩阵缓存在 GPU 显存里,每次新 token 只算自己的 Q、K、V,然后跟缓存的 K/V 做 attention,把总计算量从 O(N³) 降到 O(N²)。如果两个请求的 Prompt 前缀完全相同(比如都用同样的 System Prompt),第一个请求算完的 KV Cache 在 API 服务器上保留下来,第二个请求遇到相同前缀直
摘要: 企业级RAG应用中,语义搜索常因稠密向量模型的局限性导致精准查询漏答。稠密向量虽擅长语义关联,却易忽略低频关键术语(如错误码、配置项),且存在"迷失在中间"效应。BM25算法凭借IDF加权、词频饱和和文档长度归一化机制,能精准匹配关键词,弥补稠密向量的短板。混合搜索通过Alpha参数(建议0.5)融合两者优势,实测显示Hit Rate提升13%以上。结合重排序技术可进一步优化结果,实现"精
这些任务希望模型自然流畅但不能太离谱。Temperature 可以从 0.5~0.7 试起,Top-P 保持 0.9 或官方默认值。这是很多 ChatBot、客服 AI 会尝试的配置区间,平衡了多样性和可控性。不要把某个产品某个版本的默认值当成行业固定标准,模型更新后默认策略也会变。
微软.NET 11 Preview4发布,重点强化AI开发能力。EF Core新增原生向量搜索支持,通过SqlVector类型和向量距离计算函数实现语义检索,为RAG应用提供基础设施。同时引入MCP Server模板,标准化AI模型调用外部工具的协议,使开发者能快速构建AI工具服务。二者结合可构建完整RAG应用:向量搜索负责语义检索,MCP协议实现AI模型与业务系统的安全交互。这标志着.NET正从
检索增强生成(RAG)已成为突破大语言模型静态训练局限、扩展其应用范围的基本范式。然而,当前 RAG 的能力与现实世界的信息环境之间存在着严重的脱节。现代知识库本质上是多模态的,包含丰富的文本内容、视觉元素、结构化表格和数学表达式的组合。然而,现有的 RAG 框架仅限于文本内容,这在处理多模态文档时造成了根本性的缺陷。我们提出了 **RAG-Anything**,一个能够跨所有模态进行全面知识检索
摘要:2026年GEO服务市场呈现三种主流技术路线:批量模板化路线成本低但内容同质化严重;Agent自动化路线通过多Agent协同实现差异化内容生成,成为主流方案;RAG增强架构作为前沿技术,深度适配AI检索机制但开发成本较高。技术对比显示,批量模板化适合短期需求,Agent自动化性价比最优,RAG架构则面向高端定制市场。企业选择时应关注技术完整性、AI适配深度和长期价值,而非单纯比较价格。随着A
本文系统拆解 Prompt 工程,讲透五大要素,让 AI 少脑补、多引用,回答更稳定、更可信。
现在使用的固定大小分块(如 512token / 块)是最简单也是最常用的分块方法,但它存在三个无法解决的根本性问题,这也是 90% 的 RAG 系统回答质量差的根源。不同的查询需要不同粒度的信息。" 时,系统可能只能检索到块 1,大模型看到的信息是不完整的,自然无法给出准确的回答。为了解决固定大小分块的问题,工业界经过多年的实践,总结出了三种主流的高级检索架构,它们各有优缺点,适用于不同的场景。
摘要:GeoAI-UP项目通过RAG技术解决大模型在专业地理信息领域的"幻觉"问题。系统采用LanceDB构建向量知识库,结合意图识别模块(GIS分析/知识查询/通用聊天)实现智能路由。核心技术包括:1)文档智能切分与向量化存储;2)LanceDB的高性能检索架构;3)语义搜索与重排序机制。实践表明,该系统能在2.7秒内完成从查询到生成的专业响应,准确率显著提升。这种AI+GIS的深度集成方案,为
摘要:RAG(检索增强生成)技术通过结合检索与生成模型,有效解决了通用大模型在知识局限性、幻觉问题和数据安全等方面的不足。其核心流程包括数据准备(提取、分割、向量化)和应用阶段(检索、Prompt生成)。高级RAG技术进一步优化了分块策略、向量搜索、查询转换等环节,并引入智能体架构提升交互能力。评估指标重点关注检索相关性和答案质量。该技术适用于需要处理私域数据、实时信息或特定领域知识的场景,但需权
本文探讨了通用RAG系统在GIS领域的局限性,并提出GeoAI-UP解决方案。传统RAG仅能返回文本片段,无法处理空间关系判断、地理位置分析和可视化展示等GIS核心需求。文章通过城市规划案例说明,当用户查询环保政策时,关键痛点在于确定政策的空间适用范围及其与项目地块的位置关系。 GeoAI-UP采用分层架构设计,包含前端交互层、后端服务层和数据存储层。核心创新是引入意图分类器,将查询分为纯空间分析
在分布式系统和微服务架构中,日志分析是运维监控与故障排查的核心环节。传统基于关键词匹配(如grep)或规则引擎(如ELK Stack)的方法,难以应对海量、非结构化的日志数据,尤其在处理模糊、突发的生产问题时效率低下。检索增强生成(RAG)技术通过结合向量化检索与大语言模型(LLM)的推理能力,为日志分析提供了新的范式。其技术价值在于,它能够将自然语言查询转化为对日志语义的深度理解,实现从“模式匹
摘要:本文剖析了RAG技术从概念验证到产品落地的关键转变,指出其核心在于构建可检索、可评估、可运营的知识工程系统。文章分析了长上下文窗口兴起后RAG的不可替代性,揭示了"向量库+Prompt"方案的局限性,并提出查询理解、混合检索、重排优化等关键技术路径。特别强调RAG与业务流程的深度融合将重塑产品形态,而持续的知识运营能力才是核心竞争力。最后指出,AI应用的价值不在于模型本身,而在于构建可信赖的
摘要:本文探讨了Agent如何通过RAG(检索增强生成)技术解决知识来源问题。大模型的知识存在截止日期和专业性不足的局限,导致Agent可能给出错误或过时的回答。RAG通过接入外部知识库,让Agent在回答前先检索相关资料,确保回答的准确性。文章介绍了RAG与Agent结合的三种方式(自主检索、工具化、记忆增强),并以企业客服为例展示了实际应用效果。还讨论了知识库类型(企业/专业/产品/实时)和进
人工智能(AI)是让机器模拟人类智能的技术,主要分为三大流派:符号主义(基于规则推理)、连接主义(神经网络学习)和行为主义(环境交互学习)。AI发展70年来经历了多次起伏,从早期的图灵测试到如今的AI Agent时代。2020年代大模型崛起,展现出"涌现能力",AI开始广泛应用于生活各领域。当前AI已进入多Agent协作和具身智能产业化阶段,但面临透明度下降、环境代价和数据枯竭等挑战。AI发展可分
《企业AI Agent落地五大挑战与应对策略》 摘要:随着AI技术成熟,企业应用AI Agent面临五大核心挑战:成本控制需平衡显性与隐性投入;合规要求涉及数据隔离与跨境监管;系统集成需渐进式改造业务流程;运维需建立智能体专属监控体系;迭代优化依赖持续反馈机制。文章提出分阶段实施方案:从轻量接入验证ROI开始,通过混合部署控制风险,最终实现人机协同的价值重构。关键在于将AI视为业务流程增强者而非替
摘要: 本文系统解析了大语言模型的核心技术架构与发展趋势。首先剖析Transformer的核心机制,包括自注意力、多头注意力和位置编码,揭示其全局上下文建模能力。其次探讨MoE架构如何通过专家网络和动态路由实现参数规模与计算成本的解耦。在推理优化方面,详细分析了思维链、潜在思维链和测试时扩展等前沿范式,以及KV缓存等加速技术。训练优化部分则聚焦BF16到FP8的精度提升策略。最后展望2026年技术
摘要:大模型微调效果不佳往往源于数据准备不足。研究表明,高质量小数据优于低质量大数据,如3万条清洗数据比50万条原始数据效果更好。数据准备需遵循三大原则:质量优先(准确性、多样性、一致性)、任务对齐(垂直场景纯净数据)、格式标准化(JSONL等)。实战流程包括数据收集、清洗(去重、过滤、脱敏)、增强(同义改写、场景扩展)、划分(8:1:1比例)。质量评估需人工抽检和自动化检测,避免数据泄露和分布不
至此,我们回顾了现代检索增强生成(RAG)架构的演进历程。RAG 技术并未消亡,也不会在短期内消失。我相信其架构在未来一段时间内仍将持续演进。学习这些架构并了解何时使用何种方案,将是一项有价值的投资。对于正在迷茫择业、想转行提升,或是刚入门的程序员、编程小白来说,有一个问题几乎人人都在问:未来10年,什么领域的职业发展潜力最大?答案只有一个:人工智能(尤其是大模型方向)
摘要: 省级政务云平台技术负责人老周在选型RAG底座时面临三大挑战:OCR精度不足(扫描件召回率仅67%)、溯源偏移(无法精确到段)、权限控制粗粒度(仅知识库级别)。KnowFlow作为RAGFlow的企业级插件层,通过三大OCR引擎(MinerU/DOTS/PaddleOCR)将召回率提升至94%,实现绝对坐标溯源和父子切块技术,结合RBAC权限控制,满足生产级需求。此外,KnowEval系统提
检索增强生成(RAG)是一种将信息检索与大型语言模型(LLM)生成能力相结合的技术范式。其核心原理在于,先将非结构化文档(如PDF、Markdown)进行向量化处理并存入向量数据库,当用户提问时,系统通过语义相似度检索出相关文档片段,再将这些片段作为上下文提供给LLM,从而生成精准、可追溯的答案。这项技术的核心价值在于,它能将静态文档库转化为动态、可交互的知识库,有效解决了传统关键词搜索在语义理解
检索增强生成(RAG)技术通过结合信息检索与大型语言模型的生成能力,有效解决了传统大模型在知识更新滞后与事实性错误方面的局限。其核心原理是将外部知识库向量化存储,在用户提问时先进行语义检索,再将相关上下文与大模型结合生成精准答案。这一架构的技术价值在于实现了知识的可追溯与可控性,显著提升了专业领域问答的准确性与可信度。在应用场景上,RAG特别适合构建企业级知识库、个人学习助手以及垂直领域的智能客服
在人工智能技术应用中,高质量、结构化的数据是训练有效模型的关键基础。Transformer架构的大型语言模型(LLM)通过预训练掌握了强大的语言理解与生成能力,而指令微调等技术则能将其与特定领域知识深度结合,从而创造出具备专业问答能力的智能体。这一技术路径的核心价值在于,它能将互联网上的公开、非结构化信息(如社区问答内容)转化为可交互、可推理的知识系统,极大地降低了构建专业领域AI助手的门槛。其典
大型语言模型(LLM)作为当前人工智能的核心技术,通过海量数据训练获得强大的语言理解和生成能力。其工作原理基于Transformer架构,通过自注意力机制处理序列信息,实现上下文感知的文本生成。这项技术的核心价值在于能够作为通用任务接口,赋能各类应用实现智能化交互。在实际工程应用中,开发者常面临模型部署、服务集成和知识增强等挑战。检索增强生成(RAG)技术通过结合外部知识库与LLM的推理能力,有效
RAG(检索增强生成)是一种让AI在回答问题前先检索相关知识的技术,如同开卷考试。相比传统AI仅依赖训练数据容易产生幻觉,RAG通过知识库、嵌入模型、向量数据库等组件,使AI能实时获取最新信息、减少错误、利用私有数据,显著提升回答准确性和可追溯性。该技术具有成本效益优势,广泛应用于企业知识库、智能客服、代码助手等场景,成为构建高效AI Agent的核心技术。尽管面临检索质量和知识更新等挑战,RAG
回答要点控制在 2 分钟内,聚焦 AI Agent 相关经验结构:教育背景 + 核心技能 + 2-3 个代表性项目 + 当前关注方向突出:用 Java 技术栈落地大模型应用的实战经验,以及医疗健康场景的领域知识示例框架我叫 xxx,拥有 x 年 Java 开发经验,近两年专注于 AI Agent 在垂直领域的落地。我主导设计并落地了两款 AI Agent 产品:一个是面向慢病管理的智能健康助手,支
面试官老张:某互联网大厂技术总监,10年Java老兵,严肃认真,火眼金睛。谢飞机:5年Java开发,号称"全栈工程师",实则是个水货,擅长糊弄和转移话题。谢飞机虽然是个"水货程序员",但他的一些回答方向是对的。基础扎实:JDK版本特性、Spring Boot核心原理信手拈来场景驱动:从业务场景出发选择技术方案,而非炫技深度思考:不仅知道"用什么",更要知道"为什么"和"怎么优化"拥抱前沿:Spri
我在一线科技企业深耕十二载,见证过太多因技术更迭而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。✅AI大模型学习路线图✅Agent行业报告✅100集大模型视频教程✅大模型书籍PDF✅DeepSeek教程✅AI产品经理入门资料完整的大模型学习和面试资料已经上传带到CSDN的
RAG(检索增强生成)是一种先检索知识库再生成答案的AI技术,类似于开卷考试。相比微调,RAG具有知识更新快、成本低、可溯源等优势,特别适合私有知识库场景。完整流程包括文档分块、向量化、检索和生成四个关键环节:文档需合理分块(推荐语义分块或带重叠的固定分块);选择适合的Embedding模型和向量数据库;采用MMR或混合检索策略提升效果;最后通过精心设计的Prompt约束生成质量。常见问题包括分块
在自然语言处理领域,静态数据处理技术是提升大模型应用效率的关键环节。其核心原理是通过缓存机制将固定内容与动态查询分离处理,显著降低重复计算开销。从技术实现看,这种缓存策略能减少90%的API调用成本,特别适合处理法律文书、技术文档等静态内容。相比传统的RAG(检索增强生成)技术,Prompt Caching在响应速度和成本控制方面具有明显优势,但需要权衡5分钟缓存窗口的限制。当前该技术已成功应用于
本文介绍了如何在星图GPU平台上自动化部署通义千问3-Reranker-0.6B镜像,高效支撑长文本重排序任务。该模型专为RAG系统与搜索结果优化设计,可精准评估查询与数千字技术文档、法律条文等的语义相关性,显著提升首屏命中率与业务转化效果。
RAG
——RAG
联系我们(工作时间:8:30-22:00)
400-660-0108 kefu@csdn.net