Word_LINE 个人主页

@Word_LINE

Word_LINE

2023-02-28 07:45:40 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

RAG 知识清洗ing

RAG检索质量提升的关键：文档预处理优化本文系统阐述了提升RAG（检索增强生成）效果的文档预处理方法。核心观点指出：检索前处理（Pre-Retrieval）是决定RAG效果下限的关键环节。文章提出了文档清洗的六条铁律：宁缺毋滥、去除噪音、保存结构、合理切分、元数据增强和脱敏处理，并详细列举了8大类具体清洗内容，包括文本噪音、页面元素、Markdown结构化等。特别强调高质量RAG的核心在于"有效

#python #搜索引擎

一次 RAG 底座升级：我们如何把 Elasticsearch 从 7.x 平滑迁移到 8.x

本文分享了Elasticsearch从7.x升级到8.x的实践经验。通过代码库提供了完整的迁移方案，重点解决了向量字段不兼容的核心问题。迁移过程分为四步：双集群连接、索引结构同步、文档滚动迁移和自动报告生成。该方案实现了技术栈统一、向量检索优化和迁移过程可验证三大价值，建议优先处理字段兼容性，采用小规模验证和报告驱动的验收方式。开源代码可直接复用，只需简单配置即可执行迁移任务。

#elasticsearch #大数据 #搜索引擎

Google的AI OverViews和 AI Mode区别是什么，如何使用呢

Google推出两种AI搜索模式：AIOverviews和AIMode，分别针对不同搜索需求。AIOverviews是传统搜索结果顶部的AI摘要，适合快速获取简单问题答案（如概念查询、简单比较）；AIMode则是对话式AI搜索环境，支持多轮交互，适合解决复杂问题（如决策分析、方案规划）。二者的核心区别在于：AIOverviews保持传统搜索框架，AIMode重构为对话系统。Google采用分层设计

#人工智能 #搜索引擎 #RAG

AI搜索的优势与挑战：正在改变我们获取信息的方式

AI搜索正在重塑信息获取方式，通过语义理解、直接答案输出和对话式交互实现三大突破：从关键词匹配转向意图理解，从信息获取升级为知识整合，从单点查询发展为持续对话。然而也存在明显局限：总结性答案缺乏细节过程，限制了信息探索的随机性，并可能强化信息茧房效应。这种技术革新在提升效率的同时，也带来了信息深度与多样性的新挑战。

#人工智能 #搜索引擎

网站目录下的robot.txt是什么

robots.txt是网站根目录下的爬虫协议文件，用于控制爬虫访问范围，保护敏感路径和优化网站资源。它遵循Robots Exclusion Protocol，通过User-agent、Disallow等字段指定允许或禁止爬取的页面。虽然技术上不强制遵守，但从法律和行业规范角度建议遵循，尤其对商业爬虫。使用爬虫时应先检查robots.txt，控制抓取频率，设置User-Agent，优先使用API并避

#爬虫 #python

分库、分表

分库分表技术通过水平切分和纵向切分来提升数据库性能。分库将数据按业务拆分到不同库中，实现数据隔离和资源优化；分表则拆分表字段，但需避免跨表查询。实施前需设计路由机制（范围或Hash）和结果拼接方案。分布式ID生成要满足全局唯一、高性能等要求，可采用UUID、自增ID等方式。该技术能提高检索效率，区分核心业务数据，但需注意存储压力和查询优化。

#数据库

什么是 AI Skill

👉 用一句话说清楚“这个技能是干嘛的”模板：帮助用户【做什么事】，适用于【什么场景】示例：帮助用户根据自然语言快速生成SQL语句，适用于数据分析和开发场景。帮助用户将自然语言转换为SQL查询语句，适用于数据分析和开发场景。根据用户提供的工作内容，自动生成结构清晰的周报。文档总结专家对长文本进行提炼总结，快速获取核心信息。把一个复杂能力，包装成用户一看就会用的小功能。

#人工智能

到底了