logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

60 亿+ 条 Elasticsearch 数据泄漏事件引起的反思 >>

如果发现有大量来自不该出现的 IP 的请求,或者有不正常的索引操作(比如删除、大规模导出),立马拉响警报。它会记录所有对集群的请求,包括谁、在什么时候、干了什么操作。如果你还在用 HTTP 访问 ES 或 Kibana,就是在裸传数据和密码。以下是针对 ES 用户,无论版本新旧,你必须立即检查和执行的几个技术动作。如果你还在用 5.X、6.X 这种老掉牙的版本,你面对的安全风险是。安全功能默认是开

#elasticsearch#jenkins#大数据 +2
Elasticsearch 实现“不包含“查询的 4 种方法,你知道几个?

建索引时配置分词器,让"iPhone15"被拆分成"iphone"、"iphone15"、"15"三个token。Elasticsearch 没有直接的"不包含"操作符,但我们可以通过组合。开发测试阶段,咱们优先使用通配符或查询字符串,快速验证逻辑。操作符 —— 它会反转匹配条件,把"包含"变成"不包含"。咱们企业的临时复杂需求,可以用正则,但要监控性能。生产环境高频查询,必须使用自定义分词器方案

#elasticsearch#服务器#大数据 +2
Elasticsearch 数据同步中的卡顿与优化实践总结

万条数据到 Elasticsearch (ES) 时,系统在中间阶段频繁卡住,甚至出现报错,最终影响了业务上线节奏。这次数据同步优化的实践告诉我们,面对百万级数据处理,单靠提高内存或线程数往往不够,合理的分批策略和脚本优化才是关键。首先,ES 日志显示可能因写入数据量激增导致内存写爆,尤其在单次同步百万级数据时,系统资源难以支撑。其次,同步脚本的 DSL 可能存在优化空间,例如时间段划分不合理,导

#elasticsearch#大数据#搜索引擎 +1
打造你的企业级智能文档问答系统——Everything plus RAG 实战指南

一直以来,我都有个想法,能否做一个 plus 版本,支持文档的全文检索和智能问答?Everything plus 展示了如何用开源技术构建一个生产级的 RAG 系统。重要的不是技术有多酷,而是能不能解决实际问题。如果这个系统能让你从"找文档"的痛苦中解脱出来,那就值了。能不能结合两者的优点,既快速检索又智能理解,还能保证答案可靠呢?从零开始,用开源技术搭建一个能"读懂"文档的智能问答系统。缺点:容

Elasticsearch 大数据量扫描 3 招改动,性能提升 2 倍!

更棘手的是,在全量扫描期间,还有增量数据不断写入,部分文档字段会被软删除,这就要求我们既要保证扫描的完整性,又要处理好增量更新的问题。项目中使用了日期别名来管理按天分割的索引,一个别名对应了多个底层索引,ES需要在多个索引间进行查询合并,增加了不必要的开销。单次查询返回数据量大,网络传输耗时明显。经过一番交流、调研和实践,通过三个核心优化策略,将处理性能提升了2倍,现在将这次优化的经验总结分享给大

#elasticsearch#大数据#搜索引擎 +1
Codebuddy 实现:云端 Elasticsearch 到 本地 Easysearch 跨集群迁移 Python 小工具

这种分层验证设计既能在秒级发现数量级差异,又能精确定位到单个字段的数据变异,为跨版本迁移提供了从集群级到文档级的全链路质量保障,是确保零数据丢失、零结构损坏的关键守护机制。这种"边读边写、分批提交"的流水线设计既保证了百万级文档的稳定传输,又通过细粒度的错误追踪机制支持断点续传和异常诊断,是处理跨版本、跨集群数据同步的工业级实践方案。这种选择性过滤机制确保了核心业务字段能够平滑迁移,避免因单个不兼

#elasticsearch#大数据#搜索引擎 +1
不依赖外部API!基于 Ollama 的企业级语义搜索完整实现

用户搜索"适合学生党的平价耳机",系统只能匹配到标题中包含"学生"、"平价"、"耳机"这些关键词的商品,而那些真正物美价廉但描述为"开发同学搜索"如何优化数据库查询性能",传统搜索只能找到标题完全匹配的文章,而那些内容中深入讲解 SQL 优化、索引设计的优质文档因为标题措辞不同就被埋没了。对查询意图的理解完全依赖关键词,缺乏推理能力。其中关键词搜索权重更高(boost: 1.5),语义搜索作为补充

#oracle#数据库
【视频】系统学习 Elastic Stack 技术栈,请先看这一套视频(实战篇18-21)

第21讲:【已更完】使用 Elastic Stack 搭建日志分析系统。第20讲:基于ElasticStack的大数据可视化系统构建与影评分析。第18讲:避开 Elasticsearch 性能陷阱,构建高效系统。第19讲:基于 Elasticsearch 构建知识库检索系统。

文章图片
#学习
极限网关 INFINI Gateway 最常见问题答疑:从入门到实战的完整指南

极限网关作为Elasticsearch生态的重要组件,通过其强大的代理能力和丰富的功能特性,为企业级搜索服务提供了完整的解决方案。对于技术团队而言,合理规划网关的部署架构,充分利用其模板化配置和可视化管理能力,可以大大降低 Elasticsearch 集群的运维管理复杂度,提升服务的稳定性和可靠性。当主机房接收写入请求时,网关会同时将相同的请求复制到备机房的 ES 集群,确保数据的实时同步。网关在

#gateway
多个 Elasticsearch 集群要一起监控,怎么办?

对比下来,Kibana 适合单集群深度分析,自写脚本太费劲,商业工具成本高,而 INFINI Console 在轻量、兼容性和多集群管理上挺亮眼,感觉是个潜力股。如果想深挖数据,点“开发工具”(Data Explorer),可以查索引里的文档,类似 Kibana 的 Discover,但支持多集群切换,省得我来回登系统。实操下来,INFINI Console 的确把多个集群的监控捏合到了一起,界面

#elasticsearch#大数据#搜索引擎 +1
    共 193 条
  • 1
  • 2
  • 3
  • 20
  • 请选择