logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

TongSearch:analysis-ansj实践指南

是基于开源项目 Ansj 中文分词构建的 TongSearch 插件。它旨在为 TongSearch 提供准确、高效的中文分词能力,支持自定义词典,能较好地满足通用领域的中文搜索需求。功能包括:语义切分:将连续的中文文本切分成有意义的词语(Term),而非单个字。例如,将“高性能服务器”切分为“高性能”、“服务器”,而非“高”、“性”、“能”、“服”、“务”、“器”。提高搜索相关性:基于有意义的词

#elasticsearch
TongSearch中分片从何而来,又解决了什么问题

TongSearch采用分片机制解决Lucene索引的扩展性问题。分片是物理独立的Lucene索引,在索引创建时通过number_of_shards参数固定,后续不可修改。文档通过Murmur3哈希函数和取模运算路由到特定分片,确保数据一致性。分片ID由索引UUID和逻辑编号组成,与节点无关。这种设计虽然限制了分片数量的灵活性,但保证了系统稳定性和可预测性,解释了为何分片设计错误必须重建索引,以及

#java#elasticsearch
TongSearch配置读取与生效机制原理解析

TongSearch的配置系统采用多层级管理机制,包括启动期静态配置、集群配置、索引级配置和请求级参数。配置通过优先级合并后注入各模块,核心抽象Setting<T>定义了配置的类型、约束和生命周期。动态配置通过ClusterState传播,采用事件驱动模型更新。部分索引配置需关闭索引才能修改,而影响JVM等底层结构的配置则必须重启。系统通过强类型校验和分布式一致性机制确保配置安全,其设

#java#elasticsearch
Tongsearch分片的分配、迁移与生命周期管理

摘要:本文深入剖析了Tongsearch分片运行时的生命周期管理机制。分片从创建到可用需经历UNASSIGNED、INITIALIZING到STARTED等状态转换,由主节点通过RoutingTable进行强一致管理。文章详细阐述了分片分配的触发时机、决策过程(考虑节点角色、磁盘水位等约束条件)以及Primary与Replica的差异化管理策略。同时揭示了分片迁移、失败恢复等过程中的关键时间窗口和

#java#服务器#数据库 +1
TongSearch主节点选举的实现与原理解析

TongSearch的主节点选举机制是其分布式架构的核心,通过严格的投票配置、任期控制和状态发布来确保集群一致性。选举仅在有master角色的节点间进行,基于持久化的clusterstate而非配置文件。初始配置仅用于首次选举,后续选举依赖多数派投票确认。主节点需成功发布clusterstate才能被承认,且职责仅限于集群状态管理。选举失败常见于网络不稳定、磁盘状态异常或负载过高等场景。该机制将主

#elasticsearch#java
TongSearch集群状态管理解析

摘要:TongSearch的集群状态(ClusterState)是系统一致性中枢,负责索引、节点、分片等变更管理。其生命周期包括:初始化时通过主节点选举构建初始状态;更新时由主节点串行生成新状态;删除通过状态更新实现逻辑移除;采用两阶段同步机制确保多数派确认后才提交状态。系统优先保障一致性,在状态不安全时会牺牲可用性。建议生产环境中优化索引管理、专用master节点并监控状态变更阶段,以维持集群稳

#java#elasticsearch
TongSearch快照备份与恢复系列(一)概念与原理

主节点将快照命令放到集群状态中广播下去,以此控制数据节点执行任务。数据节点执行完毕向主节点主动汇报状态。快照写入了两个层面的元数据信息:集群层(集群元数据)和索引层(索引模版/别名)。快照与集群是否健康无关,集群Red时也可以对部分索引执行快照备份。数据复制过程中会计算校验和,确保复制后数据的正确性。数据节点并发复制数据时取决于线程池的线程数的最大值,该值为min(5,(处理器数量)/2)。快照只

文章图片
#elasticsearch
TongSearch管理控制台使用介绍(一)

TongSearch Console 是东方通公司开发的一款针对TongSearch(国产化替代ES的产品)的可视化管理控制台。它是由golang开发,产品非常轻量级(30Mb),启动迅速,几乎在1秒内启动功能上对比开源的Kibana,并且相对Kibana 做了更多的功能增强与体验优化(比如多集群连接、数据迁移对比、监控告警等)

文章图片
#elasticsearch#搜索引擎
TongSearch :使用 analysis-ukrainian 分词插件

是 TongSearch 官方提供的一个社区贡献插件,旨在为乌克兰语提供专业的文本分析支持。它集成了专门针对乌克兰语的 Tokenizer(分词器)、Token Filter(词元过滤器)和 Stemmer(词干提取器)。虽然内置的词典能覆盖大部分通用场景,但对于特定行业的专业术语,可能仍会出现分词不准确或过度词干提取的情况。允许用户通过配置自定义的停用词表 (stopwords) 或词干例外表

    共 11 条
  • 1
  • 2
  • 请选择