
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
目标:完全移除 ZooKeeper 依赖;优势:简化架构、提升元数据一致性、更快启动;状态:自 Kafka 3.3 起KRaft 成为默认模式;迁移建议新项目:直接使用 KRaft;老项目:谨慎评估迁移成本,可长期运行 ZK 模式。核心模型:Topic(逻辑)→ Partition(物理)→ Leader/Follower(高可用);可靠性基石acks=all+ 多副本 + 手动提交 offset
*** 文档分片实体类(与ES索引字段严格映射)* 对应ES中存储的「文本分片+元数据」结构/** 文本分片内容字段(对应ES的content字段,BM25检索目标) */ private String content;/** 原始文档ID(非分片ID,用于检索结果溯源) */ private String docId;/** 文件类型(如txt/word/pdf/excel,可选) */ pri
针对超大文本(如100MB以上纯文本文件),传统“一次性加载全部文本到内存再分片”的方式易导致内存溢出、方法卡死等问题。因此采用:逐批次读取文本到缓冲区,按需生成分片,全程不加载完整文本到内存,大幅降低内存占用。
ZooKeeper:Kafka 集群的“配置中心 + 协调中心”。Broker 注册:依靠 ZK 临时节点实现存活检测。Controller 选举:争抢 ZK临时节点实现。分区主从:Leader 提供读写,Follower 同步,ISR 保证高可用。Leader 选举:由 Controller 从 ISR 中选出,结果存入 ZK。ZK 作用边界:只管集群协调,不管消息收发。
封装Excel单元格原始数据+完整元数据,用于解析结果暂存与数据流转/*** Excel单元格数据实体* 存储单个单元格的内容+全量元数据,支持检索溯源/** 工作表名称(如:Sheet1、用户信息表) */ private String sheetName;/** 行号(从1开始,与Excel视觉行号一致) */ private Integer rowNum;/** 列号(从1开始,与Excel
关键点说明脑裂本质网络分区 + 共识机制失效 → 多主节点旧版防护依赖手动配置法定人数新版防护基于 Raft 思想的协调层,自动多数派选举 + 任期机制核心原则主候选节点数为奇数确保多数派唯一终极建议使用 ES 7.0+,遵循官方部署规范,避免手动干预共识逻辑结论:Elasticsearch 7.0+ 通过引入现代化的集群协调机制,从根本上解决了脑裂问题,大幅提升了系统的可靠性与易用性。生产环境应
分词器 = 把一段文本,切分成一个个“关键词”的工具。ES 底层是 Lucene,所有文本搜索,都依赖分词,分词的质量直接决定搜索效果。倒排索引 = 关键词 → 文档ID 的映射关系,是 ES 能实现“秒级搜索海量数据”的核心原理,也是搜索引擎的基础。简单来说,倒排索引不存储“文档包含哪些内容”,而是存储“每个关键词出现在哪些文档中”,通过关键词快速定位文档,而非遍历所有文档。
【代码】Kafka ZooKeeper 模式 vs KRaft 模式对比。
本次图片向量化为,核心逻辑无复杂依赖、低成本快速落地,完全复用现有知识库的全套技术栈,无任何新增组件引入:前端上传图片 → 图片标准化预处理(压缩/格式统一/裁剪) → Base64字符串编码 → 复用生成向量 → MinIO存储原图 + Redis防重复入库 + ES向量入库。
Node类:双向链表节点,包含key、value、pre(前驱节点)、next(后继节点);成员变量cache:HashMap<Integer, Node>,key到节点的映射;head/tail:哑节点,作为链表头尾,简化边界操作;capacity:缓存容量。手动实现(第一次解答):O(1)时间+O(capacity)空间,经典实现,体现LRU核心逻辑,面试/底层开发首选;LinkedHashM







