logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

ES java client 搜索报错 entity content is too long[xxx1] for the configured buffer limit [xxx2]

应用同事反馈,在使用es的滚动导出的时候,一共有5567条数据,但是实际上只拿到4567条数据,并且打断点,最后一次是获取到了456条数据。所以可以判断,中间少了1000条数据。因为滚动导出是每次1000条。初步判断,是少了一次数据解析,有可能第一次构建请求的时候,没有解析数据。实际上并不是,看报错如下图,是 entity content is too long[xxx1] for the con

文章图片
#elasticsearch#搜索引擎
ShardLockObtainFailedException[[device_search3][2]: obtaining shard lock timed out after 5000ms

elasticsearch集群发生了故障,重新恢复,但是最后有一个分片一直没有恢复,导致集群一个主分片丢失,健康状态呈现红色。错误如下:failed shard on node [bPftT3as9siI4nSGLA]: failed to create shard, failure IOException[failed to obtain in-memory shard lock]; neste

The ‘Access-Control-Allow-Origin’ header contains multiple values “*, *”, but only one is allowed.

The ‘Access-Control-Allow-Origin’ header contains multiple values “*, *”, but only one is allowed.通常我们的跨域可以在三个地方解决通过配置类在后台代码解决。还可以通过注解在接口上解决。可以在业务网管层面解决。可以在nginx层面解决。以上的三种方式,假如用了两种。则会出现双重跨域的异常错误。解决方案如

failed shard on node [XXX], failed recovery, failure RecoveryFailedException

问题描述机房的机器发生了断电恢复。集群就呈红色关键性描述:nested: IndexShardRecoveryException[failed recovery]; nested: ElasticsearchException[java.io.IOException: failed to read /home/wsn/es/es7.5/node_2/data/nodes/0/indices/QGf

failed to decrypt safe contents entry: javax.crypto.BadPaddingException: Given final block not prope

我这个错误是在es其中失败的时候报出来的:Caused by: java.security.UnrecoverableKeyException: failed to decrypt safe contents entry: javax.crypto.BadPaddingException: Given final block not properly padded. Such issues can

redis 之地理信息的使用 查看附近的人

# # redis 实现附近的人功能架构,和实现思想其实这个主要分两个,一个是位置信息上传,一个是附近的人查询。这个功能使用redis来实现,是基于一个redis的一种数据结构,GEO接下来,看一下GEO的常用命令其实可以看出来的是redis的GEO支持地理位置的存储,以及位置间的距离的计算。#...

Query Rewrite —— 基于大模型的query扩展改写,PRF+ GRF协同发力减少LLM的幻觉问题(论文)

(伪相关反馈)为了解决模型的幻觉问题,在改写前,先拿原始query去进行一次query,然后将召回的数据作为参考内容,送给模型,根据这些内容重新生成query。优势:可以一定程度上解决模型幻觉问题,有效解决解决词汇表不匹配问题。毕竟是根据query召回的内容去生成query的。劣势:这将会很依赖首次的检索,如果召回的数据质量很差,就GG了。(生成相关反馈)最近关于生成相关性反馈(GRF)的研究表明

文章图片
RAG的上限在哪里?边界在哪里?

随着大模型的火热,RAG也重出江湖,成为AI产品中最火热的成员之一。特别是2024年到现在,越来越多的RAG产品出现在gitlib 上。世人皆知RAG,唯独不知RAG的能力边界。RAG用一句话:入门(demo跑通整个流程)像1一样容易,出神入化(能够达到生产级别的要求)真的还挺难。RAG相关的工作,做了一年又余。随着时间变化,愈来愈觉得,RAG需要特别多的知识才能真的把它做好。而我在不断的补这些知

文章图片
#人工智能
elasticsearch 单索引 6T 20亿 数据搜索实战与优化深度思考

我负责公司的检索平台的开发兼运维工作。我们的场景是对互联网上的设备数据进行检索。数据量大概有20亿,对应的存储量大概有6T(不带副本的情况下)。单条数据会有上百个字段,用来刻画网络设备画像。我们有比较特殊的需求:我们有频繁更新的需求,每天几千万,甚至上亿。我们并不能做根据时间的滚动索引。因为后进的数据需要把前边的数据做覆盖。所以就没有办法做索引的生命周期管理。我们有频繁的聚类搜索的需求。我们想要基

#elasticsearch
RAG 基准测试(法律领域)测试数据集分享

最近的一部分工作,有在做RAG的benchmark。年初三四月份(2024)的时候,调研已有的测试方案的时候,相关工作很少,只有一篇论文。最近再看相关的测试数据集又多了一些。我们虽然也有构建数据集,但是还是相对少一些。今天分享一篇论文,RAG关于法律领域的测试数据集。通常这种数据集需要一些领域知识,才能更好的更充分的构建出来这个数据集。实际上,评估RAG的能力,使用通用数据集是远远不够的。专门的领

文章图片
    共 97 条
  • 1
  • 2
  • 3
  • 10
  • 请选择