logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

tail-based sampling 实战:关键请求保留,普通请求自动降噪

我后来越来越少说“全量追踪更保险”这种话了。真正靠谱的可观测性,不是把所有请求都留着,而是在你最需要证据的时候,最快看到最该看的那一批请求。tail-based sampling 的价值,就在这里。如果你现在也被 trace 成本、查询变慢、样本噪声太多这些问题困住,真可以先别纠结采样率数字,先把“哪些请求必须留下来”这件事定义清楚。后面的策略,反而会简单很多。

#java#算法#前端
tail-based sampling 实战:关键请求保留,普通请求自动降噪

像健康检查、探活、静态资源、内部低价值调用,放在最后做 drop 或超低比例采样。因为这一步最容易误杀。先把“该保的都保住”,再谈“该丢的尽量丢”。我现在越来越不信“全量采集才安全”这套说法了。真实生产环境里,数据不是越多越好,关键是有用的数据能不能在你需要的时候立刻找到。tail-based sampling 的价值,就在于它把链路预算从“平均分给所有请求”,改成了“优先留给真正值得分析的请求”

#java#算法#前端
OpenTelemetry 采样别再全量开了:我把链路存储成本压到原来的 1/5

只用 head sampling 有个典型问题:请求一进来就决定采不采,后面即便变慢、报错,也可能早就被丢了。只用 tail sampling 也有代价:你得先缓存一段时间的 trace,等整条链路结束后再决定保不保留,对 Collector 内存和队列配置要求更高。所以我最后落的是组合方案。第一层用 head sampling,先在入口挡掉明显低价值流量,避免所有数据都冲到后端。第二层用 tai

#java#算法#前端
ClickHouse 查询从 8 秒到 200ms:我用分区键 + 物化视图改写了数据模型

ClickHouse 不是"建了就能跑快"的数据库。它的性能高度依赖表结构设计:分区键决定你能跳过多少数据,主键顺序决定数据块裁剪效率,物化视图决定高频查询要不要重复计算。我这次最大的教训是:别把 OLTP 的思维方式搬到 OLAP。ORDER BY在 ClickHouse 里不是索引,而是物理排序规则。设计表结构之前,先把业务查询的WHERE和GROUP BY列出来,按过滤频率排主键顺序。如果你

#clickhouse#java#前端
告别手绘,一键生成实体属性图:SQL/D2/Mermaid代码直接转高清大图

本文介绍了一种高效绘制数据库实体属性图的工具,支持SQL DDL、Mermaid和D2三种代码输入格式,能自动生成可编辑的高清图表。工具提供可视化编辑画布,支持拖拽调整、样式修改和2K分辨率导出,解决了传统绘图软件操作繁琐、导出质量差的问题。文章分享了该工具的设计思路、技术实现和实际应用场景,旨在帮助开发者、架构师快速生成专业的数据模型图,提升技术文档编写效率。

#sql#oracle#数据库
AIGC检测的基本原理:原理、方法与挑战

本文系统介绍了AIGC(人工智能生成内容)检测的核心原理与技术方法,涵盖文本、图像、音视频等不同类型内容的检测机制。重点分析了语言风格、模型指纹、深度学习分类器等检测思路,以及GPTZero、DetectGPT等典型工具。文章同时指出了当前AIGC检测所面临的挑战,如模型演化、混合写作、对抗样本等,并展望了未来多模态融合与可解释性增强的发展方向。此外,文中也提到,在处理AI生成内容时,借助如 sc

文章图片
#AIGC
WebSocket连接泄漏导致FD耗尽,我用lsof + ss脚本5分钟定位根因

这次故障从开始排查到定位根因,实际只花了不到 5 分钟。不是因为运气好,而是因为lsof + sslsof告诉你 FD 被谁占了;ss告诉你这些 socket 是什么状态;两者一交叉,CLOSE_WAIT爆炸 = 连接泄漏,几乎不用猜。WebSocket 的坑不在于协议本身,而在于「长连接」这三个字带来的心智负担。短连接出问题,超时自动回收;长连接出问题,它真的会一直占着。如果数字大于 100,你

#websocket#chrome#网络协议
WebSocket连接泄漏导致FD耗尽,我用lsof + ss脚本5分钟定位根因

这次故障从开始排查到定位根因,实际只花了不到 5 分钟。不是因为运气好,而是因为lsof + sslsof告诉你 FD 被谁占了;ss告诉你这些 socket 是什么状态;两者一交叉,CLOSE_WAIT爆炸 = 连接泄漏,几乎不用猜。WebSocket 的坑不在于协议本身,而在于「长连接」这三个字带来的心智负担。短连接出问题,超时自动回收;长连接出问题,它真的会一直占着。如果数字大于 100,你

#websocket#chrome#网络协议
WebSocket连接泄漏导致FD耗尽,我用lsof + ss脚本5分钟定位根因

这次故障从开始排查到定位根因,实际只花了不到 5 分钟。不是因为运气好,而是因为lsof + sslsof告诉你 FD 被谁占了;ss告诉你这些 socket 是什么状态;两者一交叉,CLOSE_WAIT爆炸 = 连接泄漏,几乎不用猜。WebSocket 的坑不在于协议本身,而在于「长连接」这三个字带来的心智负担。短连接出问题,超时自动回收;长连接出问题,它真的会一直占着。如果数字大于 100,你

#websocket#chrome#网络协议
PostgreSQL 索引失效?我用 pg_stat_statements + EXPLAIN 15 分钟定位了隐式类型转换

这次排查从告警到解决,大概 20 分钟出头。主要时间花在定位类型转换上——一旦知道原因,修复其实很快。类型不一致是索引失效的重灾区。varchar+ 整型参数、integer+ 字符串参数,这类组合在应用层传入时很常见,但很容易被忽略。EXPLAIN是标配。生产环境出问题,先用前者捞高频查询,再逐个EXPLAIN,哪个不走索引一目了然。如果你的查询也有类似问题,建议先把EXPLAIN跑一遍,看看有

#postgresql#数据库
    共 47 条
  • 1
  • 2
  • 3
  • 4
  • 5
  • 请选择