logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

使用 eBPF 实现 LLM 推理服务的全栈可观测性

DeepFlow在2025年KCD大会上分享了大模型推理服务可观测性实践。面对自建LLM推理服务的挑战,如硬件选型复杂、分布式推理协同困难等问题,DeepFlow基于eBPF技术实现了全栈可观测性解决方案。该方案覆盖指标、追踪、日志和性能剖析四大支柱,能无侵入地获取从应用到基础设施的完整观测数据,包括GPU性能剖析、全链路追踪等关键能力。通过实际案例展示了如何优化vLLM+Ray推理服务,并支持中

文章图片
#分布式#大数据#运维 +2
使用 eBPF 实现 LLM 推理服务的全栈可观测性

DeepFlow在2025年KCD大会上分享了大模型推理服务可观测性实践。面对自建LLM推理服务的挑战,如硬件选型复杂、分布式推理协同困难等问题,DeepFlow基于eBPF技术实现了全栈可观测性解决方案。该方案覆盖指标、追踪、日志和性能剖析四大支柱,能无侵入地获取从应用到基础设施的完整观测数据,包括GPU性能剖析、全链路追踪等关键能力。通过实际案例展示了如何优化vLLM+Ray推理服务,并支持中

文章图片
#分布式#大数据#运维 +2
使用 eBPF 实现 LLM 推理服务的全栈可观测性

DeepFlow在2025年KCD大会上分享了大模型推理服务可观测性实践。面对自建LLM推理服务的挑战,如硬件选型复杂、分布式推理协同困难等问题,DeepFlow基于eBPF技术实现了全栈可观测性解决方案。该方案覆盖指标、追踪、日志和性能剖析四大支柱,能无侵入地获取从应用到基础设施的完整观测数据,包括GPU性能剖析、全链路追踪等关键能力。通过实际案例展示了如何优化vLLM+Ray推理服务,并支持中

文章图片
#分布式#大数据#运维 +2
深度赋能AI算力!DeepFlow携手龙蜥SysOM荣获“最佳联合解决方案奖”——eBPF破解CPU到GPU全链路观测难题

2025年11月17日,DeepFlow与阿里云SysOM联合打造的"AI基础设施可观测解决方案"荣获龙蜥大会"最佳联合解决方案奖"。该方案通过eBPF技术实现CPU-GPU全栈数据采集与智能关联,有效解决AI训练中的GPU利用率低、响应延迟等痛点,已在金融、电信等行业落地应用。此次合作标志着国产基础软件在可观测性与系统稳定性融合方面取得突破,为异构AI算力

文章图片
#人工智能
深度解析 DeepFlow 如何采集大模型服务的业务指标

中国移动构建客服大模型"混合云"生产环境,采用eBPF和Wasm技术实现可观测能力。通过eBPF技术获得开箱即用的全景拓扑、性能指标和调用链追踪,同时利用Wasm插件解析流式请求,采集TTFT、TPOT等关键业务指标。该方案实现对大模型服务的零侵扰监控,有效提升性能分析和优化能力,为2024年客服大模型商用提供有力支撑。未来计划扩展更多观测功能,包括训练场景的GPU性能剖析等。

文章图片
#easyui#前端#javascript +4
深度解析 DeepFlow 如何采集大模型服务的业务指标

中国移动构建客服大模型"混合云"生产环境,采用eBPF和Wasm技术实现可观测能力。通过eBPF技术获得开箱即用的全景拓扑、性能指标和调用链追踪,同时利用Wasm插件解析流式请求,采集TTFT、TPOT等关键业务指标。该方案实现对大模型服务的零侵扰监控,有效提升性能分析和优化能力,为2024年客服大模型商用提供有力支撑。未来计划扩展更多观测功能,包括训练场景的GPU性能剖析等。

文章图片
#easyui#前端#javascript +4
金山办公基于 DeepFlow 的零侵扰可观测性实践

金山办公私有化项目通过引入DeepFlow和eBPF技术,构建了统一的可观测性平台,解决了指标、追踪、日志数据孤岛问题。项目采用分阶段实施策略,已实现eBPF数据与业务日志的智能联动,并优化了MySQL、Grafana等第三方组件的集成方案。实际应用中,该平台成功定位了包括无效订阅事件、配置错误等系统问题,显著提升了运维效率。未来规划包括完善数据全景联动、构建服务拓扑视图、优化调用链追踪等功能,并

文章图片
#java#大数据#运维
DeepFlow 最佳实践 —— Blackbox 拨测能力集成及统一观测

DeepFlow可观测性平台通过eBPF技术实现零侵扰的数据采集,支持全栈观测能力。本文介绍了如何集成PrometheusBlackbox拨测功能,通过HTTP/HTTPS/TCP/ICMP协议监测云端业务服务状态。方案使用DeepFlowAgent+GrafanaAlloy采集拨测数据,与平台应用指标统一分析,实现异常快速发现与诊断。平台提供拨测指标监控视图和应用监控视图,帮助运维人员全面掌握系

文章图片
#prometheus#微服务#云原生 +2
DeepFlow 大模型智能体 3 分钟定位 Java 程序 Hang 故障

摘要:某银行分布式核心系统遭遇"认证网关Hang"故障,传统方法耗时两周无果。通过部署DeepFlow的eBPF持续剖析功能,3分钟内锁定CPU热点函数,结合大模型智能体分析,发现故障源于正则表达式编译与GC机制的交互作用。验证显示,复杂正则匹配任务阻塞YongGC导致进程挂起。DeepFlow的零侵扰采集和智能分析能力,显著提升了复杂故障的诊断效率。(146字)

文章图片
#运维#云原生#云计算
DeepFlow 大模型智能体 3 分钟定位 Java 程序 Hang 故障

摘要:某银行分布式核心系统遭遇"认证网关Hang"故障,传统方法耗时两周无果。通过部署DeepFlow的eBPF持续剖析功能,3分钟内锁定CPU热点函数,结合大模型智能体分析,发现故障源于正则表达式编译与GC机制的交互作用。验证显示,复杂正则匹配任务阻塞YongGC导致进程挂起。DeepFlow的零侵扰采集和智能分析能力,显著提升了复杂故障的诊断效率。(146字)

文章图片
#运维#云原生#云计算
    共 17 条
  • 1
  • 2
  • 请选择