王知无(import_bigdata) 个人主页

@u013411339

王知无(import_bigdata)

2022-09-29 17:39:03 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

Agent + MCP + Skill：构建数仓全链路口径查询

2025年下半年开始，Agent + MCP（Model Context Protocol）+ Skill 的组合逐渐成熟，让我们看到了一种全新的可能：把数仓的口径查询能力，从"人工服务"变成"Agent 自助服务"。它不是一个简单的"查字典"操作，而是一个涉及多数据源、多系统、多步推理的链路。回到开头，Agent + MCP + Skill 这套方案的核心价值，是把数仓团队多年积累的口径知识，散

#java #大数据 #数据库 +2

全网首发｜AI x Data x Agent 面试专题总结系列【5.2万字，11个模块】

本文整理了自2025年下半年以来，大数据提高班、知识星球、其他微信同学们面试过程中遇到的AI x Data x Agent等方向的AI相关面试题，涵盖RAG、Agent、向量数据库、框架、Skills、协议、生产工程、大模型微调、Promt Engineering、Data × AI融合等模块，共计100+道核心面试题。在AI Agent体系中的定位：向量数据库通常承载Agent的长期记忆（历史对

#人工智能 #面试 #职场和发展

Flink2.1 AI+LLM大模型调用初体验

适当的调优可能显著提升运行AI函数的吞吐量和稳定性。此外，Flink 2.1的ML框架已经原生支持「Embedding→向量存储→向量检索→LLM」的RAG链路，我们后面再单独分享。扩展ML_PREDICT表值函数，支持通过Flink SQL实时调用AI模型，为构建端到端实时AI工作流奠定基础。新增AI模型DDL，支持通过Flink SQL与Table API创建和修改AI模型，实现AI模型的灵活

#人工智能 #linq #c#

Anthropics官方对Claude Skills做了一次重大更新。

新增了agents/grader.md(评分员)、agents/comparator.md(对比员)和agents/analyzer.md(分析员)，把Skill的创建从「概念说明」转为「流程化执行」。：包含了一些核心的高级能力，例如 docx（Word 处理）、pdf（PDF 读取）、pptx（PPT 生成）等，这些是Claude Code强大功能的底层实现。4. 推动规模化落地：标准化 + 可

Trae VS. Lingma，字节和阿里的AI编辑器来了！

在AI技术迅猛发展的2025年，AI IDE出现了cursor、trae、windsurf、Lingma，插件有我们熟知的copilot、cline等等。作为AI原生的开发环境工具，通义灵码AI IDE深度适配了最新的千问3大模型，并全面集成通义灵码插件能力，具备编程智能体、行间建议预测、行间会话等功能。在多模态交互上，Trae支持自然语言命令，用户可以用通俗易懂的语言告诉Trae要做的事情，如"

#人工智能 #编辑器

大数据核心框架更新周报｜ClickHouse多版本齐发、Fluss0.9发布、Delta Lake引入Catalog管理表

表级查询超时是一个实用的运维能力补充，对于存在个别慢查询表的集群有直接价值。：一周发布 5 个版本，看起来密集，但实际上是 ClickHouse 多分支并行维护策略的常规节奏，主要内容是各分支的安全补丁和 Bug 修复。Delta Lake 4.1.0 的 Catalog 管理表和 ClickHouse 26.2 的 BigLake 集成反映了同一个方向：Catalog 的角色正在从被动的"表在哪

#大数据 #clickhouse

2025年Apache社区新晋顶级项目名单，你的技术栈该升级了。

Uniffle 通过将 Shuffle 服务从计算引擎中彻底解耦，构建一个独立、可扩展、可共享的远程 Shuffle Service，使得计算任务可以更加专注于计算本身，而 Shuffle 数据的存储、传输与容错交由专门的服务负责。Gravitino 的价值在于提供一个跨系统、跨引擎的统一元数据视图，将数据资产、权限、血缘、标签等能力集中管理。在现实生产环境中，Spark、Flink、Java、S

#apache

【2025年下半】PaimonxDoris湖仓一体方案各大公司生产实践和优化总结

Paimon作为数据湖存储，核心优势体现在存储层：其开放格式（兼容 Spark、Flink、Trino等多引擎）、基于对象存储（S3、HDFS）的 PB 级弹性扩展能力，以及对事务、Schema 演进的原生支持，使其成为海量异构数据的"统一存储基座"，兼顾低成本与兼容性。只需要在DWS层，创建一张主键聚合表。支持基于 Paimon 的物化视图，包括分区级别的增量物化视图构建，以及本文后续将要介绍的

Doris x Paimon湖仓一体建设技术要点

另外，Iceberg，Hudi 等都提供了开放式的元数据管理能力，不管元数据是存储在 Doris 本身，还是存储在 Hive Meta store，或者存储在其它统一元数据中心，都可以通过一些对外公开的 API 对这些数据进行管理。「数据分层建模，ODS层在 LakeHouse 中，DWD，DWS，ADS 层的数据加工和数据服务在可以在Doris中，充分利用其性能优势，此外还可以将其加工好的数据再

基于Apache Paimon实现流式数仓实践

300万字！全网最全大数据学习面试社区等你来！摘要本文主要介绍作为供应链物流服务商海程邦达在数字化转型过程中采用 Paimon 实现流式数仓的落地方案。我们提供一个适用于 k8s 环境并且易于上手的生产操作手册，旨在帮助读者快速掌握 Paimon 的使用方法。公司业务情况介绍大数据技术痛点以及选型生产实践问题排查分析未来规划01公司业务情况介绍海程邦达集团一直专注于供应链物流领域，通过打造优秀的国

共 59 条

请选择