
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
摘要 人工智能技术正在重塑数据库管理领域(AI4DB),传统方法在查询优化、索引推荐等方面已展现潜力,但面临动态适应性差、泛化能力有限、运维成本高等瓶颈。大语言模型(LLM)的兴起为数据库管理带来新机遇,其强大的语言理解、推理和泛化能力推动系统向"以意图为中心"演进。LLM4DB框架包含五大核心组件:检索增强生成(RAG)、领域特定微调、提示管理、智能体和向量数据库,协同实现智

本文介绍了DataFlow-Agent框架中的NL2Pipeline功能,它能够将自然语言描述的数据处理需求自动转化为可执行的DataFlow Pipeline。NL2Pipeline通过多轮对话理解用户意图,拆解任务并映射到现有算子,生成推荐流程并支持自动调试。文章详细展示了两种使用方式:自定义手动编排和Agent自动推荐模式,包括环境部署、参数配置和Pipeline执行全过程。该系统旨在帮助工

本篇,我们将深入探讨 决定 RAG 检索质量与效率的核心组件——向量搜索(Vector Search),并结合 OriginHub MyScale AI 数据库的能力,展示在高级 RAG 系统中如何构建更强大的语义检索引擎。

摘要:OriginHub MyScale基于ClickHouse构建,将SQL与向量搜索结合,支持复杂AI查询。文章介绍了高级SQL技术,包括通用表达式(CTE)、子查询和表连接,并通过示例展示如何在MyScale中应用这些技术处理向量数据。重点演示了使用CTE简化向量查询、通过子查询优化连接操作的方法,说明如何高效执行结构化数据和向量数据的联合分析。这些技术增强了数据分析能力,使复杂的高维数据查

分块是优化 RAG 的基础步骤,目标是将长文档拆分为 LLM 可处理的“小单元”。这些分块在嵌入后存入向量数据库,应用在查询时通过“相似度检索”快速找回最相关的内容。

DataFlow 是一款开源模型数据准备框架,专为大模型自动化、体系化输出高质量数据。本文旨在提供安装部署 DataFlow 的最佳实践。

本文介绍了如何在基于ClickHouse的AI数据库中集成Tantivy全文搜索引擎,以提升非结构化文本数据的检索性能。面对全球数据爆炸性增长至181ZB的挑战,传统搜索引擎已无法满足精准捕捉用户意图的需求。文章详细阐述了选择Tantivy的原因,包括其BM25相关性评分、可配置分词器等核心特性,并分享了通过C++包装器实现与AI数据库无缝集成的技术方案。重点介绍了将Tantivy实现为Click

摘要:AI时代的数据治理范式转变 传统数据治理体系正面临挑战,因为AI成为数据的第一消费者。本文指出当前企业面临的核心矛盾:沿用为人设计的数据治理方式服务AI系统导致效果不佳。通过对比分析传统数据治理与AI数据准备的差异,提出数据工作应从治理转向为模型准备数据的新范式。 关键转变包括:目标从数据是否合规转向能否被模型理解使用;数据形态从结构化表格转向向量化语义表示;文章介绍了DataFlow系统的

通过在一个查询中结合结构化和向量数据,过滤向量搜索在高级 RAG 系统、大规模多用户系统等方面具有广泛而重要的应用。基于列式的 ClickHouse SQL 数据库开发的 OriginHub MyScale AI 数据库支持丰富的元数据类型和函数,以及灵活的自查询能力。通过采用预过滤、列存储和算法优化,MyScale 在任意过滤比例下实现了高准确性和速度,为 LLM 应用奠定了坚实的数据基础。
Agentic RAG 将 ReACT 的推理能力与 Agent 的任务执行能力相结合,创建一个动态和自适应的系统。与遵循固定 pipeline 的传统 RAG 不同,Agentic RAG 通过使用 ReACT 根据用户查询的上下文动态协调 Agent,引入了灵活性。









