
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
通过在一个查询中结合结构化和向量数据,过滤向量搜索在高级 RAG 系统、大规模多用户系统等方面具有广泛而重要的应用。基于列式的 ClickHouse SQL 数据库开发的 OriginHub MyScale AI 数据库支持丰富的元数据类型和函数,以及灵活的自查询能力。通过采用预过滤、列存储和算法优化,MyScale 在任意过滤比例下实现了高准确性和速度,为 LLM 应用奠定了坚实的数据基础。
Agentic RAG 将 ReACT 的推理能力与 Agent 的任务执行能力相结合,创建一个动态和自适应的系统。与遵循固定 pipeline 的传统 RAG 不同,Agentic RAG 通过使用 ReACT 根据用户查询的上下文动态协调 Agent,引入了灵活性。

AgenticRAG pipeline是一套自动化数据合成系统,旨在解决RAG系统中模型无法稳定使用检索结果的问题。该系统通过原子问答生成模块自动构建多维QA数据,再经问答质量评估模块进行多指标评分,最终产出结构化、可验证的强化学习数据集。该流水线支持从原始文档生成多样化问答对,并通过F1评分和一致性检查确保数据质量,使模型能真正掌握基于证据的回答能力。使用方法包括环境配置、知识库设置和流水线运行

DataFlow 是一款开源模型数据准备框架,专为大模型自动化、体系化输出高质量数据。本文旨在提供安装部署 DataFlow 的最佳实践。

混合检索是一种结合全文检索和向量检索的技术,通过融合关键词匹配与语义理解能力,提供更精准全面的搜索结果。全文检索擅长精确匹配关键词,而向量检索能捕捉深层语义关联。MyScale AI数据库采用两种融合算法:相对分数融合(RSF)对分数归一化后加权求和,倒数排序融合(RRF)则基于排名位置合并结果。该技术在电商、医疗等场景中表现优异,既能满足精确条件筛选,又能理解复杂语义需求,已成为提升搜索质量的关

本篇,我们将深入探讨 决定 RAG 检索质量与效率的核心组件——向量搜索(Vector Search),并结合 OriginHub MyScale AI 数据库的能力,展示在高级 RAG 系统中如何构建更强大的语义检索引擎。

在本文中,我们将系统性介绍主流向量索引技术,并结合 MyScaleDB AI 数据库的实践,解释它们如何影响高级 RAG 的检索质量与性能。

随着开源版本 MyScaleDB 的发布,开发人员将可以利用结构化数据的价值与不同的大模型结合,以实现多样化的用例,从而用更低的成本和更快的创新节奏来获得更好的性能。我们相信,在当今不断变化的 AI 世界中,MyScaleDB 的开源为开发者们提供了处理复杂数据的潜力的钥匙。汤林鹏,墨奇科技 CTO :“我们很开心能将 MyScaleDB 开源,通过开源我们的技术,希望促进 AI 开发者之间的创新

对于那些需要处理大规模数据复杂数据的客户来说,全面数据管理能力和复杂查询的能力,以及海量数据时的性价比是一个非常重要的考虑因素。ClickHouse 处理大规模结构化数据的性能出色,在改造的过程中,墨奇科技对向量化的算法、系统以及SQL与向量的联合查询和存储进行了深入的优化,确保了在保持高性能向量检索和复杂查询的同时,也能够满足企业对通用数据的全面需求。尽管向量数据库的前景广阔,但仍需紧密关注技术

大模型的数据准备工作不只是一次性的清洗和特征构造,而是一个贯穿模型全生命周期、涵盖采集、解析、合成、增强、评估、反馈的复杂工程体系。本文将对大模型数据准备的基本内容及其与传统数据准备的差异进行介绍。









