logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

告别关键词!PostgreSQL+pgvector 玩转语义和图像检索

在 AI 驱动的语义检索时代,传统关键词搜索已难以满足“理解内容”的需求。pgvector 作为 PostgreSQL 的向量扩展,让数据库具备了高效的向量存储与检索能力,无需额外部署独立向量数据库,极大简化了架构。本文结合实战场景,从环境搭建、文本转向量模型选型(BERT vs BGE)、数据处理、索引优化到最终检索实现,完整拆解 pgvector 的应用流程,并通过可直接运行的 Python

文章图片
#postgresql#数据库
DuckDB:PRAGMA语句动态配置数据库行为

在 DuckDB 中,PRAGMA 是一种编译指示(compiler directive),它是一种特殊的指令,用于配置数据库的各种内部设置、行为和特性。这些指令可以影响数据库的性能、资源使用、输出显示等诸多方面,就像是为数据库引擎提供了一系列的控制开关和微调旋钮。PRAGMA特点语法简单PRAGMA 的语法相对简洁明了。通常使用PRAGMA关键字加上具体的指令名称和相应的参数(如果需要)来使用。

文章图片
LangChain 与 LangGraph双生框架协同构建AI应用

模块化集成与多轮对话管理。前者通过标准化接口简化工具链组合,后者通过图结构建模确保对话连贯性。二者的技术差异体现在架构设计(链式 vs. 图状)、状态管理方式(单次传递 vs. 全局维护)和适用场景(单任务流程 vs. 多轮交互)。实际开发中,开发者可根据需求单独使用或混合集成,例如用 LangChain 构建行程规划工具链,再通过 LangGraph 实现用户追问时的上下文延续。这一互补关系为构

文章图片
Polyglot 全解析:多语言处理的利器与中文支持实践

Polyglot 是一个支持多语言处理的工具集合,涵盖 **语言学概念(通晓多语言的能力)、Python NLP 库(多语言文本分析)、gRPC 生态组件(跨语言通信支持)** 等多个领域。本文聚焦 **Python 中的 Polyglot NLP 库**,详细解析其产生背景、核心功能、应用场景,重点阐述对中文的支持能力,并提供 **中文分词、实体识别、情感分析等任务的完整代码示例**,最后总结其

文章图片
深入理解 `typing.Annotated`:从类型增强到 LangGraph 实战指南

Python的typing.Annotated工具允许在不改变类型本质的情况下为类型添加元数据(如业务描述、验证规则等),提升代码可读性和工具链集成能力。文章介绍了Annotated的基础语法、核心应用场景(如业务描述、框架集成)以及如何在LangGraph中增强状态管理,通过元数据指定字段合并策略。实战部分展示了一个AI智能体工作流示例,演示Annotated如何优化状态字段合并逻辑。合理使用A

文章图片
Weaviate混合搜索实战:构建高效语义检索系统

本文深入探讨Weaviate的混合搜索(Hybrid Search)技术,结合**稀疏向量(BM25关键词匹配)**和**密集向量(语义嵌入)**,提升检索系统的准确性和相关性。我们将从**需求背景**出发,介绍Weaviate的核心概念,详细讲解**索引构建、文档加载、混合搜索实现**等关键步骤,并提供完整的代码示例。最后,总结Weaviate在知识库、问答系统等场景中的应用价值。

文章图片
InfluxDB性能瓶颈破解:查询缓存设计模式与内存存储调优秘籍

在时间序列数据库的世界里,InfluxDB以其高效处理高频率数据的能力而闻名。然而,即使拥有强大的TSM索引机制,系统性能仍可能遇到瓶颈——尤其是在面对海量重复查询或实时分析需求时。本文将深入探讨两个被低估但极其重要的性能优化利器:**查询缓存(Query Caching)**和**内存存储(In-Memory Storage)**,并通过实战代码和解决方案展示如何最大化它们的价值。

文章图片
#缓存#数据分析
自适应检索增强生成(Adaptive RAG):智能问答的新范式

在当今信息爆炸的时代,如何高效地从海量数据中提取精准信息并生成高质量回答,成为人工智能领域的重要挑战。传统的检索增强生成(RAG)系统在处理各类问题时往往采用“一刀切”的策略,导致简单问题处理冗余、复杂问题回答浅显。**自适应RAG(Adaptive RAG)**应运而生,它通过智能判断问题复杂度,动态选择最优检索策略,从而实现高效、精准的问答体验。本文将深入解析自适应RAG的技术原理、实现步骤及

文章图片
Cohen‘s Kappa系数:衡量分类一致性的黄金标准及其在NLP中的应用

在分类任务(如医学诊断、机器学习模型评估、数据标注等)中,**两个评估者(或模型)的分类一致性**是衡量结果可靠性的关键指标。**Cohen's Kappa系数(κ)** 是一种经典的统计方法,用于评估分类一致性,同时**校正随机一致的影响**,比简单的“一致率”更可靠。

文章图片
#分类#自然语言处理#数据挖掘
使用Optuna进行贝叶斯优化:高效调参LLM超参数的利器

本文将介绍一种更智能、高效的超参数优化方法——**贝叶斯优化(Bayesian Optimization)**,并借助开源框架 **Optuna**,利用其核心算法 **Tree-structured Parzen Estimator (TPE)**,展示如何在实际中应用贝叶斯优化来提升模型调参效率。我们将通过一个完整的 Python 示例,演示如何使用 Optuna 对一个简单的机器学习模型(以

文章图片
    共 263 条
  • 1
  • 2
  • 3
  • 27
  • 请选择