logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Langchain文档预处理流水线:核心原理与检索准确性影响分析

摘要: Langchain文档预处理流水线是提升检索系统性能的关键环节,通过三大模块解决原始文档的“三乱”问题: 冗余数据过滤:结合规则与AI模型剔除广告、空白页等噪声,提升检索精确率; 格式标准化:统一PDF/Word等异构文档为结构化数据(如JSON),避免解析差异导致的召回率损失; 元数据提取:自动化补充作者、时间等标签,支持多维度精准检索。 实际案例显示,预处理可使检索精确率从62%提升至

SFT、RLHF、DPO技术对比:大模型训练的关键策略

本文介绍了三种优化大语言模型的技术方法:监督微调(SFT)、基于人类反馈的强化学习(RLHF)和直接偏好优化(DPO)。SFT通过标注数据使预训练模型适应特定任务;RLHF利用人类反馈指导模型优化输出质量;DPO简化RLHF流程,直接利用偏好数据优化模型。文中提供了医疗问答、智能客服和内容生成等应用案例,并附各方法的Python实现代码示例(基于Hugging Face、Stable-Baseli

#人工智能#深度学习#机器学习
LangChain聊天模型的多种交互技术解析

本文介绍了LangChain中聊天模型的四种基本调用方式及其应用场景:单次调用(invoke())适用于简单问答,批量处理(batch())提高多任务效率,流式输出(stream())实现实时交互,异步流式(astream())支持高并发。第二部分讲解了工具调用功能,通过bind_tools()扩展模型能力,如查询天气、数据等。第三部分展示结构化输出(with_structured_output(

到底了