简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
一起学习下python爬虫4小分队(scrapy、beautifulsoup、selenium以及pyppeteer)之一的Selenium库,主要用于模拟浏览器运行,是一个用于web应用测试的工具。Selenium直接运行在浏览器中,看起来就像人在操作一样(也可无窗口模式运行)。支持的浏览器包括IE、Firefox、Safari、Chrome、Opera和Edge等。............
一、Linux系统安装crontab服务 1.确认crontab是否安装 # crontab -l 如果报 “command not found” ,就说明该crontab服务没有安装 如果报 “no crontab for root” ,就说明已经安装crontab服务了,请跳过步骤一,至于出现这个提示的解决办法请往下看。 2.安装crontab服务 ...
使用文档加载器将数据从源加载为Document是一段文本和相关的元数据。例如,有一些文档加载器用于加载简单的.txt文件,用于加载任何网页的文本内容,甚至用于加载YouTube视频的副本。文档加载器提供了一种“加载”方法,用于从配置的源中将数据作为文档加载。它们还可选地实现“延迟加载”,用于将数据延迟加载到内存中。
使用文档加载器将数据从源加载为Document是一段文本和相关的元数据。例如,有一些文档加载器用于加载简单的.txt文件,用于加载任何网页的文本内容,甚至用于加载YouTube视频的副本。文档加载器提供了一种“加载”方法,用于从配置的源中将数据作为文档加载。它们还可选地实现“延迟加载”,用于将数据延迟加载到内存中。
一旦加载了文档,您通常会想要转换它们以更好地适应您的应用程序。最简单的例子是,您可能希望将一个长文档分割成更小的块,以便适合模型的上下文窗口。LangChain有许多内置的文档转换器,可以轻松地拆分、组合、过滤和操作文档。当你想处理很长的文本时,有必要将文本分割成块。虽然这听起来很简单,但这里有很多潜在的复杂性。理想情况下,您希望将语义相关的文本片段放在一起。“语义相关”的含义可能取决于文本的类型
在阅读本文前,建议要有一定的langchain基础,以及langchain中document loader和text spliter有相关的认知,不然会比较难理解文本内容。是一个开源向量相似性搜索Postgres它支持:- 精确和近似最近邻搜索- L2距离,内积和余弦距离。