
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
Python爬虫、linux、google、chrome、webdriver、缺少谷歌依赖问题
声明本博文是在使用如下开源项目时总结的方法https://github.com/zhangtao-seu/Jay_KG,文中一部分使用了作者 README.md上的原话。目录下载apache-jena和apache-jena-fuseki配置环境变量启动fuseki的web服务数据准备owl文件owl转换为nt文件RDF文件转换成tdb文件fus...
文章摘要:本文介绍了文件锁的适用场景及其实现方法。文件锁用于确保程序在单个载体上只能运行一个实例,避免重复运行。基本思路是在程序启动时创建文件锁,若文件锁已存在则阻止程序启动并提示用户。文章提供了简单的实现代码,使用FileLock模块创建文件锁,并通过with语句确保锁的获取与释放。此外,还介绍了进阶写法,将文件锁封装为函数,支持传入回调函数及其参数,便于在其他文件中调用。
,在新环境中pip install pyspark安装。从0开始,安装后去对应虚拟环境下的site-packages里,可以直观的看到pyspark及其依赖包。pyspark的运行需要java的支持,所以你还需要有java jdk的安装包。,下载你所需的版本的包。接着找一个盘,解压后,配置系统环境变量。安装后即可在python运行pyspark。1.2、conda新建虚拟环境安装。,进去选择版本下
使用selenium先get到页面,截取登陆界面(包括验证码)。代码处理+ocr识别,自从输出验证码,再使用selenium定位到登陆元素,点击登陆即可。除上述之外还需做一个其他事情,就是假设验证码里包含x等形似数学运算符的,需要做一个判断来保持识别的准确率。
最近需要开发一个爬虫工具,使用的是selenium做的。最终需要打包成exe。打包的过程是非常痛苦的,因为你不知道什么时候会出现什么样不同的错误或警告。这不,一个DNS的警告直接给我干蒙了,我寻思我selenium的爬虫跟DNS有什么关系啊。反正就莫名其妙,但是呢你得解决,虽然不影响使用,但是输出的警告混杂日志输出,难免有那么一些不好看,而且后期排查错误也不好排查。

下载腾讯的词向量、停用词、代码部分代码思想、输出结果。句子相似检索,faiss检索。Python简单使用faiss检索相关向量。词转向量。word2vec
Fatal Python error: init_fs_encoding: failed to get the Python codec of the filesystem encodingPython runtime state: core initializedModuleNotFoundError: No module named 'encodings'Current thread 0x00
关键字提取简单来说关键字提取就是从一段文本中将最能体现总体思想的词或句抽取出来。关键字可以帮助我们快速了解文本想要表达的内容,尤其是在很长的文献、作文、专利等篇幅巨大、内容居多的场景中可以发挥出不错的效果。关键词的提取具有如下方法:TF-IDF、TextRank、jieba、pyhanlp关于jieba和pyhanlp分词的实现可以看这篇博客:知识图谱 — jieba、pyhanlp、smoot
paddleocrocr百度飞桨模型训练ocr训练rec识别模型训练