西兰先森个人主页

@broccoli2

西兰先森

2022-11-24 12:37:40 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

python爬虫-selenium爬取链家网房源信息

使用selenium抓取链家网房源信息，含分页处理。源码如下，详细请看注释：# coding=utf-8from selenium import webdriverimport timefrom selenium.webdriver.common.by import Byfrom selenium.webdriver.support import expected_conditions...

#selenium #爬虫

基于FastText文本分类实战

扫码关注“自然语言处理与算法”公众号，持续更新~下面详细介绍基于FastText文本分类实战。对fasttext原理及模型中的方法不熟悉的话，可以先看看FastText原理解析1.训练数据（样例）训练数据保存在csv文件中，包含labels,text两列，labels有0,1,2三种。labels,text0,大华技术：超高精度人体热成像测温系统经信发布测温系统采1,A股3月迎来艳阳天牛市布局正当

#深度学习 #机器学习 #python

springboot整合neo4j--采用Neo4jClient和Neo4jTemplate方式

看了spring-boot-starter-data-neo4j的源码之后发现，该starter内已经实现了和，我们只需要使用Autowire就能直接使用它操作neo4j。Neo4jClient方式与我的另一篇博客方式一样，Neo4jTemplate则与博客实现方式类似，但比这篇博客要简单。

#spring boot #neo4j #后端

BERT微调进行命名实体识别并将模型保存为pb形式

1项目介绍利用BERT做命名实体识别，并将模型保存为saved model（pb）形式，方便后期部署。2方法在模型训练时将默认保存下来的ckpt形式转换为pb形式。（1）在模型中添加如下代码，目的是构造模型的输入，用于将ckpt转换为pb形式。def serving_input_fn():# 保存模型为SaveModel格式# 采用最原始的feature方式，输入是feature Tensors。

#tensorflow #深度学习 #python

知识图谱中的本体是什么

1980年，本体论（Ontology）哲学概念“本体”被引入到人工智能领域用来刻画知识。本体是共享概念模型的明确的形式化规范说明，该定义体现了本体的四层含义：概念模型、明确、形式化、共享。本体是实体存在形式的描述，往往表示为一组概念定义和概念之间的层级关系，本体框架形式树状结构，通常被用来为知识图谱定义schema。摘自：《知识图谱标准化白皮书》2019版...

#知识图谱 #人工智能

实体标注、序列标注工具-BIO方式

笔者研究方向为NLP知识抽取，做实体抽取实验过程中需要对训练数据进行标注。我先使用jieba分词对原文本进行分词和pos词性标注，然后基于pos词性标注抽取出文本中的公司名、证券、基金名称（这部分也可以使用正则方法）等，保存到word_dict.txt中作为词典，然后基于改词典对原文本中进行的数据进行标注。word_dict.txt如下：INT与BON文本对应的标签。占位词 NONE，这一...

#自然语言处理 #python #深度学习

python+selenium多线程与多进程爬虫

使用python+selenium抓取深圳证券交易所本所公告数据，刚开始是用单进程爬取的，最近将代码修改了一下，分别用多进程和多线程进行抓取，速度非常快。如果对selenium不了解的请移步别的地方学习一下。多进程爬取# coding=utf-8'''多进程抓取深圳证券交易所本所公告数据标题和公告内容写入了不同的csv文件里Author:西兰Date：2019-11-30'''...

#selenium #python

对BERT分词之后的文本序列进行BIO标注

先记录一下，有时间再写具体过程。关注“编程ABC”，每天进步一点点~待标注文本(text.txt)：河南宏光正商置业有限公司2019年非公开发行公司债券（第一期）（品种二）定于2019年12月3日起在本所综合协议交易平台进行转让，现将有关事项通知如下：河南宏光正商置业有限公司2019年非公开发行公司债券（第一期）（品种二）证券代码“114613”，证券简称“19正商02”，发行总额7.5亿元，票面

#自然语言处理 #神经网络 #深度学习

python向json文件中追加内容

我们常常会遇到这样的json文件：[{"id": 4, "text": "LOC", "background_color": "#7c20e0", "text_color": "#ffffff"},{"id": 5, "text": "MISC", "background_color": "#fbb028", "text_color": "#000000"},{"id": 6, "text": "

#python #json

到底了