
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
自从六月份决定考研到考研结束,半年多没碰过博客了。昨天考研结束,所以想趁热把经历和感想都记录下来,希望可以对读者有所帮助,也是对自己一段宝贵经历的封存。先唠叨唠叨为什么选择读研吧。就个人原因的话:我想读研,在本科接触的这么多项目中拓展了我的知识面,但是不部分都是仅限于了解和基本使用的,我想确定一个方向更深层次的去学习,而且我觉得,学士学位不能满足我,在学术上我还没有理想的建树,我觉得我能做的还..
笔者在做Web敏感信息检测功能时,需要用到NLP领域的文本情感分析,这里用的是百度的预训练模型Senta。一、下载预训练模型百度提供的预训练模型在GitHub上Senta,该模型所需环境是PaddlePaddle,这里就不得不吐槽一下在线安装的速度简直不要太慢。二、修改代码笔者的需求是我将一个网页中含有敏感信息的语句存入一个文件中,然后利用Senta对文件中的所有数据进行预测,...
本博客仅用于技术讨论,若有侵权,联系笔者删除。此次的目的是爬取国内医院的基本信息,并按省份存储。爬取的黄页是医院列表。以下是结果图:一、初始化数据初始化基本的数据,包括global变量,省份名称等等。import requests,re,xlwt,datetimefrom bs4 import BeautifulSoup#初始化def init():gl...
笔者这周在部署项目的时候面临PaddlePaddle批量部署的问题,这就不仅要求是离线安装,还要求安装包不能过大。当时在网上没有找到想要的教程,就去GitHub上提问PaddlePaddle的工程师了。GitHub问题链接,但是使用docker的话镜像文件解压后有12个G(pip在线安装安装包大小是200+M),这对于项目的批量部署来说是不能接受的。而且docker安装的镜像环境中集成了太多的工具