logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

鬼吹灯文本挖掘5:sklearn实现文本聚类和文本分类

鬼吹灯文本挖掘1:jieba分词和CountVectorizer向量化鬼吹灯文本挖掘2:wordcloud 词云展示鬼吹灯文本挖掘3:关键词提取和使用sklearn 计算TF-IDF矩阵鬼吹灯文本挖掘4:LDA模型提取文档主题 sklearn LatentDirichletAllocation和gensim LdaModel1. 准备数据import numpy as npimport pand.

#sklearn
Python爬虫学习5:使用cookie访问网页(以豆瓣为例)

1. 先在浏览器上登录豆瓣,登录成功后打开开发者工具,可以查看到Cookie.        第一次登录后,短时间内再次打开此页面时,会发现系统已经保存了cookie, 不用再重新登录。时间长了cookie会失效,需重新登录.2.  实现代码import requestsheaders = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64) ..

#爬虫
自然语言处理学习8:python使用standford CoreNLP进行中文分词、标注和命名实体识别

jieba分词可以进行中文分词和标注,但是无法进行命名实体识别。1. 环境配置    (1) 下载安装JDK 1.8及以上版本   (2)下载Stanford CoreNLP文件,解压。   (3)处理中文还需要下载中文的模型jar文件,然后放到stanford-corenlp-full-2016-10-31根目录下即可(注意一定要下载这个文件哦,否则它默认是按英文来处理的)。...

自然语言处理学习3:中文分句re.split(),jieba分词和词频统计FreqDist

1. 使用re.split() 分句,re.split(delimiter, text)import jiebaimport re# 输入一个段落,分成句子,可使用split函数来实现paragraph = "生活对我们任何人来说都不容易!我们必须努力,最重要的是我们必须相信自己。 \我们必须相信,我们每个人都能够做得很好,而且,当我们发现这是什么时,我们必须努力工作,直到我们成功...

Linux配置SSH免密登录

一、准备1. 同步时间date 命令可以查看虚拟机当前日期和时间date -s "2018-08-08 08:08:08" 手动设置时间ntpdate cn.pool.ntp.org 网络同步时间2. 设置主机名方式一:vim /etc/sysconfig/network设置HOSTNAME=node-1方式二:vim /etc/hosts编辑,在末尾新增ip和对应...

#大数据
Linux环境ping不通外网unknown host www.baidu.com问题解决

 Linux系统在测试网络ping www.baidu.com显示错误unknown host www.baidu.com.可以通过设置虚拟机网络编辑器,将NAT模式中的子网和网关设置为和本机ip一个字段。重新启动即可正常联网。...

securtCRT连接Linux没有输入密码登录的界面

       配置Linux (centos) 虚拟机的静态ip后,使用securtCRT连接Linux时发现connect后无法显示输入密码界面,并且cmd中也无法ping通centos的ip 192.168.***.***。自己摸索发现了一个解决办法:       1. 在comzhon中ipconfig发现VMnet8对应的信息如下:       2. 在Linux中配置/etc...

Linux环境Hadoop的下载安装

1. Hadoop的下载windows在Apache官网下载2.7.6的binary文件,通过FTP传输到centOS虚拟机。2. 解压安装:tar xzvf hadoop-2.7.6.tar.gz -C /usr/local/hadoop3. 查看安装的版本是多少位的先切换到目录hadoop下的lib/native目录cd /usr/local/hadoo...

ftp传输文件到Linux错误553 Could not ceate file解决

1. 先运行getsebool -a | grep ftp查看selinux中有哪些是关于ftp的2. 设置all_ftpd_anon_write和allow_ftpd_full_access为on状态setsebool -P allow_ftpd_anon_write onsetsebool -P allow_ftpd_full_access on3. 设置完成后,再serv...

#大数据
Flink学习2---flink的standalone模式集群安装

Standalone集群模式是Flink自带的,此处仅供学习使用,真正的生产环境还是使用on yarn模式较多。安装步骤如下:(以1.9.1版本为例)1. 下载flink安装包,地址:https://flink.apache.org/downloads.html2. 上传到linux服务器上后解压,并将flink-shaded-hadoop-2-uber-2.7.5-9.0.jar拷贝到flink

    共 22 条
  • 1
  • 2
  • 3
  • 请选择