logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

数据分析之前程无忧(一)

数据分析之前程无忧(一)这个是我们要爬取的网站:前程无忧前程无忧的网站是一个动态网站来的,单纯去抓取是无法抓取的,所以我们得找到他的接口,打开网站按f12选择network选项卡显然这个就是我们需要的找到的接口了根据他给出来的URL接口https://search.51job.com/list/000000,000000,0000,00,9,99,%25E5%25AF%25BC%25E6%25B8

#python#大数据#正则表达式 +1
数据分析之拉勾网(三)

数据分析之拉勾网(三)拉勾网,这里用谷歌是打不开的,只能换其他浏览器,同样和第一篇步骤一样,也是找动态接口[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传这里需要注意的是cookie,因为这里每个cookie都是不一样的,所以我们需要先获取它们的cookie,然后才能构建我们的headers,这样才能获取我们需要的信息,通过返回值把每个网页的cookie传到我们的自己搭建的he

#python#正则表达式#github +1
数据分析-数据规范化的一些方法

数据规范化的几种方法1. Min-Max规范化from sklearn import preprocessingimport numpy as np#初始化数据,每一行表示一个样本,每一列表示为一个特征x = np.array([[0.,-3.,1.],[3.,1.,2.],[0.,1.,-1.]])#将数据进行[0,1]规范化min_max_scaler = preprocessing.MinM

#python#数据分析#机器学习 +1
数据分析指标

RFM模型RFM模型是一种通过客户的R消费间隔(Recency)、F消费频率(Frequency)、M消费金额(Monetary)三项指标来衡量客户价值的手段。BDI和CDI指数BDI是指品牌发展指数计算公式 = 地区品牌发展 / 全国品牌发展 * 100CDI是指品类发展指数计算公式 = 地区品类发展 / 全国品类发展 * 100ROI模型ROI指的是投资而应返回的价值,也就是投资回报率计算公式

#数据分析#big data#数据挖掘
数据分析的入门技巧

数据分析的入门技巧1、Excel表,其中Excel表最常用的是vlookup函数及透视表功能1.在vlookup的基本使用(快速匹配,连续数值分段)2.Excel透视表(完成数据的分组统计、排序、求平均、行列计算占比等常用数据分析功能)小结:动手实践>遇到问题>网上搜索>官网help>再实践>记录核心技巧案例2、 Hive SQL篇两个重要常用技巧:行列互转和row_

#大数据#数据分析#python +1
如果用python一直发送邮件失败,出现SMTP AUTH extension not supported by server,我们该怎么解决

如果用python一直发送邮件失败,出现SMTP AUTH extension not supported by server,我们该怎么解决首先我们得排查问题我们先直接测试ehlo()是否可以import smtplibs = smtplib.SMTP('邮箱的地址',25)#25是端口号#这里有一点是需要注意的是,就是如果是采用ssl协议的,那么我们这里就要进行微调#s = smtplib.S

#python#https
怎么用Python批量添加zabbix-host主机

# /usr/bin/env python3# -*- coding:utf-8 -*-## user config here## user config endimport requestsimport jsonimport osimport pandas as pdfrom tqdm import tqdmip = 'xxx.xxx.xxx.xxx'#这里填写你的zabbix的ip地址user

#python#zabbix
数据分析-随机森林,GridSearchCV,逻辑回归,混淆矩阵,时间序列分析

构建随机森林分类器随机森林它实际上是一个包含多个决策树的分类器,每一个子分类器都是一颗CART分类回归树,所以随机森林既可以做分类,又可以做回归。当它做分类的时候,输出的结果是每一个子分类器的分类结果中最多的那个。你可以理解是每一个分类器都做投票,取投票最多的那个结果。当它做回归的时候,输出结果是每棵CART树的回归结果的平均值GridSearchCV工具的使用在做好分类算法的时候,我们需要经常调

#算法#python#机器学习 +2
数据分析之Hive篇

数据分析之Hive篇Hive基于Hadoop的数据仓库工具支持SQL查询功能1、创建表我们先创建内部表2、Hive的复合类型数据用法:map、array、json如何提高hive的执行效率,先将多个小文件合并如何避免数据倾斜,使得我们提高执行效率怎么控制reduce数量,防止它数量过大或过小直接控制reduce数量,500就是500个reduce...

#mysql#redis#sql +2
设置代理后报:net::err_proxy_connection_failed的错误

前面的按照这个链接做完之后:https://blog.csdn.net/qq_38410352/article/details/105396238如果发现还是模拟器还是像图片这样你就在你的搜索里面输入你的ip地址和端口号,然后按回车就回出现证书了,再点击证书下载,下载的时候模拟器都设置好开屏密码才可以保存证书。...

#android#android studio#web app +2
    共 22 条
  • 1
  • 2
  • 3
  • 请选择