
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
一个服从泊松分布的随机变量X,表示在具有比率参数(rate parameter)λ的一段固定时间间隔内,事件发生的次数。参数λ告诉你该事件发生的比率。随机变量X的平均值和方差都是λ。代码实现:# Poisson分布x = np.random.poisson(lam=5, size=10000)# lam为λ size为kpillar = 15a = pl
此次数据分析实践是在这篇论文《基于数据挖掘的图书馆书目推荐服务的研究》的基础上进行实施的,将论文中提到的相关技术及相关知识点进行实践操作,并对相关业务进行逻辑上的分析。【数据分析】图书馆数据-01建表【数据分析】图书馆数据-02重命名、索书号、分组【数据分析】图书馆数据-03直方图展示借书数量与借书人数之间的关系【数据分析】图书馆数据-04借阅情况聚类挖掘【数据分析】图书馆数据
# -*-coding:utf-8-*-import matplotlib.pyplot as pltimport numpy as np"""Pyplot tutorialby kevinelstri 2017.3.3""""""matplotlib.pyplot 是一个命令式的功能的集合使得matplotlib类似于MATLAB。每一个pyplot函数都使
介绍 使用Python进行数据分析,数据的可视化是数据分析结果最好的展示方式,这里从Analytic Vidhya中找到的相关数据,进行一系列图形的展示,从中得到更多的经验。 强烈推荐:Analytic VidhyaPython数据可视化库Matplotlib:其能够支持所有的2D作图和部分3D作图。能通过交互环境做出印刷质量的图像。Seaborn:基于Matplotli
由上述对图书借阅数量与借阅人数之间的直方图中,可以清晰地展示一年以来,读者借书数量的情况分布,那么在这个分布的情况下,读者借阅又有怎样的特点呢? 对于图书馆的读者而言,有的读者借阅频率高,对图书的利用也比较充分,具有大量的借书行为;而有的读者则很少出现在图书馆,或是仅仅借阅与专业相关的部分书籍。对不同读者的借阅需求进行聚类分析,分析读者的平均借阅情况。# -*-coding:utf-8
1、公式推导对幂律分布公式:对公式两边同时取以10为底的对数:令,且为常数,所以公式变为:所以对于幂律公式,对X,Y取对数后,在坐标轴上为线性方程。2、可视化从图形上来说,幂律分布及其拟合效果:对X轴与Y轴取以10为底的对数。效果上就是X轴上1与10,与10与100的距离是一样的。对XY取双对数后,坐标轴上点可以很好用直线拟合。所以,判定数据是否符合幂律分
一、箱线图概念 箱形图(Box-plot)又称为盒须图、盒式图或箱线图,是一种用作显示一组数据分散情况资料的统计图。 计算过程:(1)计算上四分位数(Q3),中位数,下四分位数(Q1)(2)计算上四分位数和下四分位数之间的差值,即四分位数差(IQR,interquartile range)Q3-Q1(3)绘制箱线图的上下范围,上限为上四分位数,下
两张表:ReaderInformation.csv,ReaderRentRecode.csvReaderInformation.csv:ReaderRentRecode.csv:pandas读取csv文件,并进行csv文件合并处理:# -*- coding:utf-8 -*-import csv as csvimport numpy as np# -------------# csv读取
文本分析过程中,中文文本分析是一个非常重要的环节,而停用词表的选择也是非常关键的,网络流行了多种版本的停用词表,都具有各自的特点,现在对网络流行的多种停用词表继续去重处理,综合实现新的停用词表。不同版本的停用词表:去重合并:# -*-coding:utf-8-*-import os"""合并文本文件"""mergefiledir = os.getcwd()+'\\stopwor
make_blobs聚类数据生成器简介scikit中的make_blobs方法常被用来生成聚类算法的测试数据,直观地说,make_blobs会根据用户指定的特征数量、中心点数量、范围等来生成几类数据,这些数据可用于测试聚类算法的效果。make_blobs方法:sklearn.datasets.make_blobs(n_samples=100, n_features=2,centers=3, clu







