logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

建立数据目录的6个步骤

数据目录是所有数据的系统性列表,以表、文件、报告等形式存在于公司的各种源系统中。它的工作原理很像时装目录,但它没有详细介绍泳装或鞋子,而是从一家公司的ERP、人力资源、财务、电子商务系统以及社交媒体源获得信息。目录还显示了所有数据实体的位置。数据目录包含关于每个数据片段的大量关键信息,比如数据的概要(关于数据的统计或信息摘要)、沿袭(数据如何生成)以及其他人对它的看法。目录是数据分析师、数据管理员

#大数据
【数据分析】如何在企业中从0-1建立一个数据/商业分析部门

前言知乎上有个问题:如何从0-1建立一个数据部门背景:国内大型集团,非互联网。高层有想法建立一个数据部门支持企业的精细化运营,我想了解下一个数据部门如何从0-1建立呢?并且“建立成功”的指标是什么。目录一 背景说明二从0-1搭建一个数据分析部门步骤和框架1)第一步:定位和价值是一个部门立足公司的根本2)第二步:设立长期目标并拆解里程碑3)第三步:基于里程...

#数据分析
【运营数据分析】运营数据分析怎么做?建立运营数据分析思维

对于运营数据分析,我相信很多小伙伴会存在以下问题:面对异常数据经常出现“好像做了什么?好像发生了什么?所以可能造成了影响”的主观臆测?面对数据报表,不知道该怎么分析?不知道该分析什么?数据分析作为运营最基础的一项技能,你是否真正的将其价值发挥出来,合格的运营一定是数据驱动运营,而非运营驱动数据!1、从单一维度到体系化的思考,是做数据分析必须做出的转变!对于数据分析你需要有体系化的数...

#数据分析
【数据预处理】pandas读取sql数据(支持百万条读取)

主要使用两个pandas方法:1、read_sql函数:pandas.read_sql(sql, con, index_col=None, coerce_float=True, params=None, parse_dates=None, columns=None, chunksize=None)效果:将SQL查询或数据库表读入DataFrame。 此功能是一个方便的包装和...

#pandas#sql
【数据异常校验】卡方检验(chi-squared test)处理异常数据

简介卡方检验,也写为χ 2检验,是任何统计假设检验,其中采样分布的检验统计量是一个卡方分布,当零假设为真。“卡方检验”经常被用作短期的皮尔逊的卡方检验。用于确定预期频率与一个或多个类别中观察到的频率之间是否存在显着差异。 在测试的标准应用中,观察被分类为互斥的类别,并且存在一些理论,或者说零假设,其给出任何观察落入相应类别的概率。测试的目的是评估所做观察的可能性,假设零假设为真。...

【数据科学】7种数据类型:思考机器学习数据类型的更好方法

目录目前的状态史蒂文斯的测量类型学7种机器学习的主要数据类型1.无用的2.形同虚设3.序数4.二进制5.计数6.时间7.间隔这些是正确的七个类别吗?我如何记住这7种数据类型?更新2018年12月7日:我将如何记住这7个 - 制作11 - 数据类型?我应该传播有关7种数据类型的信息吗?在本文中,我为机器学习从业者提出了一种更有用的...

【统计学】统计学专业术语

绝对变化( absolute change):从参考值到新值的实际增加或减少:    绝对变化=新值一参考值绝对差异( absolute difference):比较值和参考值之间的实际差异:    绝对差异=比较值-参考值绝对误差( absolute error):测量值与真实值之间的差距:    绝对误差=測量值-真实值意外事故率( accident rate):由于某种特殊...

【机器学习】数据降维—线性判别分析(LDA)

本文代码推荐使用Jupyter notebook跑,这样得到的结果更为直观。线性判别分析(Linear Discriminant Analysis,LDA)是一种可作为特征抽取的技术LDA可以提高数据分析过程中的计算效率,对于未能正则化的模型,可以降低维度灾难带来的过拟合。 LDA与PCA相似: PCA试图寻找到方差最大的正交的主成分分量轴, LDA发现可以最优化分类的

#python#机器学习
【Pandas】Pandas求某列字符串的长度,总结经验教训

测试集大小:test.shape(898, 11)  对某列的字符串做统计长度1、for遍历法:start = time.time()for i in test.index.values:test.loc[i,'contentLen1'] = len(test.loc[i,'content'])time.time() - start 47.162380...

#pandas
【机器学习】模型的性能评价指标

混淆矩阵混淆矩阵:展示学习算法性能的一种矩阵,一个简单的方阵,展示一个分类器预测结果(真正,真负,假正,假负)的数量图:使用SKlearn的confusion_matrix方法实现混淆矩阵:from sklearn.metrics import confusion_matrixpipe_svc.fit(X_train, y_train)y_pre

#机器学习
    共 97 条
  • 1
  • 2
  • 3
  • 10
  • 请选择