logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

数据仓库——原理+实战(一)

(1)数据仓库是一个面向主题的、集成的、非易失的且随时间变化的数据集合。(2)主要用于组织积累的历史数据,并使用分析方法(OLAP、数据分析)进行分析整理,进而辅助決策,为管理者、企业系统提供数据支持,构建商业智能。

文章图片
#数据仓库#数据挖掘#数据库
数据分析---2012美国大选献金项目数据分析

需求:1. 加载数据df = pd.read_csv('./data/usa_election.txt')2. 对新数据进行总览,查看是否存在缺失数据:方法一:isnull、notnull、any、all方法二:df.info()df.info()3. 用统计学指标快速描述数值型属性的概要:df.describe()#统计学指标:数值型属性4. 空值处理。可能因为忘记填写或者保密等原因,相关字段出

#数据分析#数据挖掘
数据分析---人口分析案例

1. 首先导入所需数据,了解每个csv文件存储了哪些数据。2.将人口数据pop和 各州简称数据abb 进行合并:如果想保证数据的完整性,需要使用外连接。3. 将合并之后重复的一列abbreviation删除:4. 查看讯在缺失数据的列:(说明abb_pop数据中有缺失值)5. 找到哪些state/region 使得state的值为NaN,进行去重操作:将state中空值对应的简称找到,然后对sta

#数据分析#python
数据分析---基于pandas的数据清洗

一、处理丢失的数据(删除所在行或列、覆盖)原始数据中可能存在两种缺失值(空值): 可能会产生重复值和异常值。有两种缺失数据: None 和 np.nan(NaN)两种丢失数据的区别: 两种数据的类型不同,None是对象类型(Nonetype),np.nan是float类型。因此在数据分析中需要用浮点类型np.nan,可以对该空值进行算术运算且不报错,不会干扰、中断对原始数据的运算。NaN可以参与运

#数据分析#python#数据挖掘
机器学习 笔记06:最大熵模型

最大熵原理是概率模型学习的一个准则,最大熵原理认为,学习概率模型时,在所有可能的概率模型(分布)中,熵最大的模型就是最好的模型,通常使用模型的约束条件来确定概率模型的集合,所以最大熵原理也可以表述为在满足约束条件的模型集合中选择上最大的模型。 这里,n个约束条件; 真实分布和经验分布为: 未知的只有条件分布 p(y|x),得到了待选模型集合最大熵模型就是由公式(6.22)、公式(6.23)表示的条

#人工智能#python
01. 机器学习笔记01——K近邻算法 , CV_example

配套:机器学习西瓜书、李航博士《统计学习方法》、吴恩达视频

#python#sklearn
机器学习 笔记05——特征工程之特征处理:字典特征提取、文本特征提取

1.3 字典特征提取(特征离散化) ⭐1.4 文本特征提取(英文+中文)⭐1.4.1英文数据演示1.4.2中文特征提取演示1.4.3jieba分词:中文特征提取1.4.4Tf-idf文本特征提取

#python
机器学习 笔记04 ---决策树(DT):理论+代码实现

1、概述​编辑2、决策树模型3、决策树学习4、决策树的构建——三步骤4.1 特征选择4.1.1 熵(Entropy)4.1.2 条件熵(Conditional Entropy)H(Y|X)4.1.3 信息增益(Information Gain)4.1.4 信息增益比4.2决策树算法4.2.1 ID3算法4.2.2 C4.5算法4.2.3 Python实现ID3、C4.5算法4.3 决策树的剪枝引言

#决策树#人工智能
    共 13 条
  • 1
  • 2
  • 请选择