logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大数据开发之小文件合并

文件的平均大小=分区大小/文件数,理想情况下,文件的平均大小在128MB~256MB之间,如果文件的平均大小过于小,则认为数据表里小文件过多,可以进行文件的合并。

#大数据#hadoop#hdfs
大数据处理框架及引擎介绍

主流的大数据处理框架包括以下三类五种:1、仅批处理框架:Apache Hadoop2、仅流处理框架:Apache Storm、Apache Samza3、混合框架:Apache Spark、Apache Flink

文章图片
#大数据#hadoop#mapreduce +2
一个开源数据分析平台的搭建方法

引用以下文章链接,做了一个简单的笔记:一个简单的数据分析平台搭建教程 http://www.woshipm.com/data-analysis/760397.html优秀的数据分析平台,首先要满足数据查询、统计、多维分析、数据报表等功能,替代原始的SQL+EXCEL的工作形式。互联网公司在整合获取公司数据集合的基础上,如何敏捷分析获得洞察是需要解决的重点问题。当前市面上有不少收费的分期平台和BI工

python操作mysql数据库

创建数据库‘’‘创建数据库’’’import pymysql#打开数据库连接,不需要指定数据库,因为需要创建数据库conn = pymysql.connect(‘localhost’,user = “root”,passwd = “123456”)#获取游标cursor=conn.cursor()#创建pythonBD数据库cursor.execute(‘CREATE DATABASE IF NO

#数据库#mysql#python
python中map函数的用法

Python函数编程中的map()函数是将func作用于seq中的每一个元素,并将所有的调用的结果作为一个list返回。如果func为None,作用同zip()。函数格式为:map(func, seq1[, seq2,…]) ,当有多个迭代参数对象,同时,迭代对象内的元素个数又不一致时,以最短的那个迭代对象作为停止的标准。作用:会根据提供的函数对指定序列做映射。1、当seq只有一个时,将函数fun

#python#开发语言#后端
如何快速实现一个可视化看板?

对于大型数据集,Python的可视化库可以应用各种技术来处理和可视化数据,例如数据降维、聚类、图像处理等。Python可以通过多种可视化库来实现数据看板,例如Matplotlib、Seaborn、Plotly等。这些库可以处理各种规模的数据,从小型数据集到大型数据集都可以应用。对于小型数据集,Python的可视化库可以轻松地绘制图表、线图、散点图等,以可视化数据的方式来帮助用户理解和分析数据。因此

#python#数据可视化
Python报错:ModuleNotFoundError: No module named

问题表现:在spyder里安装好pymysql后,无法导入该包,提示:import PyMySQLTraceback (most recent call last):File “”, line 1, inimport PyMySQLModuleNotFoundError: No module named ‘PyMySQL’问题原因:核心原因是需要启动的包所在文件夹,和正运行的python.exe不

#python#开发语言#后端
tableau中快速实现环比增长率计算

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入一、引入数据源

#大数据
多元统计分析

多元统计分析是从经典统计学中发展起来的一个分支,是一种综合分析方法,它能够在多个对象和多个指标互相关联的情况下分析它们的统计规律,很适合农业科学研究的特点。主要内容包括多元正态分布及其抽样分布、多元正态总体的均值向量和协方差阵的假设检验、多元方差分析、直线回归与相关、多元线性回归与相关(Ⅰ)和(Ⅱ)、主成分分析与因子分析、判别分析与聚类分析、Shannon信息量及其应用。简称多元分析。当总体的分布

分类和聚类的区别

机器学习中分类与聚类的本质区别机器学习中有两类的大问题,一个是分类,一个是聚类。在我们的生活中,我们常常没有过多的去区分这两个概念,觉得聚类就是分类,分类也差不多就是聚类,下面,我们就具体来研究下分类与聚类之间在数据挖掘中本质的区别。分类分类有如下几种说法,但表达的意思是相同的。分类(classification):分类任务就是通过学习得到一个目标函数f,把每个属性集x映射到一个...

    共 20 条
  • 1
  • 2
  • 请选择