logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

devops-自动化运维工具

宝塔面板https://www.bt.cn/bbs/thread-19376-1-1.html小皮面板https://www.xp.cn/linux.html#install-showAPPNode (强烈推荐)https://www.appnode.com/installurlos (适合云部署)https://www.urlos.com/center-home-software-freeVer

#devops
大数据最佳实践-hive

目录小文件问题小文件问题一、哪里会产生小文件 ?源数据本身有很多小文件动态分区会产生大量小文件reduce个数越多, 小文件越多按分区插入数据的时候会产生大量的小文件, 文件个数 = maptask个数 * 分区数二、影响从Hive的角度看,小文件会开很多map,一个map开一个JVM去执行,所以这些任务的初始化,启动,执行会浪费大量的资源,严重影响性能。HDFS存储太多小文件, 会导致namen

#hive#大数据
大数据最佳实践-hive

目录小文件问题小文件问题一、哪里会产生小文件 ?源数据本身有很多小文件动态分区会产生大量小文件reduce个数越多, 小文件越多按分区插入数据的时候会产生大量的小文件, 文件个数 = maptask个数 * 分区数二、影响从Hive的角度看,小文件会开很多map,一个map开一个JVM去执行,所以这些任务的初始化,启动,执行会浪费大量的资源,严重影响性能。HDFS存储太多小文件, 会导致namen

大数据最佳实践-pyspark

目录概述代码实战All DataFrames above result same.提交参考资料概述这是PySpark DataFrame API的简短介绍和快速入门。PySpark DataFrames延迟评估。它们是在RDD之上实现的。当Spark转换数据时,它不会立即计算转换,而是计划以后如何计算。当 明确调用诸如之类的动作时collect(),计算开始。该笔记本显示了主要面向新用户的Data

大数据最佳实践-hive on spark

目录Spark 内存配置spark动态分配HiveSpark 内存配置yarn.nodemanager.resource.memory-mb = 100 GByarn.nodemanager.resource.cpu-vcores = 28 < 机器核心数yarn.scheduler.maximum-allocation-mb>(spark.yarn.executor.memoryOv

大数据最佳实践-sparkstreaming

目录概述性能调优减少批处理时间数据接收中的并行度容错语义自定义接收器如何在Spark流中实现精确语义与幂等写入恰好一次与事务写入完全一致实现-zookeeper实现-hbase实现方式-mysql概述Spark Streaming是核心Spark API的扩展,可实现实时数据流的可伸缩,高吞吐量,容错流处理。数据可以从像卡夫卡,室壁运动,或TCP套接字许多来源摄入,并且可以使用与像高级别功能表达复

#kafka
大数据最佳实践-datax

目录概览框架设计核心架构代码实战参考资料概览​ DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。datax_why_new设计理念为了解决异构数据源同步问题,DataX将复杂的网状的同步链路变成了星型数据链路,DataX作为中间传输载体负责连接各种数据源。

数据挖掘-目录-loss

AbsoluteErrorLogLossLossLossesSquaredError

#数据挖掘
数据挖掘-目录-回归分析(regression)

AFTSurvivalRegressionDecisionTreeRegressorGBTRegressorIsotonicRegressionLinearRegressionRandomForestRegressorGeneralizedLinearAlgorithmGLMRegressionModelIsotonicRegressionLabeledPointLassoLinearRegres

#数据挖掘
数据挖掘-目录-基本统计

correlationCorrelationPearsonCorrelationSpearmanCorrelationdistributionMultivariateGaussianKernelDensityMultivariateOnlineSummarizerMultivariateStatisticalSummaryKolmogorovSmirnov

#数据挖掘
    共 33 条
  • 1
  • 2
  • 3
  • 4
  • 请选择