
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
线性回归分析-回归算法1 回归算法之线性回归 回归问题的判定:目标是连续的,在指定区间内可以是任意一个数值。 线性回归的定义是:目标值预期是输入变量的线性组合。线性回归通过一个或多个自变量与因变量之间进行建模的回归分析。 一元线性回归:涉及到的变量只有一个 多元线性回归:涉及到的变量两个或两个以上...
随机森林-集成学习方法(分类)1集成学习方法集成学习通过建立几个模型组合的来解决单一预测问题。它的工作原理是生成多个分类器/模型,各自独立地学习和作出预测。这些预测最后结合成单预测,因此优于任何一个单分类的做出预测。2 随机森林在机器学习中,随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的...
1 ClickHouse特性 OLAP数据库一般有2个要求:①容量要比关系型数据库大,②在线查询的速度要快。ClickHouse这两点都满足并且还支持标准的sql,支持比较复杂的语句,支持分布式。ClickHouse的几个显著特点如下: (1)列式存储 列式存储的优点:①列式存储不同于行式存储,以行为单位进行存储,行式存储更变故搜索查询。列式存储以列为单位进行存储,这样更适合做聚合计算,如求
1 概述 在对ClickHouse进行分布表+复制表+zookeeper保证高可用的情况下进行性能测试时遇到如下坑,进行整理2 分布表join问题Unknown identifier: LO_CUSTKEY, context:…1.1 问题描述 SQL如下:SELECT count(1)FROM performance.line_all AS cLEFT JOIN performance.cu
1 概述 DistCp(分布式拷贝)是用于大规模集群内部和集群之间拷贝的工具。 它使用Map/Reduce实现文件分发,错误处理和恢复,以及报告生成。 它把文件和目录的列表作为map任务的输入,每个任务会完成源列表中部分文件的拷贝。官网地址:http://hadoop.apache.org/docs/r2.7.0/hadoop-distcp/DistCp.html2 适合的场景及其有点 适合场
1、什么是RDDRDD(分布式弹性数据集)是对分布式计算的抽象,代表要处理的数据,一个数据集,RDD是只读分区的集合。数据被分片,分成若干个数据分片,存储到不同的节点中,可以被并行的操作,所以叫分布式数据集。计算时优先考虑放于内存中,如果放不下把一部分放在磁盘上保存。RDD(分布式弹性数据集)是整个Spark抽象的基石,是基于工作集的应用抽象。Spark的各个子框架,Spark SQL、S...
1 安装1.1 Tar包安装 (1)获取tar包wget https://dl.influxdata.com/influxdb/releases/influxdb-1.8.0_linux_amd64.tar.gz (2)解压tar包 tar xvfz influxdb-1.8.0_linux_amd64.tar.gz$ su - tigk$ tar xvfz /opt/package/inf
1 confluent介绍Confluent是用来管理和组织不同数据源的流媒体平台,可以实时地把不同源和位置的数据集成到一个中心的事件流平台。并且很可靠、性能很高。Confluent目前提供了社区版(免费)和商业版()收费两个版本,社区版提供了Connectors、REST Proxy、KSQL、Schema-Registry等基础服务。商业版为企业提供了控制面板、负载均衡,跨中心数据备份、安全防
1 连接Elasticsearch测试1.1 启动confluent/home/kafka/.local/confluent/bin/confluent startThis CLI is intended for development only, not for productionhttps://docs.confluent.io/current/cli/index.htmlUsing CON
Integration系统表引擎主要用于将外部数据导入到ClickHouse中,或者在ClickHouse中直接操作外部数据源。1 Kafka1.1 Kafka引擎将Kafka Topic中的数据直接导入到ClickHouse。语法如下:CREATE TABLE [IF NOT EXISTS] [db.]table_name [ON CLUSTER cluster](name1 [type1







