
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
K近邻算法(k-NearestNeighbor)k近邻算法是机器学习算法最简单的算法,流程如下:(1) 计算测试对象到训练集中每个对象的距离(2)按照距离的远近排序(3)选取与当前测试对象最近的k个对象,作为该测试对象的邻居(4)统计这k个邻居的类别频率(5)k个邻居里频率最高的类别,即为测试对象的类别python代码实现1、自实现KNN算法import numpy as np...
(一)Spark读数据为空问题近期数据库迁移,使用Sqoop抽数据到Hive,然后用Spark读数据。经过测试sqoop底层是使用MapReduce程序把Oracle数据导入到Hive中的所以我们应该使用hive的引擎去读这些表,需要在Spark代码中添加配置hiveContext.setConf("spark.sql.hive.convertMetastoreParquet","fals...
odps官方网站使用示例:#使用TO_DATEselect *from xx_bi.dwd_bi_wide_order_pay_record_detail_di where ds='20210711'and payment_timebetween TO_DATE('2021-07-09 00:00:00','yyyy-mm-dd hh:mi:ss') and TO_DATE('2021-07-09
执行SQL语句:select to_char(from_unixtime(cast(1622628854384/1000 as BIGINT)),'yyyymmdd');报错信息如下:FAILED: ODPS-0130071:[1,8] Semantic analysis exception - function to_char cannot match any overloaded functi
步骤一:数据列转行处理转换后格式(插入 --> 数据透视表)步骤二:数据对比(测试和生产)
K-Means和KNN区别:KNN是监督学习的分类算法,有对应的类别输出。KNN基本不需要训练,对测试集里面的点,只需要找到在训练集中最近的k个点,用这最近的k个点的类别来决定测试点的类别。K-Means是无监督学习的聚类算法,没有样本输出;K-Means则有明显的训练过程,找到k个类别的最佳质心,从而决定样本的簇类别。两个算法都包含一个过程,即找出和某一个点最近的点。两者都利用了最...
数仓建模的目标:(1) 访问性能,快速查询所需的数据,减少数据I/O(2) 数据成本:减少不必要的数据冗余,实现计算结果数据复用(3) 使用效率:改善用户应用体验,提高使用数据效率(4) 数据质量:改善数据统计口径不一致问题,减少数据计算错误率第一范式(1NF)域是原子性的,即表中每一列都是不可分割的原子数据项规范后:第二范式(2NF)1NF基础上,实体的属性完全依赖于主关键字,不能存在仅依赖主关
一个合理的架构的关键是能够在以下方面取得平衡: 成本 满足需求(梳理业务和响应的应用场景) 技术可持续(需要处理的数据源的种类、类型、数据量) 灵活性 稳定性 可扩展性flume 不能同步到ESlogstash 占用内存高,比较常用fliebeat 不依赖java版本,对业务侵入少,占用内存低技术架构:数据仓库:负责数据资产建设和管理,数据治理数据开发:数据分析数据平台建设:...
一台服务器配置:12核/64G/18T主板:超微 X10DRLU盘:CentOS-7-x86_64-DVD-1804.iso步骤一:按DEL 进入bios配置好 raid 0步骤二:按F11 进入U盘启动按Enter 进入centos7安装界面后按Tab 将底下的命令修改为:vmlinuz initrd=initrd.img linux dd quiet 回车,然后就会列出你的设备列表找到安装U盘
Kafka+SparkStreaming已经发展为一个比较成熟的实时日志收集与计算架构,利用Kafka,即可以支持将用于离线分析的数据流到HDFS,又可以同时支撑多个消费者实时消费数据,包括SparkStreaming。然而,在SparkStreaming程序中如果有复杂业务逻辑的统计,使用scala代码实现起来比较困难,也不易于别人理解。但如果在SparkSteaming中也使用SQL来做统计分