logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

机器学习-KMeans聚类算法

K-Means和KNN区别:KNN是监督学习的分类算法,有对应的类别输出。KNN基本不需要训练,对测试集里面的点,只需要找到在训练集中最近的k个点,用这最近的k个点的类别来决定测试点的类别。K-Means是无监督学习的聚类算法,没有样本输出;K-Means则有明显的训练过程,找到k个类别的最佳质心,从而决定样本的簇类别。两个算法都包含一个过程,即找出和某一个点最近的点。两者都利用了最...

机器学习-KNN分类算法(上)

K近邻算法(k-NearestNeighbor)k近邻算法是机器学习算法最简单的算法,流程如下:(1) 计算测试对象到训练集中每个对象的距离(2)按照距离的远近排序(3)选取与当前测试对象最近的k个对象,作为该测试对象的邻居(4)统计这k个邻居的类别频率(5)k个邻居里频率最高的类别,即为测试对象的类别python代码实现1、自实现KNN算法import numpy as np...

数据库迁移问题

(一)Spark读数据为空问题近期数据库迁移,使用Sqoop抽数据到Hive,然后用Spark读数据。经过测试sqoop底层是使用MapReduce程序把Oracle数据导入到Hive中的所以我们应该使用hive的引擎去读这些表,需要在Spark代码中添加配置hiveContext.setConf("spark.sql.hive.convertMetastoreParquet","fals...

Excel对比两个Sheet数据的异同

步骤一:数据列转行处理转换后格式(插入 --> 数据透视表)步骤二:数据对比(测试和生产)

数据仓库建模理论(二)

数仓建模的目标:(1) 访问性能,快速查询所需的数据,减少数据I/O(2) 数据成本:减少不必要的数据冗余,实现计算结果数据复用(3) 使用效率:改善用户应用体验,提高使用数据效率(4) 数据质量:改善数据统计口径不一致问题,减少数据计算错误率第一范式(1NF)域是原子性的,即表中每一列都是不可分割的原子数据项规范后:第二范式(2NF)1NF基础上,实体的属性完全依赖于主关键字,不能存在仅依赖主关

数据仓库技术选型(三)

一个合理的架构的关键是能够在以下方面取得平衡: 成本 满足需求(梳理业务和响应的应用场景) 技术可持续(需要处理的数据源的种类、类型、数据量) 灵活性 稳定性 可扩展性flume 不能同步到ESlogstash 占用内存高,比较常用fliebeat 不依赖java版本,对业务侵入少,占用内存低技术架构:数据仓库:负责数据资产建设和管理,数据治理数据开发:数据分析数据平台建设:...

sqlalchemy使用(python)

sqlalchemy 查询SQL:#/usr/bin/env python#coding:utf-8from sqlalchemy import create_engine,textengine = create_engine("mysql+pymysql://dbname:dbpassword@ip:3306/db?charset=utf8",encoding="utf-8",echo=True

IDEA创建多module项目

新建父模块:New Project --> Maven删除src文件新建子模块:选中父模块后关联SVN点击绿色的+号,选择一个SVN仓库的地址,下面可以选择上传到SVN仓库的目录格式,然后点击Shard(之后项目就会变成绿色)右键项目选择–>Subversion–>Commit Directory点击commit提交,加载完成后就上传成功了...

大数据常见名称解释

report & dashboard报表 & 仪表盘OLAP & Ad-hoc联机分析处理 & 即席分析Batch processing批处理Machine Learning机器学习Realtime Analyties实时分析...

中文分词 jieba和HanLP

安装python包:pip install nltkpip install jiebapip install pyhanlppip install gensim使用jieba进行分词import jiebacontent = "现如今,机器学习和深度学习带动人工智能飞速的发展,并在图片处理、语音识别领域取得巨大成功。"# cut_all 参数用来控制是否采用全模式segs_1

到底了