
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
1 基础算法(1) K-means算法:对于给定的样本集,按照样本之间的距离大小,将样本集划分为K个簇。让簇内的点尽量紧密的连在一起,而让簇间的距离尽量的大。(2) K-means算法是局部最优解,初始聚类中心一般是随机选择,有可能运行两次的结果稍有不同。(3) 距离公式常采用欧式距离和余弦相似度公式,前者越小代表距离越小,后者越大代表越相似。2 算法实现import numpy as npfro
1 基本概念:FP-growth,即 Frequent Pattern Growth,它通过构建 FP 树(即 Frequent Pattern Tree)这样的数据结构,巧妙得将数据存储在 FP 树中,只需要在构建 FP 树时扫描数据库两次,后续处理就不需要再访问数据库了。这种特性使得 FP-growth 算法比 Apriori 算法速度快。FP 树是一种前缀树,由频繁项的前缀构成。2 两个名词
1 原理1.1 随机森林算法:随机森林就是通过集成学习的思想将多棵树集成的一种算法,它的基本单元是决策树,每棵决策树都是一个分类器(假设现在针对的是分类问题),那么对于一个输入样本,N棵树会有N个分类结果。而随机森林集成了所有的分类投票结果,将投票次数最多的类别指定为最终的输出,这就是一种最简单的 Bagging 思想。1.2 Matplotlib和SeabornMatplotlib:高度定制化绘
给大家推荐一个在Windows下可以查看文件夹大小的工具TreeSize Free。下载链接:https://customers.jam-software.de/downloadTrial.php?language=EN&article_no=80参考资料:https://blog.csdn.net/qq_33204709/article/details/111661871...
CSV文件默认逗号分隔,但是如果在内容中包含逗号,则会导致分隔失败或者数组下标匹配越界的问题。
1 介绍DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一个出现得比较早(1996年),比较有代表性的基于密度的聚类算法。DBSCAN能够将足够高密度的区域划分成簇,并能在具有噪声的空间数据库中发现任意形状的簇。聚类的时候不需要预先指定簇的个数,最终簇的个数不确定。DBScan需要二个参数: 扫描半径 (Eps
row_number 语法ROW_NUMBER()函数将针对SELECT语句返回的每一行,从1开始编号,赋予其连续的编号。在查询时应用了一个排序标准后,只有通过编号才能够保证其顺序是一致的,当使用ROW_NUMBER函数时,也需要专门一列用于预先排序以便于进行编号。
深度学习:1 three steps for deeping learning:define a setof function–>goodness of function–>pick the best function1-1 neural networkparameterseach neurons can have different values of weights and bia
测试数据select count(*) from system.columns where table='test_update';select count(*) from test_update;具体删除&更新实现语法 如下:ALTER TABLE <table_name> DELETE WHERE <filter>;ALTER TABLE <table_n
使用PreparedStatement执行批量插入sql的三种方式以及效率。