logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

数据仓库系列 之Clickhouse中的更新和删除操作

测试数据select count(*) from system.columns where table='test_update';select count(*) from test_update;具体删除&更新实现语法 如下:ALTER TABLE <table_name> DELETE WHERE <filter>;ALTER TABLE <table_n

#数据仓库#数据库#sql
数据分析系列 之pandas用例分析1

1 pandas介绍:pandas是基于NumPy的一种工具,它是python的一个数据分析包,最初由AQR Capital Management于2008年4月开发,并于2009年底开源出来,目前由专注于Python数据包开发的PyData开发team继续开发和维护,属于PyData项目的一部分。常用数据结构有:Series:一维数组,与Numpy中的一维array类似。二者与Python基本的

#数据结构#python#大数据 +1
系统运维系列 之Kafka配置分析及参数含义

补充:kafka manager 中lag的正数、0、负数的含义:正数:就是kafka数据积压了,消费速度小于生产速度;0:生产者和消费者速率基本相当,说明2者都工作正常;负数:说明kafka的消费者干活很快,分分钟就处理完消费的数据,供小于求。...

#kafka#大数据#物联网
系统运维系列 之Java语言中解析json嵌套数组(干货亲测)

1 引言:在数据解析过程中,json格式的数据多用来做前后端数据交互、接口数据交互等,弄清楚Java语言中解析json嵌套数组对于数据交互有着重要意义,本文基于自己的代码编写和逻辑梳理,整理出本篇干货,亲测有效。2 理论:2-1 json字符串和json对象的区别://格式区别://JSON字符串:var str='{"name":"xiaoming","age":24}';//JSON对象:va

#json#java#编程语言
系统运维系列 之在Windows下可以查看文件夹大小的工具TreeSize Free

给大家推荐一个在Windows下可以查看文件夹大小的工具TreeSize Free。下载链接:https://customers.jam-software.de/downloadTrial.php?language=EN&article_no=80参考资料:https://blog.csdn.net/qq_33204709/article/details/111661871...

#运维#windows
数据分析系列 之FP-growth算法介绍

1 基本概念:FP-growth,即 Frequent Pattern Growth,它通过构建 FP 树(即 Frequent Pattern Tree)这样的数据结构,巧妙得将数据存储在 FP 树中,只需要在构建 FP 树时扫描数据库两次,后续处理就不需要再访问数据库了。这种特性使得 FP-growth 算法比 Apriori 算法速度快。FP 树是一种前缀树,由频繁项的前缀构成。2 两个名词

#算法#数据库#python +1
数据分析系列 之python中随机森林算法的应用

1 原理1.1 随机森林算法:随机森林就是通过集成学习的思想将多棵树集成的一种算法,它的基本单元是决策树,每棵决策树都是一个分类器(假设现在针对的是分类问题),那么对于一个输入样本,N棵树会有N个分类结果。而随机森林集成了所有的分类投票结果,将投票次数最多的类别指定为最终的输出,这就是一种最简单的 Bagging 思想。1.2 Matplotlib和SeabornMatplotlib:高度定制化绘

#决策树#python#机器学习 +1
人工智能系列 之机器学习DBSCAN聚类算法

1 介绍DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一个出现得比较早(1996年),比较有代表性的基于密度的聚类算法。DBSCAN能够将足够高密度的区域划分成簇,并能在具有噪声的空间数据库中发现任意形状的簇。聚类的时候不需要预先指定簇的个数,最终簇的个数不确定。DBScan需要二个参数: 扫描半径 (Eps

#聚类#机器学习#算法
办公软件系列 之excel应用1

小前言:一般对于办公软件的使用博客少之又少,而且关键词描述不太清楚,导致搜索的内容质量极低,又限于是软件版本的问题,有些教程根本行不通。于是将自己在工作和学习之中用到的软件技巧和公式功能记录下来,用来之后的总结提高。PS:对于之前办公软件使用频率不高的童鞋,我真真切切的感受到办公软件技能的提升真的可以提升自己的算力。本篇小博客为excel应用1:公式1:对于时间戳的转换以及计算时间戳早晚的公式在e

#经验分享#编辑器
人工智能系列 之机器学习DBSCAN聚类算法

1 介绍DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一个出现得比较早(1996年),比较有代表性的基于密度的聚类算法。DBSCAN能够将足够高密度的区域划分成簇,并能在具有噪声的空间数据库中发现任意形状的簇。聚类的时候不需要预先指定簇的个数,最终簇的个数不确定。DBScan需要二个参数: 扫描半径 (Eps

#聚类#机器学习#算法
    共 16 条
  • 1
  • 2
  • 请选择