logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Waterdrop之数据处理

背景及痛点:我们的确可以利用Spark提供的API对数据进行任意处理,但是整套逻辑的开发是个不小的工程,需要一定的Spark基础以及使用经验才能开发出稳定高效的Spark代码。除此之外,项目的编译、打包、部署以及测试都比较繁琐,会带来不少得时间成本和学习成本。除了开发方面的问题,数据处理时可能还会遇到以下不可逃避的麻烦:数据丢失与重复任务堆积与延迟吞吐量低应用到生产环境周期长缺少应用运行状态监控因

#spark#big data#hive +1
python3 pip install 安装时 No module named 'pip' 问题解决及pip国内源更改、升级

在使用pip install时,出现如下问题:因为这个错误导致 pip找不到,可以首先执行python -m ensurepip ,如下图所示然后执行python -m pip install --upgrade pip 即可更新完毕。pip国内镜像源更改:例如:阿里云: http://mirrors.aliyun.com/pypi/sim...

#python#pip#linux
大数据算法-蓄水池抽样算法(Reservoir Sampling)

背景:给定一个数据流,数据流长度N很大,且N直到处理完所有数据之前都不可知,从 N 个样本中随机选择 K 个样本,其中 N 非常大(以至于 N 个样本不能同时放入内存)或者 N 是一个未知数,请问如何在只遍历一遍数据(O(N))的情况下,能够随机选取出k个不重复的数据:数据流长度N很大且不可知,所以不能一次性存入内存。时间复杂度为O(N)。随机选取k个数,每个数被选中的概率为k/N。思路:假设数据

文章图片
#算法#java
EXCEL VLOOKUP函数合并提取表格(类似数据库Join)

vlookup函数1.首先准备一个表格(2个sheet):2.选中成绩表score中,pingyu列的第一个单元格,点编辑栏的fx,找到vlookup 点击确定3.在出来的参数对话框,第一个是查找项(即两个表中相同的关联列项),选中第一个学生“lisi”,这样为了能在第二张表里查找他4.第二个参数是查找合并的区域,点击第二张表pingyu(Sheet2),在列标题上拖动鼠标,选中B列和C列,第一列

#编辑器#sql#大数据
数据分析之TGI指数

TGI(Target Group Index)指数,是反映目标群体在特定研究范围(如地理区域、人口统计领域、媒体受众、产品消费者)内的强势或弱势的指数。TGI指数= 【目标群体中具有某一特征的群体所占比例 / 总体中具有相同特征的群体所占比例】* 标准数100例如,将某地区15-24岁的人作为目标群体,将去[电影网站A]看电影作为相同特征;若该地区15-24岁的人中,有8.9%的人去过[电影网站A

#大数据
数据仓库-模型设计

数据模型设计名词解释:ODS --- 原始数据层DWD--- 明细数据层DWS--- 轻度汇总层ADS/DM --- 应用层/数据集市层DIM --- 维表ODS是业务数据进⼊数据中台的第⼀站,是所有数据加⼯的源头,控制住源头,才能从根本上防⽌⼀个重复的数据体系的出现。对于ODS层表的命名采⽤ODS_业务系统数据库名_业务系统数据库表名⽅式,⽐如ods_warehous_stock,warehou

#数据库#大数据
Elasticsearch-SQL 使用SQL查询Elasticsearch 安装及JDBC实现过程(附图片详解)

Elasticsearch的查询语言(DSL), Elasticsearch-SQL可以用sql查询Elasticsearch。Elasticsearch-sql的项目地址:https://github.com/NLPchina/elasticsearch-sql1、Elasticsearch-sql实现的功能:1)插件式的安装2)SQL查询3)超越SQL之外的查询4...

#java#elasticsearch#数据库 +2
Hive中的explode使用全解(附图片详解)

数据表:表名:default.class_info,分别是班级,姓名,成绩 3列单列Explode:需求:将student这一列中数据由一行变为多行(使用split和explode,并结合lateral view函数实现)selectclass,student_namefromdefault.class_infolateral view explode(split(student,',')) t

#hive#大数据#sql +2
数据分析之埋点选择(数据分析运营必备)

前端埋点 OR 后端埋点:若运营人员工作需要判断前端界面设计是否合理,是必须采用前端埋点方案的,这也是后端代码埋点无法完全代替全埋点的原因。前端埋点:如果你要统计用户点击发布回答按钮的点击率,一般是前端点击按钮行为发送点击日志,页面按钮展示发送pv展示日志,然后点击量/展示量,就是点击率,这里就要前端埋点。适用于:需求运营阶段初期,产品功能相对简单需要分析与后端没有交互的行为...

#hive#sql#mysql +2
数据分析之TGI指数

TGI(Target Group Index)指数,是反映目标群体在特定研究范围(如地理区域、人口统计领域、媒体受众、产品消费者)内的强势或弱势的指数。TGI指数= 【目标群体中具有某一特征的群体所占比例 / 总体中具有相同特征的群体所占比例】* 标准数100例如,将某地区15-24岁的人作为目标群体,将去[电影网站A]看电影作为相同特征;若该地区15-24岁的人中,有8.9%的人去过[电影网站A

#大数据
    共 15 条
  • 1
  • 2
  • 请选择