logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【数据产品】数据产品如何选型

一、数据仓库选型数据仓库选型是整个数据中台项目的重中之重,是一切开发和应用的基础。而数据仓库的选型,其实就是Hive数仓和非Hive数仓的较量。Hive数仓以Hive为核心,搭建数据ETL流程,配合Kylin、Presto、HAWQ、Spark、ClickHouse等查询引擎完成数据的最终展现。非Hive数仓则以Greenplum、Doris、GaussDB、HANA(基于SAP BW构建的数据仓

文章图片
运维常用的脚本

1、检测两台服务器指定目录下的文件一致性#!/bin/bash######################################检测两台服务器指定目录下的文件一致性######################################通过对比两台服务器上文件的md5值,达到检测一致性的目的dir=/data/webb_ip=192.168.88.10#将指定目录下的文件全部遍历出来

文章图片
#运维#bash
从实现原理谈谈低代码

一、低代码的理解在讨论各个低代码方案前,首先要明确「低代码」究竟是什么?这个问题不好直接回答,因为低代码是非常宽泛的概念,有很多产品都声称自己的低代码,但我们很容易反过来回答另一个问题:「什么是低代码产品唯一不可缺少的功能?」我认为这个功能是可视化编辑,因为非可视化编辑就是代码编辑,而只有代码编辑的产品不会被认为是低代码,因此可视化编辑是低代码的必要条件,低代码其实还有另一个更清晰的叫法是可视化编

#低代码
主流关系型分布式数据库选型与设计实战

一、数据库从集中式到分布式的演进

#数据库
数据一致性保障难点与解决方案

目前,分布式数据一致性问题还没有普世通用的解决方案,它需要从业务需求的角度出发,确定对各种一致性模型的接受程度,再通过具体场景来选择解决方案。从应用角度看,分布式事务的现实场景常常无法规避,特别是对涉及金融类的业务,数据一致性是底线,业务需要对数据有百分之百的掌控力。而一般的电商交易场景,使用基于消息队列的柔性事务框架是不错的选择。

文章图片
用户增长常见分析模型

随着流量红利的结束。最大的价值是可以带来更迅猛的复合增长,复合增长相对于线性增长,最大的区别是每一份投入是否可以换来成倍回报。在上面模型中提高留存的优先级还是不够的,Growth Loops,增长循环,又叫增长飞轮,是一套自循环的系统,这套系统的输入经过一系列的流程产生了一些输出,这些输出又可以直接带来新的输入。(Average Revenue Per User)= 某期间内点总收入/该期间内的用

文章图片
#人工智能
全面了解常用数据分析方法与模型

根据试验结果确定发布新版本、调整分流比例继续测试或者在试验效果未达成的情况下继续优化迭代方案重新开发上线试验。

文章图片
Data Lakehouse (湖仓一体) 到底是什么

0、背景Data Lakehouse(湖仓一体)是新出现的一种数据架构,它同时吸收了数据仓库和数据湖的优势,数据分析师和数据科学家可以在同一个数据存储中对数据进行操作,同时它也能为公司进行数据治理带来更多的便利性。0.1 目前数据存储的方案一直以来,我们都在使用两种数据存储方式来架构数据:数据仓库:主要存储的是以关系型数据库组织起来的结构化数据。数据通过转换、整合以及清理,并导入到目标表中。在数仓

【Spark】Spark常见错误问题汇总(~持续更新)

一、SparkSQL相关1.在执行insert 语句时报错,堆栈信息为:FileSystem closed。常常出现在ThriftServer里面。原因:由于hadoop FileSystem.get 获得的FileSystem会从缓存加载,如果多线程一个线程closedFileSystem会导致该BUG解决:hdfs存在不从缓存加载的解决方式,在hdfs-site.xml 配置 fs.hdfs.

#spark
【埋点体系】(二)-埋点设计、管理与应用

一、埋点的管理1.1 新增埋点设计1.1.1 埋点指标定义-事件表一款互联网产品每天产生的数据是庞大杂乱的,全部都存下来会占据硬盘空间,而且,不加定义和标记的数据也很难使用。因此,在初期的数据建设阶段,先要做的是定义想要的数据,告诉前端开发和后台的同事,你想要的数据有哪些,定义这些数据的字段包括但不限于以下字段:埋点位置:平台覆盖了APP、Web和小程序平台,其中有部分核心功能、页面在三个平台都有

#数据分析
    共 33 条
  • 1
  • 2
  • 3
  • 4
  • 请选择