个人主页

@zheng911209

2022-11-24 11:38:30 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

问题解决：Unlink of file '.git/objects/pack/pack-***.pack' failed. Should I try again? (y/n) y

git pull的时候遇到Unlink of file '.git/objects/pack/pack-***.pack' failed. Should I try again? (y/n) y于是一直输“y”就一直出现这样，查了下有人说那个文件重复了，删除即可（没试过）。也有说是因为文件被占用了，重启了编程软件输入以下代码解决了问题（也是查来的）：git gc --autogit repack

#git

jdbc连接hive（hiveserver2，spark thriftserver）

import java.sql.*;/*** Created by zheng on 2020/4/9.*/public class HiveClient {public static void main(String[] args) throws SQLException {try {Class.forName("org.ap...

#大数据

spark sql查询hive表实现脱敏

关于hive表查询脱敏，原理是select的时候在后台对sql进行处理，对每个要查询的字段都加一个自定义的mask脱敏函数。一开始的实现思路是类似 select col1,col2,col3 from mask_table，后台处理后sql改造成select m.col1,m.col2,m.col3 from (select mask(col1),mask(col2),mask(col3) fr.

Presto查询优化（数据分析）

用户：1、大表查询将数据拆分（表数据非实时）（1）如公司内部有人直接上亿甚至几十亿条数据的表（或者几百TB级别的表）直接进行报表制作，这种情况，建议搞个定时任务，每天把要统计的数据放到小表里去，报表制作只查小表。（2）报表数据来自表某个为json的大字段，用户直接用json解析函数获取，这种情况也建议将字段拆分平铺成一张表在进行解析。2、Hive表小文件比较多，导致查询慢。把hive表文件合并性能

寻找hadoop、hive、spark对应版本

一开始装了hadoop3.2.1+hive3.1.2+spark3.0.0，整个安装虽然有一些些jar包版本冲突问题但都解决了，直到写spark-sql的时候执行，sparkSession.sql("……")的时候报了一个类找不到问题，一眼看过去就觉得应该又是包冲突了，然后，从pom.xml引入的包版本冲突开始解决，最后演变成，解决A问题，发现了B问题，又遇到D问题……一种坑越挖越大的感觉。说白了

#hadoop

启动spark-shell遇到的一些问题

执行：spark-shell1、报When running with master 'yarn' either HADOOP_CONF_DIR or YARN_CONF_DIR must be set in th environmwnt原因是没有配置之前在/etc/profile下配置了hadoop的环境变量，但是没有配置HADOOP_CONF_DIR解决办法：vim /U...

#大数据

到底了