logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

问题解决:Unlink of file '.git/objects/pack/pack-***.pack' failed. Should I try again? (y/n) y

git pull的时候遇到Unlink of file '.git/objects/pack/pack-***.pack' failed. Should I try again? (y/n) y于是一直输“y”就一直出现这样,查了下有人说那个文件重复了,删除即可(没试过)。也有说是因为文件被占用了,重启了编程软件输入以下代码解决了问题(也是查来的):git gc --autogit repack

#git
jdbc连接hive(hiveserver2,spark thriftserver)

import java.sql.*;/*** Created by zheng on 2020/4/9.*/public class HiveClient {public static void main(String[] args) throws SQLException {try {Class.forName("org.ap...

#大数据
spark sql查询hive表实现脱敏

关于hive表查询脱敏,原理是select的时候在后台对sql进行处理,对每个要查询的字段都加一个自定义的mask脱敏函数。一开始的实现思路是类似 select col1,col2,col3 from mask_table,后台处理后sql改造成select m.col1,m.col2,m.col3 from (select mask(col1),mask(col2),mask(col3) fr.

Presto查询优化(数据分析)

用户:1、大表查询将数据拆分(表数据非实时)(1)如公司内部有人直接上亿甚至几十亿条数据的表(或者几百TB级别的表)直接进行报表制作,这种情况,建议搞个定时任务,每天把要统计的数据放到小表里去,报表制作只查小表。(2)报表数据来自表某个为json的大字段,用户直接用json解析函数获取,这种情况也建议将字段拆分平铺成一张表在进行解析。2、Hive表小文件比较多,导致查询慢。把hive表文件合并性能

寻找hadoop、hive、spark对应版本

一开始装了hadoop3.2.1+hive3.1.2+spark3.0.0,整个安装虽然有一些些jar包版本冲突问题但都解决了,直到写spark-sql的时候执行,sparkSession.sql("……")的时候报了一个类找不到问题,一眼看过去就觉得应该又是包冲突了,然后,从pom.xml引入的包版本冲突开始解决,最后演变成,解决A问题,发现了B问题,又遇到D问题……一种坑越挖越大的感觉。说白了

#hadoop
启动spark-shell遇到的一些问题

执行:spark-shell1、报When running with master 'yarn' either HADOOP_CONF_DIR or YARN_CONF_DIR must be set in th environmwnt原因是没有配置之前在/etc/profile下配置了hadoop的环境变量,但是没有配置HADOOP_CONF_DIR解决办法:vim /U...

#大数据
到底了