玉羽凌风个人主页

@zhouyan8603

玉羽凌风

2022-12-23 17:14:54 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

hive skills

1.with as 使用 + 求占比with sale as(select 'a' as department_id,'001' as item_id,100 as money union allselect 'a' as department_id,'002' as item_id,200 as money union allselect 'b' as department_id,'...

#hive

spark sql 支持多级目录

当表的分区有子目录时，spark sql默认是不支持的，可以用以下设置:在hive cli里直接set mapreduce.input.fileinputformat.input.dir.recursive=true;就可以正常使用spark sql引擎在代码层面可以尝试.set("spark.hive.mapred.supports.subdirectories",&quot

spark sql 将string 转成json array

demo数据结构：val items = "[{\"skuId\": \"100101\", \"quantity\": 1},{\"skuId\": \"100104\", \"quantity\": 2}]"假设dataframe中只有items一个字段，

windows 运行spark或者hadoop程序报winutils.exe错误

1.下载 winutils.exe：http://download.csdn.net/download/ypsong2011/91091432.将此文件放置在某个目录下，比如C:\winutils\bin\中。3.在程序的一开始声明：System.setProperty("hadoop.home.dir","c:\\winutil\\")参考：https://social

sparksql和hive读取结果不一致

sparksql读不到表内容，但是hive却是可以，后来排查到是因为hive表有多级目录，所以需要配置下sparksql参数：spark.sql.hive.convertMetastoreParquet=falsemapred.input.dir.recursive=true如果是hive可配置mapreduce.input.fileinputformat.input.dir.recursive=

#hive #spark #sql

Exception in thread “main“ com.amazonaws.services.s3.model.AmazonS3Exception: Status Code: 400

1.确保代码里有对应的spark set 认证信息spark.sparkContext.hadoopConfiguration.set("fs.s3a.endpoint", "your endpoint")spark.sparkContext.hadoopConfiguration.set("fs.s3a.access.key", "your accessKeyId")spark.sparkCon

org.apache.hadoop.security.AccessControlException: Permission denied: user=root

原因：hdfs上没有root用户，也没有对应的文件夹/user/root会默认以root身份去将作业写入hdfs文件系统中，对应的也就是 HDFS 上的/user/xxx , 我的为/user/root, 由于root用户对hdfs目录并没有写入权限，所以导致异常的发生。而hdfs才有权限创建/user/root解决方法：1、第一种在hdfs的配置文件中，将dfs.permi...

#hadoop

slf4j+logback&logback.xml

1.maven依赖<dependencies><dependency><groupId>org.slf4j</groupId><artifactId>slf4j-api</artifactId&gt

#logback

大数据平台数据权限管理设计

背景和范围当前大数据团队没有一个统一的操作权限控制和管理平台，对于分析师在服务器上的权限，目前都是给予对应分析节点的EC2机器账号，且为了方便操作和管理都是给予的管理员权限，因此安全性风险较大；对于数据开发者，主要通过分配IAM控制AWS的操作权限；对于team的所有人都是通过分配aws的ak,sk在本地进行操作赋权；随着数据平台的不断的丰富和完善，需要在各组件之上做认证，鉴权和审计等管理，数..

#hadoop #spark #大数据

滴滴大数据安全权限实践

在滴滴，数据是非常重要的资产，基于数据的数仓建设，数据分析、数据挖掘、数据科学等构建了滴滴的数据体系，支撑着滴滴的业务快速发展。在这个背景下，如何保障用户获取数据的易用性的同时可以更加安全，是对我们大数据平台提出来的非常大的挑战，本文将介绍下我们在面对挑战下，在大数据权限安全建设上实践。1.用户认证 - 自研账号密码机制提到安全，首先要面对的就是用户认证，Hadoop 社区版本是没有安全认证的，因

#大数据

共 14 条

请选择