
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
1.安装pycharm,python进入pycharm官网,点击downloadpython根据自己的需求进行安装,python2和python3的差异还是有点大进入python官网,点击下载2.安装pyspark根据spark的部署版本下载相应的版本pip3 install pyspark==版本号我们的环境用的是python3的,所以这里是pip3,python2 的这里用pip3.异常处理在
1.新建空白excel2.菜单:数据-》导入数据3.设置导入数据的类型为文本设置逗号分隔选择需要转化的设置成文本格式并完成
错误信息:DataFrame object has no attribute dtype原因:在dataframe.astype(str) 的列的数据类型有object类型解决方法:将对象的列的数据先转成字符串
由于工作中在数据迁移,大数据平台数据查询引擎使用Presto,和传统的数据库时间函数有区别,整理一版,供大家参考,一起学习,有错误欢迎指正。1、查询当前日期select current_date;2、查询当前时间select current_timestamp;_col0---------------------------------------2022-01-02 20:45:58.551
错误信息:DataFrame object has no attribute dtype原因:在dataframe.astype(str) 的列的数据类型有object类型解决方法:将对象的列的数据先转成字符串
在运行pyspark 代码提示Exception: Java gateway process exited before sending its port number解决办法1.配置java的1.8版本环境变量2.在pycharm 的设置里面配置JAVA_HOME配置保存之后运行就可以了
一、需求分析早期业务借助Sqoop将Mysql中的数据同步到Hive、hdfs来进行数据分析,使用过程中也带来了一些问题:虽然Sqoop支持增量同步但还属于粗粒度的离线同步,无法满足下游数仓实时性的需求(可能一个小时,或者一天)每次同步Sqoop以sql的方式向Mysql发出数据请求也在一定程度上对Mysql带来一定的压力同时Hive对数据更新的支持也相对较弱,由于Hive本身的语法不支持更新、删







