logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

基于Glue ETL(提取、转换和加载)的serviceless 数据分析——二、数据清洗、转换

到这一步,我们已经使用Glue ETL对s3桶中的数据进行了清洗、分区操作。在进行上篇中的Athena操作后,我们已经可以通过Athena直接查询到清洗、分区后的数据集了。接下来,我们会通过使用APIGateway+Lambda+Athena来构建一个无服务器的数据查询分析服务。

文章图片
#etl#数据分析#原型模式 +1
基于AWS Batch的量化回测系统

任务类型我们选择单节点输入名称与超时时间选择使用Fargate作为运行环境,并开启分配公共IP。进入ECR,选择我们刚才创建的镜像仓库,复制其ARN。返回创建,输入映像与命令命令:python backtest.py 【数据源所在S3桶名】 【要回测的源数据文件名】 【结果存储S3桶名】输入重试次数完成创建。

文章图片
#aws#batch#云计算
Apache Superset 通过GLUE可视化s3、RDS、RedShift中的数据

配置成功后,Superset默认使用8088端口,使用http://<EC2 公有IP>:8088访问,默认用户名和密码均为admin 可在Dockerfile、docker中命令、管理页面更改。需要配置管理员用户权限,在docker/docker-init.sh中默认创建用户admin(密码也是admin)但权限并没有更新,通过以下命令更新权限。启动一台Amazon Linux EC2并安装启动

文章图片
#apache#aws
到底了