
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
1 什么是 DataXDataX 是阿里巴巴开源的一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle 等)、HDFS、Hive、ODPS、HBase、FTP 等各种异构数据源之间稳定高效的数据同步功能。为了解决异构数据源同步问题,DataX 将复杂的网状的同步链路变成了星型数据链路,DataX 作为中间传输载体负责连接各种数据源。当需要接入一个新的数据源的时候,只需要
机器学习项目实战之信用卡欺诈检测(零基础,附数据及详细python代码)https://blog.csdn.net/qq_40683479/article/details/89221558项目实例---金融---用机器学习构建模型,进行信用卡反欺诈预测https://blog.csdn.net/qingqing7/article/details/80665356反...
Kafka常用命令之kafka-topics.shhttps://blog.csdn.net/qq_29116427/article/details/80202392Kafka概述Kafka作为一个商业级消息中间件 ,发布和订阅记录流,它类似于一个消息队列先了解下Kafka的基本原理,然后通过对kakfa的存储机制、复制原理、同步原理、可靠性和持久性保证等等一步步对其可靠性进行分析...
Quartz发布定时任务,本章(一)发布的定时都配置在xml里面,配置你调用的方法,修改定时时间都在里面修改,时间两种格式。第二章会动态配置定时任务,cron表达式,定时任务时间,名称等都从前台页面而来,实现定时任务的增删改查(详情请阅读第二章)。本章配置如下:<bean id="timedtask" class="org.springframework.scheduling.q...
目前,越来越多的企业,在大数据应用上,都会选择用户画像这一主题,为什么呢?因为用户画像相对于做推荐以及机器学习等简单容易的多,做画像,更多是就是对用户数据的整合,然后做一些用户聚类、用推荐算法,比如基于用户的推荐和基于商品的推荐,获取用户或者进行商品营销应用。我们的画像的维度和设计原则都是紧紧跟着业务需求去推动。换句话说,对于数据的应用就是基于业务来做的,业务和数据双向驱动。审核通过的画像...
一般在我们开发spark程序的时候,从代码开发到上线以及后期的维护中,在整个过程中都需要涉及到调优的问题,即一开始需要考虑如何把代码写的更简洁高效调优(即代码优化),待开发测试完成后,提交任务时综合考量该任务所需的资源(这里涉及到资源调优),上线后是否会出现数据倾斜问题(即倾斜调优),以及是否出现频繁GC问题(这里涉及到GC调优)。那么本篇通过反推的模式,即通过GC调优进行延伸扩展,比如出现GC问
webservice是一个 SOA(面向服务的编程)的架构,它是不依赖于语言,不依赖于平台,可以实现不同的语言间的相互调用,通过 Internet 进行基于 Http 协议的网络应用间的交互。1、异构系统(不同语言)的整合2、不同客户端的整合 浏览器、手机端(android,ios.塞班)、微信端、PC端等终端来访问场景:天气预报:可以通过实现we...
启动日志start_log清洗到DWD用到的函数:get_json_object1)person表xjson字段内容为:Xjson=[{"name":"大郎","sex":"男","age":"25"},{"name":"西门庆","sex":"男","age":"47"}]2)取出第一个json对象SELECT get_json_object(xjson,"$.[0]") FROM person
DWT层DWT层将DWS层每日聚合的数据进行积累,DWT层不是分区表,是一个累积型全量表,并且数据来源与DWS层。累积性全量表:查询要改动的旧数据,查询新增和变化的新数据,新旧关联,以新换旧,导入覆盖。DWT设备主题宽表用户主题宽表drop table if exists dwt_user_topic;create external table dwt_user_topic(user_id str
DWS层dws层的数据从dwd层来选取,在建模上进行主题分类,分类后每个主题都制作一张表,按照dwd层的数据,进行每日的轻度聚合,一般是建宽表。说明:本次DWS层的数据清洗是与DWT(主题宽表DWT层则是针对全部进行统计。DWT层每日设备行为每日会员行为每日商品行为每日优惠券统计 (预留)每日活动统计(预留)每日购买行为DWT层设备主题宽表会员主题宽表商品主题宽表优惠券主题宽表活动主题宽表会







