
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
构建用户标签体系主要根据用户在历史时间内的网购行为记录,从网购时间点、内容深度剖析,针对用户的基础属性、社交行为、互动行为、消费行为、偏好习惯、财富属性、信用属性和地理属性等八大维度构建用户标签体系,以期综合描绘平台消费者的行为特征。建设的过程分为六个基本步骤:1、首先以业务视角梳理规划整个标签体系的架构,即上面所说的八个维度;2、无规矩不成方圆,在进行实际开发之前,我们要定义包括数据(指标)规.
如果确认已经在脚本中用了绝对路径,这就可能是crontab的环境变量和自己运行时的环境变量不同导致。所以,在shell脚本中加入1)source /etc/profile2)然后用locate /bin/hive找出对应一个hive的位置,当然由于向下兼容,当然找的是最新版本的hive的位置,将原本的hive命令改成绝对路径简而言之,就是所有能用到绝对路径的地方都使用绝对路
1、hadoop1.0时期架构2、hadoop2.0时期架构3、hdfs架构Active Namenode主 Master(只有一个),管理 HDFS 的名称空间,管理数据块映射信息;配置副本策略;处理客户端读写请求Secondary NameNodeNameNode 的热备;定期合并 fsimage 和 fsedits,推送给 NameNode;当 Activ
1、环境说明生产系统数据库是阿里云mysql型rds数据库,目标数据仓库也是阿里云mysql型rds数据库。由于数据高效抽取的需要,生产系统表字段timeline定义为记录新增或更新的时间戳,并且此字段需要添加索引。2、存储数据抽取时间的表CREATE TABLE `real_time_maintenance` (`id` int(11) DEFAULT NULL,
1、解决参考一Press enter for maintenance(or type Control-D to continue):/dev/sda3 contains a file system with errors, check forced./dev/sda3: Inodes that were part of a corrupted orphan linked list
定期统计数仓表此表及其下游表,近60天的外部访问次数(外部访问指的是非数仓任务使用次数的外部使用,如即席查询,报表查询,接口查询),同样的,和使用方沟通后,无用则归档。每家公司的数据情况和痛点不一样,所以应该根据实际情况,针对痛点去优先治理,而不是死板的按照某本书或某篇文章的治理计划死板的进行。包括数仓中基础的库表信息(表名,表备注,表字段,表的存储空间等),以及任务信息(调度计划、运行耗时、内存

转自:数据库、数据湖、数据仓库、湖仓一体、智能湖仓,分别都是什么鬼 (baidu.com)最近被大数据相关的小词儿,整的有点懵。索性我们就来个专题,聊透数据库、数据仓库、数据湖以及风头正劲的“Lake house”——湖仓一体化。1、数据仓库是个啥?和数据库有什么不同?数据库的基本概念,大家应该都不陌生。如今但凡是个业务系统,都或多或少需要用到数据库。即便我们不直接跟数据库打交道,它们也在背后默默
一、记录类数据1、事务数据事务是数据库处理数据的一个单元,可以理解为一次数据库CRUD的操作。事务数据就是记录下数据库操作的系统日志数据,以及特定业务场景中,专门记录的业务操作事务记录的数据,比如用于安全审计的系统登录日志。2、业务数据业务数据就是为了完成业务流程而存储的业务操作类数据。就是业务系统的绝大多数表和数据。3、日志数据早期的日志数据是属于事务数据中的。现在大数据时代,用户访问数据变得越
1、Sysdate当前日期和时间SQL> Select sysdate from dual;2、Last_day()时间所在月的最后一天SQL> Select last_day(sysdate) from dual;3、Add_months(d,n)当前日期d后推n个月 用于从一个日期值增加或减少一些月份 date_value:=add_months(date_value,number
当前,正则表达式已经在很多软件中得到广泛的应用,包括Linux, Unix,HP等操作系统,PHP,C#,Java等开发环境,ORACLE则在10G中推出了自己的正则表达式。Oracle 10g正则表达式提高了SQL灵活性,有效的解决了数据有效性, 重复词的辨认, 无关的空白检测,或者分解多个正则组成的字符串等问题。它们使用POSIX 正则表达式代替了老的百分号(%)和通配符(_)字符。'^' 匹







