
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
一开始写成LANGUAGE_CODE = 'zh-CN'TIME_ZONE = 'Asia/Beijing'但是报错ValueError: Incorrect timezone setting: Asia/Beijing改成TIME_ZONE = 'Asia/Shanghai'最后改成LANGUAGE_CODE = 'zh-Hans'TIME_Z
上一篇介绍了hive的架构,以及hive语句执行的过程。这篇详细介绍hive的文件存储和使用方法。Hive是hdfs上的数据仓库,而hdfs上存放的都是文件,所以hive中的表可以理解为对hdfs上文件的映射。看完下面的介绍,相信你能很清楚的理解:“hive中的表就是hdfs的文件”这句话。一,hive的文件存储默认hive仓库的路径为/user/hive/warehouse/
Namenode主要维护两个文件,一个是fsimage,一个是editlog。fsimage保存了最新的元数据检查点,包含了整个HDFS文件系统的所有目录和文件的信息。对于文件来说包括了数据块描述信息、修改时间、访问时间等;对于目录来说包括修改时间、访问权限控制信息(目录所属用户,所在组)等。
前几天同事问我一个问题,如何找出两份数据之间的不一样的值。这样描述问题不太好理解,举个例子:两份数据是从oracle中两个不同的表读出来的,两份数据均有四个字段,其中两个字段是相同的:日期和代码,另外两个字段名字不同,但代表的含义是一致的,都是代表最高价和最低价。现在想要找出两份数据相同日期和代码的记录是否最高价和最低价一致,有不一致的就找出来。
前几天同事问我一个问题,如何找出两份数据之间的不一样的值。这样描述问题不太好理解,举个例子:两份数据是从oracle中两个不同的表读出来的,两份数据均有四个字段,其中两个字段是相同的:日期和代码,另外两个字段名字不同,但代表的含义是一致的,都是代表最高价和最低价。现在想要找出两份数据相同日期和代码的记录是否最高价和最低价一致,有不一致的就找出来。
接上篇,从linux主机scp文件到windows主机,每次输入密码肯定不现实。所以需要配置linux主机到windows主机ssh免密码,cd /home/你的用户/.ssh/,如果里面有id_rsa.pub,将里面的文本拷贝至D:\cygwin\home\eriadmin\.ssh的authorized_keys里即可,如果该目录不存在,手动生成密钥
无监督学习着重于发现数据本身的分布特点。与监督学习不同,无监督学习不需要对数据进行标记。从功能角度讲,无监督学习模型可以帮助我们发现数据的“群落”,同时也可以寻找“离群”的样本;另外对于特征维度非常高的数据样本,我们同样可以通过无监督的学习对数据进行降维,保留最具有区分性的低纬度特征。数据聚类是无监督学习的主流应用之一,最为经典并且易用的聚类模型,要属K均值算法。该算法要求我们预先设定聚类...
一个需要记住的重要事项:任何机器学习模型在训练集上的性能表现,都不能作为其对未知测试数据预测能力的评估。这里讲详细及时什么是模型的泛化力以及如何保证模型的泛化力,一次会阐述模型复杂度与泛化力的关系以及使用L1范数正则化与L2范数正则化加强模型的泛化力,避免模型参数过拟合。所谓拟合,是指机器学习模型在训练的过程中,通过更新参数,使得模型不断契合训练集的过程。本篇将使用一个“比萨饼价格预...







