Lenskit 个人主页

@chenKFKevin

Lenskit

2022-07-29 15:20:17 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

django设置中文时区

一开始写成LANGUAGE_CODE = 'zh-CN'TIME_ZONE = 'Asia/Beijing'但是报错ValueError: Incorrect timezone setting: Asia/Beijing改成TIME_ZONE = 'Asia/Shanghai'最后改成LANGUAGE_CODE = 'zh-Hans'TIME_Z

（6）hadoop学习——hive的文件存储和基本数据类型

上一篇介绍了hive的架构，以及hive语句执行的过程。这篇详细介绍hive的文件存储和使用方法。Hive是hdfs上的数据仓库，而hdfs上存放的都是文件，所以hive中的表可以理解为对hdfs上文件的映射。看完下面的介绍，相信你能很清楚的理解：“hive中的表就是hdfs的文件”这句话。一，hive的文件存储默认hive仓库的路径为/user/hive/warehouse/

#hadoop #hive #数据仓库

（3）hadoop学习——namenode的fsimage与editlog详解

Namenode主要维护两个文件，一个是fsimage，一个是editlog。fsimage保存了最新的元数据检查点，包含了整个HDFS文件系统的所有目录和文件的信息。对于文件来说包括了数据块描述信息、修改时间、访问时间等；对于目录来说包括修改时间、访问权限控制信息(目录所属用户，所在组)等。

#hadoop #文件系统

python——python连接oracle数据库，并且比较数据之间的差别

前几天同事问我一个问题，如何找出两份数据之间的不一样的值。这样描述问题不太好理解，举个例子：两份数据是从oracle中两个不同的表读出来的，两份数据均有四个字段，其中两个字段是相同的：日期和代码，另外两个字段名字不同，但代表的含义是一致的，都是代表最高价和最低价。现在想要找出两份数据相同日期和代码的记录是否最高价和最低价一致，有不一致的就找出来。

#python #oracle #pandas

python——python连接oracle数据库，并且比较数据之间的差别

#python #oracle #pandas

配置linux主机到windows主机ssh免密登陆

接上篇，从linux主机scp文件到windows主机，每次输入密码肯定不现实。所以需要配置linux主机到windows主机ssh免密码，cd /home/你的用户/.ssh/，如果里面有id_rsa.pub，将里面的文本拷贝至D:\cygwin\home\eriadmin\.ssh的authorized_keys里即可，如果该目录不存在，手动生成密钥

#ssh #windows

Python机器学习及实践——无监督学习经典模型（K-means）

无监督学习着重于发现数据本身的分布特点。与监督学习不同，无监督学习不需要对数据进行标记。从功能角度讲，无监督学习模型可以帮助我们发现数据的“群落”，同时也可以寻找“离群”的样本；另外对于特征维度非常高的数据样本，我们同样可以通过无监督的学习对数据进行降维，保留最具有区分性的低纬度特征。数据聚类是无监督学习的主流应用之一，最为经典并且易用的聚类模型，要属K均值算法。该算法要求我们预先设定聚类...

#python #sklearn

Python机器学习及实践——进阶篇3（模型正则化之欠拟合与过拟合）

一个需要记住的重要事项：任何机器学习模型在训练集上的性能表现，都不能作为其对未知测试数据预测能力的评估。这里讲详细及时什么是模型的泛化力以及如何保证模型的泛化力，一次会阐述模型复杂度与泛化力的关系以及使用L1范数正则化与L2范数正则化加强模型的泛化力，避免模型参数过拟合。所谓拟合，是指机器学习模型在训练的过程中，通过更新参数，使得模型不断契合训练集的过程。本篇将使用一个“比萨饼价格预...

#python #机器学习

统计语言模型（下）

接上篇。 P(wi|wi-1)就是这两个数的比值，再考虑到上面的两个概率有相同的分母（语料库大小），可以约掉，所以P(wi|wi-1)(wi-1,wi)/(wi-1)。现在你是否感受到数学的美妙？它把一些复杂的问题变得如此简单。似乎难以相信，这么简单的数学模型能解决复杂的语音识别、机器翻译等问题，而很复杂的文法规则和人工智能却做不到。其实很多语音学家也质疑过这种方法的有效性，

#nlp

到底了