logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

时间序列大数据平台建设经验谈

版权声明:本文由本人撰写并发表于2018年1月刊的《程序员》杂志,本文版权归《程序员》杂志所有,未经许可不得转载。引言在大数据的生态系统里,时间序列数据(Time Series Data,简称TSD)是很常见也是所占比例最大的一类数据,几乎出现在科学和工程的各个领域,一些常见的时间序列数据有:描述服务器运行状况的Metrics数据、各种IoT系统的终端数据、脑电图、汇率、股价、气象和天

文章图片
机器学习中的数据集切分

应用有监督的机器学习算法时,需要将数据集切分成训练数据集和测试数据集两部分。在《Handson ML》一书中,使用了numpy.random.permutation,对数据集进行了切分。其思路是:利用permutation生成shuffle后记录索引(打乱顺序的索引集合),然后按比例

#sklearn
Spring中使用getSession()与通过HibernateTemplate进行数据操作的差别

  在 Spring+Hibernate的继承环境里,如果DAO直接使用HibernateDaoSupport的getSession()方法获取 session进行数据操作而没有显式地关闭该session,那么程序表现为:每个session会打开一个connection,并且 connection会一直保持(因为没有显式地close).如果程序使用了c3p0连接池,则因为c3p0连接池默认最大连接

#spring#hibernate
使用bat批处理脚本自动设置IP和IE代理

在不同的网络环境间切换时需要手动修改IP和IE代理设置,较为繁琐,可以通过编写相应的bat批处理脚本自动完成配置,做到一键切换。以下是一个示例:@echo off::echo set ip...::netsh interface ip set address name="本地连接" source=static addr=xxx.xxx.xxx.xxx mask=xxx.xxx.xxx.xxx

集成 OpenLDAP 与 Kerberos 实现统一认证 (1):整合后台数据库

本文首发于 InfoQ,写作本系列文章的背景是我们要在大数据平台/企业数据湖场景下给出中心化的用户身份认证方案。此前,我们实现过Windows AD + Kerberos的集成方案,由于Windows AD是LDAP和Kerberos的双重实现,这种天然优势使得Windows AD可以实现真正意义上的(大数据集群的)Kerberos账号与企业用户账号的统一管理。当我们想在OpenLDAP + Ke

文章图片
#数据库
RHEL7/CentOS7 Network Service开机无法启动的解决方法

RHEL7/CentOS7安装完成并配置好所有网络相关配置后重启机器,使用systemctl --failed检查是否有失败的服务,发现在network服务启动失败,使用systemctl status network查看服务状态,得到如下错误信息:# systemctl status networknetwork.service - LSB: Bring up/down networking..

文章图片
Flink SQL Client 如何支持 Kafka?Could not find any factory for identifier kafka / upsert-kafka 解决方法

我们以 EMR 为例,Flink SQL Client 默认是没有安装 kafka connector 的相关 Jar 包的,所以在 Flink SQL Client 中执行 Kafka 的建表语句时会报如下错误:org.apache.flink.table.api.ValidationException: Could not find any factory for identifier ‘up

文章图片
#flink#sql#kafka
Python笔记 · 鸭子类型 / Duck Typing

既然程序能成功运行,就说明鸭子类型的示例代码能够通过Python的(运行期)类型检查。在Python中,由于它的“动态”特性,导致变量的类型随时可以变化,在这样的前提下,如果你是Python解释器的设计者,要怎么进行“类型检查”呢?你只能让Python解释器放宽“类型检查”的条件:只要在当前的上下文中(例如一个函数体内),调用方对这个类型所期望的属性和方法它都有,那它就是那个“正确的”类型。如果换

文章图片
#python#开发语言
virtualenv系列 (3) · 创建虚拟环境

本文我正式进入Virtualenv的使用环节。注:本文操作环境是Windows系统!注意:如果本地安装了多套Python系统环境,我们并不需要在每一套环境上都安装virtualenv,因为Virtualenv可以-p参数来设定Python解释器的路径,通过给出的解释器路径就能定位整个Python安装环境,进而可以复制相关文件,构造基于该版本的虚拟环境。所以,通常在系统默认的Python环境下安装一

#python#virtualenv#windows
Hudi COW表的数据膨胀(清除历史版本)问题

本文要讨论的是这样一个问题:使用Hudi的COW表时,有一个很明显的现象:当表中有大量的更新数据写入时,落地的parquet文件往往总大小往往要double,每写入一次就会double一次,对于数据体量非常大,且每次都有大量更新的数据来说,不禁会让人担心:这种数据膨胀是否会快速耗尽存储资源?有没有可以克制的方法?其实,这并不是一个问题,而是Hudi表的正常表现,我们先从原理上来看一下产生这个问题背

文章图片
#大数据
    共 52 条
  • 1
  • 2
  • 3
  • 6
  • 请选择