logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

C++基础:const 的五种用法和含义

C++中const关键字有五种主要用法:1)修饰变量使其不可修改;2)修饰指针时可限制指针本身或指向的值;3)修饰引用时只能限制引用值不可修改;4)修饰成员函数形成"常量成员函数",表示该函数不会修改对象状态。其中const引用作为函数参数是C++接口设计的标准实践,既能避免值拷贝又防止意外修改。指针和引用的const语义差异显著,引用天然具有不可重新绑定的特性。const的正

文章图片
#c++
Hadoop/Yarn的日志清理

Hadoop/Yarn的日志清理可以分为两个子话题讨论:Hadoop/Yarn的本地日志(非Yarn Container生成的日志)Yarn的Container生成的日志我们这里讨论的日志清理并不是通过定时的日志删除命令去实现,这一做法显然优雅, 具体的做法下面会分别进行讨论。1. Hadoop/Yarn本地日志的清理Hadoop/Yarn使用log4j进行日志输出,所以对于它们本地日志的清理,最

文章图片
#hadoop#yarn
时间序列大数据平台建设经验谈

版权声明:本文由本人撰写并发表于2018年1月刊的《程序员》杂志,本文版权归《程序员》杂志所有,未经许可不得转载。引言在大数据的生态系统里,时间序列数据(Time Series Data,简称TSD)是很常见也是所占比例最大的一类数据,几乎出现在科学和工程的各个领域,一些常见的时间序列数据有:描述服务器运行状况的Metrics数据、各种IoT系统的终端数据、脑电图、汇率、股价、气象和天

文章图片
机器学习中的数据集切分

应用有监督的机器学习算法时,需要将数据集切分成训练数据集和测试数据集两部分。在《Handson ML》一书中,使用了numpy.random.permutation,对数据集进行了切分。其思路是:利用permutation生成shuffle后记录索引(打乱顺序的索引集合),然后按比例

#sklearn
集成 OpenLDAP 与 Kerberos 实现统一认证 (1):整合后台数据库

本文首发于 InfoQ,写作本系列文章的背景是我们要在大数据平台/企业数据湖场景下给出中心化的用户身份认证方案。此前,我们实现过Windows AD + Kerberos的集成方案,由于Windows AD是LDAP和Kerberos的双重实现,这种天然优势使得Windows AD可以实现真正意义上的(大数据集群的)Kerberos账号与企业用户账号的统一管理。当我们想在OpenLDAP + Ke

文章图片
#数据库
RHEL7/CentOS7 Network Service开机无法启动的解决方法

RHEL7/CentOS7安装完成并配置好所有网络相关配置后重启机器,使用systemctl --failed检查是否有失败的服务,发现在network服务启动失败,使用systemctl status network查看服务状态,得到如下错误信息:# systemctl status networknetwork.service - LSB: Bring up/down networking..

文章图片
Flink SQL Client 如何支持 Kafka?Could not find any factory for identifier kafka / upsert-kafka 解决方法

我们以 EMR 为例,Flink SQL Client 默认是没有安装 kafka connector 的相关 Jar 包的,所以在 Flink SQL Client 中执行 Kafka 的建表语句时会报如下错误:org.apache.flink.table.api.ValidationException: Could not find any factory for identifier ‘up

文章图片
#flink#sql#kafka
Hudi COW表的数据膨胀(清除历史版本)问题

本文要讨论的是这样一个问题:使用Hudi的COW表时,有一个很明显的现象:当表中有大量的更新数据写入时,落地的parquet文件往往总大小往往要double,每写入一次就会double一次,对于数据体量非常大,且每次都有大量更新的数据来说,不禁会让人担心:这种数据膨胀是否会快速耗尽存储资源?有没有可以克制的方法?其实,这并不是一个问题,而是Hudi表的正常表现,我们先从原理上来看一下产生这个问题背

文章图片
#大数据
编译 TPC-DS ( dsdgen / dsqgen ) 生成测试数据和查询语句

TPC所有Benchmark工具包的下载地址是https://www.tpc.org/tpc_documents_current_versions/current_specifications5.asp , TPC-DS当前最新版本是3.2.0,下载前需要填写真实的邮箱地址,因为下载连接是通过邮件发送的。将下载好的安装包上传到Linux服务器,并解压安装包

文章图片
多分类问题的处理策略和评估手段

多分类问题基本都是建立在二分类问题基础之上的,简单说就是:将多分类问题拆解成多个二分类问题去解决,具体来说,通常有两种策略:One-Versus-The-Rest (OvR) 也叫 One-Versus-All(OvA):即每一个类别和所有其他类别做一次二分类,全部类别都做完后,就等于实现了多分类。一个有N种分类的问题使用此策略需要进行N次二分类处理 One-Versus-One(OvO)即每一个

文章图片
#分类#sklearn
    共 28 条
  • 1
  • 2
  • 3
  • 请选择