logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Hive基于搜狗搜索的用户日志行为分析

问题导读1.本文是如何学习大数据的?2.用户查询中包含的中文、英文字数的平均个数,本文提出哪两个思路?3.用户访问应用的时间特点如何使用hive实现统计的?前言”大数据时代“,“大数据/云计算”,“大数据平台”,每天听到太多的大数据相关的词语,好像现在说一句话不跟大数据沾边都不好意思说自己是做IT的。可能这与整个IT圈子的炒作也有关联,某一个方面来看其实就是一营销术语。很多

关于在阿里云服务器或者腾讯云服务器(或者两者混合)搭建Hadoop 2.0 HA的注意事项

我是用阿里云和腾讯云混合的三台服务器搭建hadoop2.0 HA,按照教程总是出现莫名其妙的错误,用了三天时间才解决,下面是注意事项1.配置hosts文件的时候,本机用内网ip和主机名映射,并添加其他机器的公网ip和主机名的映射。这是关键,由于之前三台机器的hosts文件要不都是内网ip,要不都是公网ip,结果总是出错2.hadoop和zookeeper相关的配置文件尽量都用公网ip地

pscp命令实现windows和linux文件的传输

首先将pscp.exe放在system32下,在windows命令行执行下面语句:1、将windows下的文件上传到linuxpscp E:\hadoop\test.txt hadoop@182.20.45.122:/home/hadoop/2、将linux文件下载到本地windowspscp hadoop@182.20.45.122:/home/hadoop/test.txt

kafka前台启动和后台启动

前台启动:bin/kafka-server-start.sh config/server.properties后台启动:bin/kafka-server-start.sh config/server.properties 1>/dev/null 2>&1 &

kafka 启动 报错cannot allocate memory,即内存不足

错误提示:Java Hotspot(TM) 64-Bit Server VM warning: INFO: os::commit_memory(0x00000000c5330000, 986513408, 0) failed; error='Cannot allocate memory' (errno=12)## There is insufficient memory for the Jav

Hadoop生态上几个技术的关系与区别:hive、pig、hbase 关系与区别

初接触Hadoop技术的朋友肯定会对它体系下寄生的个个开源项目糊涂了,我敢保证Hive,Pig,HBase这些开源技术会把你搞的有些糊涂,不要紧糊涂的不止你一个,如某个菜鸟的帖子的疑问,when to use Hbase and whento use Hive?....请教了^_^没关系这里我帮大家理清每个技术的原理和思路。Pig一种操作hadoop的轻量级脚本语言,最初又雅

【机器学习】K-means聚类算法初探

算法代码 Github传送门:K-MeansCluster@skyline0623数据聚类是对于静态数据分析的一门技术,在许多领域内都被广泛地应用,包括机器学习、数据挖掘、模式识别、图像分析、信息检索以及生物信息等。聚类是把相似的对象通过静态分类的方法分成不同的组别或者更多的子集,这样让在同一个子集中的成员对象都有相似的一些属性,常见的包括在坐标系中更加短的空间距离等。我们拿2

excel判断某一列中的数据是否在另一列中(含跨sheet)

1、在B列右边的空白列中,输入如下公式:=COUNTIF($A$1:$A$7,B1)其中,$A1:$A7代表A列中的所有数据即绝对范围,B1代表B列中的一个单元格。如下图所示:2、输入完成后,点击回车。单元格的数据就自动计算出来了。其中1就代表存在,0就代表不存在。如下图所示:3、B列中,还剩下一部分数据没有进行判断。其实很简单,只要把鼠标放

【机器学习】K-means聚类算法初探

算法代码 Github传送门:K-MeansCluster@skyline0623数据聚类是对于静态数据分析的一门技术,在许多领域内都被广泛地应用,包括机器学习、数据挖掘、模式识别、图像分析、信息检索以及生物信息等。聚类是把相似的对象通过静态分类的方法分成不同的组别或者更多的子集,这样让在同一个子集中的成员对象都有相似的一些属性,常见的包括在坐标系中更加短的空间距离等。我们拿2

mysql导入打卡记录,查询员工每天最早上班时间和最晚下班时间

1、在数据库新建表card_records,根据打卡记录字段新建表的字段,新增id字段(自增)2、利用navicat连接mysql数据库,导入打卡记录右键新建的表,右键导入向导,选择导入的文件格式,我这里是excel2003,有时候mysql对excel2007不能正确打开,可以另存为excel2003点击下一步,选择打卡记录所在的位置,以及数据在的sheet,我的数据

    共 12 条
  • 1
  • 2
  • 请选择