
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
1.添加1列或多列# 添加1列alter table table_name add columns(user_id bigint comment '用户ID');# 添加多列alter table table_name add columns(name string comment '用户名称',city string comment '城市',sex string comment '用户性别',
Scrapy框架学习(八)—-Scrapy-redis分布式爬虫学习Scrapy-redis分布式爬虫框架,是在Scrapy爬虫框架的基础上进行改进的,通过Redis来进行数据的缓存,可以在多台机器上运行爬虫程序。本文示例是在CentOS的虚拟机运行。1、Redis安装关于Redis的安装,网上有不少的文章,在配置Redis环境上也会有些问题,下面的2篇文章,详细的介绍了Redis...
hadoop集群环境搭建之伪分布式集群环境搭建(一)1、Linux基本环境配置1.1 虚拟机网络模式选择NAT一般虚拟机默认是NAT模式1.2 修改主机名vim /etc/sysconfig/networkNETWORKING=yesHOSTNAME=zhang# 主机名1.3 修改IP切换root的用户,修改/etc/sysconfig/netw...
使用JsonPath解析json数据JsonPath介绍JsonPath是从JSON文档中抽取指定的信息的工具。提供多种语言实现版本,包括JavaScript,Python,PHP,java。JsonPath对于JSON,就好比xpath对于XML。JsonPath下载地址:https://pypi.python.org/pypi/jsonpathJsonPath安装:pip inst
请求返回json串和文件下载实例请求返回json串JsonServlet代码:@WebServlet("/JsonServelt")public class JsonServelt extends HttpServlet {private static final long serialVersionUID = 1L;public JsonServelt() {
SparkSql中DataFrame与json、csv、mysql、hive数据的互操作1.RDD转换成DataFrame1.1 RDD to DataFrameRDD转成DataFrame有2种方式,一种是通过隐式转换,一种是通过SparkSession来进行创建。1.1.1 RDD隐式转换成DataFrame(推荐)object RDDToDF {def ma...
Flume+Kafka+SparkStreaming的结合使用之wordcount示例1. 生成log的py脚本脚本文件名称:produce_log3.py,内容如下:import timeimport schedimport randomdef create_log():file = open("/home/hadoop/log/access.log", ...
Kafka常用命令kafka启动命令# 指定对应的配置文件启动kafka-server-start.sh /hadoop/kafka/config/server.properties# -daemon 以后台的方式启动kafka-server-start.sh -daemon /hadoop/kafka/config/server.properties# 指定JMX p...
Kafka Manager的使用1.安装Kafka Manager是雅虎开发的一个基于Web的kafka管理工具。具有非常强大的功能。kafka manager项目地址:https://github.com/yahoo/kafka-manager下载编译kafka manager# 从git上下载Kafka manager源码git clone https://githu...
Kafka核心配置参数与机制1. kafka集群安装kafka集群安装,参考文章: Kafka集群搭建及生产者消费者案例2. kafka配置参数broker.id:broker的id,id是唯一的非负整数,集群的broker.id不能重复。log.dirs:kafka存放数据的路径。可以是多个,多个使用逗号分隔即可。port:server接受客户端连接的端口,默认6667...