logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Scrapy框架学习(八)----Scrapy-redis分布式爬虫学习

Scrapy框架学习(八)—-Scrapy-redis分布式爬虫学习Scrapy-redis分布式爬虫框架,是在Scrapy爬虫框架的基础上进行改进的,通过Redis来进行数据的缓存,可以在多台机器上运行爬虫程序。本文示例是在CentOS的虚拟机运行。1、Redis安装关于Redis的安装,网上有不少的文章,在配置Redis环境上也会有些问题,下面的2篇文章,详细的介绍了Redis...

#scrapy#redis
hadoop集群环境搭建之伪分布式集群环境搭建(一)

hadoop集群环境搭建之伪分布式集群环境搭建(一)1、Linux基本环境配置1.1 虚拟机网络模式选择NAT一般虚拟机默认是NAT模式1.2 修改主机名vim /etc/sysconfig/networkNETWORKING=yesHOSTNAME=zhang# 主机名1.3 修改IP切换root的用户,修改/etc/sysconfig/netw...

#hadoop#yarn#hdfs +1
使用JsonPath解析json数据

使用JsonPath解析json数据JsonPath介绍JsonPath是从JSON文档中抽取指定的信息的工具。提供多种语言实现版本,包括JavaScript,Python,PHP,java。JsonPath对于JSON,就好比xpath对于XML。JsonPath下载地址:https://pypi.python.org/pypi/jsonpathJsonPath安装:pip inst

#json#python
请求返回json串和文件下载实例

请求返回json串和文件下载实例请求返回json串JsonServlet代码:@WebServlet("/JsonServelt")public class JsonServelt extends HttpServlet {private static final long serialVersionUID = 1L;public JsonServelt() {

#json
SparkSql中DataFrame与json、csv、mysql、hive数据的互操作

SparkSql中DataFrame与json、csv、mysql、hive数据的互操作1.RDD转换成DataFrame1.1 RDD to DataFrameRDD转成DataFrame有2种方式,一种是通过隐式转换,一种是通过SparkSession来进行创建。1.1.1 RDD隐式转换成DataFrame(推荐)object RDDToDF {def ma...

#spark#hive#mysql +1
Flink的多种提交方式

Flink的多种提交/运行方式Flink具有多种提交方式,比如:常用的local模式,stantalone模式,yarn模式,k8s等。这里主要对比local,stantalone,yarn三种提交方式。一、本地(local)模式,仅开发使用1.1 纯粹的local模式运行这就是直接运行项目中的代码的方式提交:public class TestLocal {public st...

#flink
Flume+Kafka+SparkStreaming之wordcount示例

Flume+Kafka+SparkStreaming的结合使用之wordcount示例1. 生成log的py脚本脚本文件名称:produce_log3.py,内容如下:import timeimport schedimport randomdef create_log():file = open("/home/hadoop/log/access.log", ...

#spark#kafka#flume
PySpark Structured Streaming kafka示例

PySpark Structured Streaming kafka示例直接上代码:#!/usr/bin/env python3# -*- coding: utf-8 -*-from pyspark.sql import SparkSessionfrom pyspark.sql.functions import from_jsonfrom pyspark.sql.types...

#kafka#python
Structured Streaming与Kafka的整合,实现不同json结构解耦

Structured Streaming与Kafka的整合,实现不同json结构解耦问题:Structured Streaming从kafka的不同topic读取数据,每个topic的value存取的数据格式是不同的。那么怎么使用一套模版代码,分别对多个topic进行读取数据。做到解耦呢?思考:Structured Streaming读取kafka的操作是一致的,只是对kafka的value值..

Flink Table 将kafka流数据追加到Csv格式文件

Flink Table 将kafka流数据追加到Csv格式文件Flink Table可以很好的将Stream数据直接写入到文件系统。示例如下:代码示例public class SqlSinkFileSystemStream {public static void main(String[] args) throws Exception {StreamExecuti...

#flink#kafka
    共 32 条
  • 1
  • 2
  • 3
  • 4
  • 请选择