logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

JavaWeb索引框架————Solr

1、什么是SolrSolr 是Apache下的一个顶级开源项目,采用Java开发,它是基于Lucene的全文搜索服务器。Solr提供了比Lucene更为丰富的查询语言,同时实现了可配置、可扩展,并对索引、搜索性能进行了优化。Solr可以独立运行,运行在Jetty、Tomcat等这些Servlet容器中,Solr 索引的实现方法很简单,用 POST 方法向 Solr 服务器发送一个描述 F...

Oozie的简单使用

1、Oozie的介绍    Oozie是一个工作流引擎服务器,用于运行Hadoop Map/Reduce和Hive等任务工作流.同时Oozie还是一个Java Web程序,运行在Java Servlet容器中,如Tomcat中。Oozie以action为基本任务单位,可以将多个action构成一个DAG图(有向无环图Direct Acyclic Graph.

Hadoop(九)————Kafka

1、什么是Kafka1、kafka是一个分布式的消息缓存系统2、kafka集群中的服务器都叫做broker3、kafka有两类客户端,一类叫producer(消息生产者),一类叫做consumer(消息消费者),客户端和broker服务器之间采用tcp协议连接4、kafka中不同业务系统的消息可以通过topic进行区分,而且每一个消息topic都会被分区,以分担消息读写的负载5...

大数据项目(二)————某电信公司通话记录改造

1、项目介绍将通话记录数据由原来的oracle系统改造成使用大数据架构解决方案。主要使用hbase做通话数据的存储方案。需要将原有oracle数据导入到hbase中,以及新生成数据通过flume收集到kafka,再通过消费者存储到hbase数据库。hadoop+hbase+flume+zookeeper实现电信级海量通话日志数据的存储,随机访问与实时读写。通过hash技术对rowkey...

Python数据分析与挖掘(二)

1、KNN算法#!/usr/bin/python# -*-coding:utf-8-*-# __author__ = 'ShenJun'import numpy as npimport operatordef knn(k,testdata,traindata,labels):''':param k:表示到最近的k个点,即以最近的k个点的距离来对测试数据所属...

Python数据分析与挖掘(一)

1、数据处理1.1 模块的使用Pandas的使用#!/usr/bin/python# -*-coding:utf-8-*-# __author__ = 'ShenJun'import pandas as pda'''series:系列数据'''a=pda.Series([8,9,2,1])'''结果:08192231dt...

python爬虫——正则表达式及urllib的使用

1、正则表达式#!/usr/bin/python# -*-coding:utf-8-*-# __author__ = 'ShenJun'import re'''par="yue"string="http://yum.iqianyue.com"rst1=re.search(par,string)#

Spark(三)————作业提交流程

1、Spark核心API[SparkContext]连接到spark集群,入口点.[RDD]它是一个分区的集合.弹性分布式数据集.不可变的数据分区集合.基本操作(map filter , persist)分区列表//数据应用给每个切片的计算函数//行为到其他RDD的依赖列表//依赖关系(可...

到底了