logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

《BI工程师必读》数据可视化篇 #02

写在前面对于大数据团队来说,我们把计算好的数据,以一种简洁美观的方式展现给产品经理或领导也是十分重要的,其实也就是数据可视化。一种方式就是公司自研一个可视化平台,比如用SpringBoot+Echarts就可以达到一些效果,但是这无疑是比较耗费时间的,所以选择一款高效的可视化工具就显得尤为重要。BI工具目前市面上有很多,像是Tableau、FineBI这种典型代表,他们或多或少都比较商业化一些,无

#hive#hdfs#hadoop
《BI工程师必读》日期处理篇 #01

– 天、周、月、季度、年等聚合操作– mysql– 当天日期selectdate(now())select date_sub(current_date,interval dayofweek(current_date) day)selectweekday(current_date()) –周日 6 周一 0selectdayofweek(current_date()) – 周日 1 周一 2– 当天

#大数据#数据库#python
基于Spark的电影推荐系统(推荐系统~6)

第四部分-推荐系统-实时推荐之实时数据加工把测试集(30%总数据)的数据,怼到 Kafka 消息队列里前置准备Kafka系列一之架构介绍和安装Kafka系列三之单节点多Broker部署启动Kafka[root@hadoop001 ~]# nohup kafka-server-start.sh $KAFKA_HOME/config/server-1.properties &am...

#spark
Kafka系列四 之 多分区如何保证数据的有序性

Apache Kafka 消息怎么写?kafka是一个分布式的流消息队列生产者将消息发布到某个主题broker 进行存储消费者 订阅+读数据 从该主题中消息(记录)以序列化字节存储,消费者负责反序列化消息,消息可以具有任何格式,最常见的是字符串,JSON和Avro。JSON 格式的好处与坏处!?√1....

#kafka
Connection to node 0 could not be established. Broker may not be available.

在用SparkStreaming对接Kafka的过程中,遇到上面的问题。大概就是说,无法连接到Kafka,这样Broker就不能得到了。解决:1.看你的对接的kafka机器的9092端口是否被放出来2.你启动的kafka(Broker)参数/配置文件listeners=PLAINTEXT://192.168.1.116:9092这个参数要和你代码中的保持一致才行3.再就是可能你的to...

#kafka
java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.

问题说明:一般来说,我编写Spark,MapReduce程序都是会在本地IDEA中进行,开发。本地跑通了,才会把代码放到集群上去跑。当我在运行一个简单的Spark Job 的时候,控制台出现如下的错误:java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries....

#spark#mapreduce
保留Hive分区的最新文件

写在前面:目前生产上有一个场景就是有一张HIVE的分区表,每5分钟就会有一个任务往 当天的分区里面写数据,但是本身也只需要当天最新的数据,这样下来,小文件就会巨巨巨多,所以不得避免就需要删除之前的文件了,这样也能提升查询速度。方案:用Python执行Bash HDFS命令代码如下:#!/usr/bin/env python# -*- coding: utf-8 -*-import osimport

#hive#hdfs#hadoop
基于Spark的电影推荐系统(后台管理系统)

第二部分-后台管理系统(简介)ps:技术实现上类似于电影网站软件架构: SpringBoot+Mybatis+JSP项目描述: 后台管理系统主要对 用户信息 和 电影信息 进行管理,如添加删除电影信息和完成用户信息的完善。其中为了更好地保存电影的图片信息,搭建了图片服务器,关于图片服务器FastDFS的搭建可参考博客。技术选型:技术名称官网Spring Boot容...

#spark
基于Spark的电影推荐系统(Scrapy爬虫)

第三部分-Scrapy爬虫(简介)软件架构: Scrapy框架+Python3+项目描述: 爬取国外电影网站的电影数据 ,保存到本地MySQL服务器技术选型:主要开发工具:JetBrains PyCharm : 开发IDE开发环境项目架构项目流程图更多文章:基于Spark的电影推荐系统:https://blog.csdn.net/liuge36/column/info/292...

#scrapy#spark
基于Spark的电影推荐系统(实战简介)

写在前面一直不知道这个专栏该如何开始写,思来想去,还是暂时把自己对这个项目的一些想法 和大家分享 的形式来展现。有什么问题,欢迎大家一起留言讨论。这个项目的源代码是在https://github.com/LuckyZXL2016/Movie_Recommend这个位置。基于源代码做了一些简单的调整。项目效果类似于国内豆瓣网站,能够在该项目-电影网站-进行电影信息浏览和查询,并且-电影网站...

#spark
    共 12 条
  • 1
  • 2
  • 请选择