留歌留歌个人主页

@liuge36

留歌留歌

2023-12-07 14:03:17 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

《BI工程师必读》数据可视化篇 #02

写在前面对于大数据团队来说，我们把计算好的数据，以一种简洁美观的方式展现给产品经理或领导也是十分重要的，其实也就是数据可视化。一种方式就是公司自研一个可视化平台，比如用SpringBoot+Echarts就可以达到一些效果，但是这无疑是比较耗费时间的，所以选择一款高效的可视化工具就显得尤为重要。BI工具目前市面上有很多，像是Tableau、FineBI这种典型代表,他们或多或少都比较商业化一些，无

#hive #hdfs #hadoop

《BI工程师必读》日期处理篇 #01

– 天、周、月、季度、年等聚合操作– mysql– 当天日期selectdate(now())select date_sub(current_date,interval dayofweek(current_date) day)selectweekday(current_date()) –周日 6 周一 0selectdayofweek(current_date()) – 周日 1 周一 2– 当天

#大数据 #数据库 #python

基于Spark的电影推荐系统（推荐系统~6）

第四部分-推荐系统-实时推荐之实时数据加工把测试集（30%总数据）的数据，怼到 Kafka 消息队列里前置准备Kafka系列一之架构介绍和安装Kafka系列三之单节点多Broker部署启动Kafka[root@hadoop001 ~]# nohup kafka-server-start.sh $KAFKA_HOME/config/server-1.properties &am...

#spark

Kafka系列四之多分区如何保证数据的有序性

Apache Kafka 消息怎么写？kafka是一个分布式的流消息队列生产者将消息发布到某个主题broker 进行存储消费者订阅+读数据从该主题中消息（记录）以序列化字节存储，消费者负责反序列化消息，消息可以具有任何格式，最常见的是字符串，JSON和Avro。JSON 格式的好处与坏处！？√1....

#kafka

Connection to node 0 could not be established. Broker may not be available.

在用SparkStreaming对接Kafka的过程中，遇到上面的问题。大概就是说，无法连接到Kafka,这样Broker就不能得到了。解决：1.看你的对接的kafka机器的9092端口是否被放出来2.你启动的kafka（Broker）参数/配置文件listeners=PLAINTEXT://192.168.1.116:9092这个参数要和你代码中的保持一致才行3.再就是可能你的to...

#kafka

java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.

问题说明：一般来说，我编写Spark,MapReduce程序都是会在本地IDEA中进行，开发。本地跑通了，才会把代码放到集群上去跑。当我在运行一个简单的Spark Job 的时候，控制台出现如下的错误：java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries....

#spark #mapreduce

保留Hive分区的最新文件

写在前面:目前生产上有一个场景就是有一张HIVE的分区表，每5分钟就会有一个任务往当天的分区里面写数据，但是本身也只需要当天最新的数据，这样下来，小文件就会巨巨巨多，所以不得避免就需要删除之前的文件了，这样也能提升查询速度。方案：用Python执行Bash HDFS命令代码如下：#!/usr/bin/env python# -*- coding: utf-8 -*-import osimport

#hive #hdfs #hadoop

基于Spark的电影推荐系统（后台管理系统）

第二部分-后台管理系统（简介）ps:技术实现上类似于电影网站软件架构： SpringBoot+Mybatis+JSP项目描述：后台管理系统主要对用户信息和电影信息进行管理，如添加删除电影信息和完成用户信息的完善。其中为了更好地保存电影的图片信息，搭建了图片服务器，关于图片服务器FastDFS的搭建可参考博客。技术选型：技术名称官网Spring Boot容...

#spark

基于Spark的电影推荐系统（Scrapy爬虫）

第三部分-Scrapy爬虫（简介）软件架构： Scrapy框架+Python3+项目描述：爬取国外电影网站的电影数据，保存到本地MySQL服务器技术选型：主要开发工具：JetBrains PyCharm : 开发IDE开发环境项目架构项目流程图更多文章：基于Spark的电影推荐系统：https://blog.csdn.net/liuge36/column/info/292...

#scrapy #spark

基于Spark的电影推荐系统（实战简介）

写在前面一直不知道这个专栏该如何开始写，思来想去，还是暂时把自己对这个项目的一些想法和大家分享的形式来展现。有什么问题，欢迎大家一起留言讨论。这个项目的源代码是在https://github.com/LuckyZXL2016/Movie_Recommend这个位置。基于源代码做了一些简单的调整。项目效果类似于国内豆瓣网站，能够在该项目-电影网站-进行电影信息浏览和查询，并且-电影网站...

#spark

共 12 条

请选择