xiaohei.info 个人主页

@qq1010885678

xiaohei.info

2023-07-06 14:01:23 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

Flink最佳实践（二）Flink流式计算系统

前言在 Flink最佳实践（一）流式计算系统概述中，我们详细讨论了流式计算系统中时域、窗口、时间推理与正确性工具等概念。本文将以这些概念为基础，逐一介绍 Flink 的发展背景、核心概念、时间推理与正确性工具、安装部署、客户端操作、编程API 等内容，让开发人员对 Flink 有较为全面的认识并拥有一些基础操作与编程能力。一、发展背景1.1 数据处理架构在流处理器出现之前，数据处...

KMeans算法检测网络异常入侵

非监督学习技术在决策树算法预测森林植被中我们可以体会到属于监督学习的分类和回归技术的强大，可以预测“即将发生”的事情使用监督学习技术有一个很关键的前提：需要大量的数据对模型进行训练，模型能够从已知的数据中学习规律进而预测未知的数据然而在某些场景下，并不是都能提供监督学习所需要的样本数据来训练模型，有可能只能给出部分正确的输出，甚至一个输出都没有这种情况下，监督学习的技术就不能够使用了此时

#算法

基于Spark机器学习和实时流计算的智能推荐系统

概要：随着电子商务的高速发展和普及应用，个性化推荐的推荐系统已成为一个重要研究领域。个性化推荐算法是推荐系统中最核心的技术，在很大程度上决定了电子商务推荐系统性能的优劣，决定着是否能够推荐用户真正感兴趣的信息，而面对用户的不断提升的需求，推荐系统不仅需要正确的推荐，还要实时地根据用户的行为进行分析并推荐最新的结果。实时推荐系统的任务就是为每个用户，不断地、精准地推送个性化的服务，甚至到达

#spark #推荐算法

Spark（六） -- Spark计算模型

What is RDD？A Resilient Distributed Dataset(RDD)，分布式弹性数据集，是Spark上的一个核心抽象表示用于并行计算的，不可修改的，对数据集合进行分片的数据结构在Spark上，针对各种各样的计算场景存在着各种各种的RDD，这些RDD拥有一些共同的操作，例如map，filter，persist等，就好像RDDs都是一个总RDD的子类一样，拥有所有

简单理解云计算的模式

简单理解云计算的模式关于IaaS、PaaS和SaaS的相关概念网上一抓一大把，不再累述，可以参考一下文章：http://blog.csdn.net/it_man/article/details/8441902既然想要了解云计算，那么八成你是一个开发人员，或者和IT行业密切相关的人。那么接下来的例子中相信你可以很容易理解。首先需要明确的一点是，云计算不是一种新的技术，而是一种新的服务模式。Ia

#云计算 #paas

hadoop伪分布式安装

首先需要有一台linux的虚拟机，什么版本的都差不多这里以redhat为例下载hadoop（只是为了学习使用的是老版本的0.20.2）另外还需要jdk的linux版

#hadoop

linux下eclipse闪退和重装jdk的方法

在linux虚拟机中安装eclipse编写java代码一开始没啥异常，但是一使用智能提示功能或者其他什么原因eclipse会闪退网上找了N久的办法终于解决linux中装的jdk是最新的1.8重新安装了1.6的jdk之后在eclipse安装目录中编辑eclipse.ini加入以下几句话保存-Dorg.eclipse.swt.browser.DefaultType=mozi

#eclipse #linux

在Centos 7中使用 Docker搭建MySQL异地双向复制环境

（0）一些准备操作：Centos安装好之后（这里使用的是vm虚拟机）将当前用户添加到sudoers中：su rootvim /etc/sudoers找到rootALL=(ALL)ALL在之后添加一行${user}ALL=(ALL)ALL保存切换用户即可本地ssh免密码登陆Centos虚拟机本地系统为Mac，使用自带的终端工

#centos #mysql #docker

Kubernetes概念介绍和v1版本部署过程

简介：k8s一个开源的，跨主机管理容器应用集群的编排系统，为应用提供了基础的部署、维护和扩缩容机制。编排：跨Docker主机同一管理容器集群。目的简化开发和运维容器集群的工作。让开发和运维能把这个系统当一台电脑看待。特点：没有资源调度算法，只关注容器的管理。核心概念：Cluster，即集群：虚拟机或者物理机的一组集合，运行着Kub

#centos

Spark（一）-- Standalone HA的部署

首先交代一下集群的规模和配置集群有六台机器，均是VM虚拟机，每台256M的内存（原谅楼主物理机硬件不太给力）主机名分别是cloud1~cloud6每台机器上都装有jdk6,和hadoop-2.2.0其中cloud4~cloud6上装有zookeepercloud1为hdfs文件系统的启动节点cloud3为yarn资源管理的启动节点（注意每台机器都配置好SSH免密码登录，可

#spark

共 16 条

请选择