logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

基于交替最小二乘法(ALS)算法的协同过滤推荐案例实战【Spark MLlib】

交替最小二乘法(ALS)是统计分析中最常用的逼近计算的一种算法,其交替计算结果使得最终结果尽可能地逼近真实结果。而ALS的基础是最小二乘法(LS算法),LS算法是一种常用的机器学习算法,它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便的求得未知的数据,并使得这些求得的数据与实际数据之间误差的平法和为最小。最小二乘法以一个变量为例,在二维空间中最小二乘法的原理图如下...

#数据挖掘
随机梯度下降法概述与实例

机器学习算法中回归算法有很多,例如神经网络回归算法、蚁群回归算法,支持向量机回归算法等,其中也包括本篇文章要讲述的梯度下降算法,本篇文章将主要讲解其基本原理以及基于Spark MLlib进行实例示范,不足之处请多多指教。梯度下降算法包含多种不同的算法,有批量梯度算法,随机梯度算法,折中梯度算法等等。对于随机梯度下降算法而言,它通过不停的判断和选择当前目标下最优的路径,从而能够在最短路径...

【数据挖掘】NLP中文分词概述

在大数据时代,信息量越来越大,给你一篇百万文字的文章,你保证你有耐心慢慢看完吗?如果是热点新闻,我们当然会希望通过一段简洁明了的文字来概述整个文章,这时候就需要提取文章的关键字;每当我们遇到不会的问题的时候,都会想到百度,但是你有没有想过,搜索引擎是怎么样识别文本的语义进行搜索,在分析你的语义之后又是如何分析出类似的文章呈现给你,这时候就需要分析文本的相似度。NLP自然语言应用广泛,以上仅仅只是冰

《邪不压正》好不好看?大数据分析告诉你

八月暑假季,也是影院最热闹的时候,各大电影相继在影院播放,精彩不断,给了人们更多的惊喜,尤其是《我不是药神》一路遥遥领先,拿下暑假票房冠军,但是《邪不压正》这部电影褒贬不一,笔者也看过这部电影,我自身对于这部电影的感觉,怎么说呢?有点深奥,还行吧。但是个人观点,并不能说明一部电影的好坏,我们应该通过了解数万观众对于这部影片的评价再来对这部影片定性吧。因此,我准备爬取豆瓣对《邪不压正》所...

【JVM实战】GC回收器详解

在Java虚拟机中,GC回收器不仅仅只有一种,在哪一块内存区域以及场景使用什么垃圾回收器,对于我们编写的程序的性能都有着至关重要的影响,因为,如果我们熟悉每一个GC回收器的运行机制就可以给我们的程序的性能带来很大的提升,本篇文章中,我们来探究一下每一种GC回收器的结构原理。首先,在JVM中,总共有以下几种GC回收器:新生代串行回收器老年代串行回收器新生代ParNew回收器新生代Para...

Docker中使用Nginx部署静态网站

继上篇【五分钟快速认识Docker】之后,本篇文章主要介绍Docker的基本命令以及如何在Docker中使用 Nginx部署静态网站页面。转发请标明原文地址:【原文地址】一、Docker基本命令启动容器:#语法docker run IMAGE [COMMAND] [ARG...]#实例:需要指定操作系统镜像以命令docker run ubuntu /bin/bash#输出hello...

Spark Streaming集成Kafka的两种方式

Spark Streaming集成Kafka转载请标明原文链接:在实际开发中Spark Streaming经常会结合Flume以及Kafka来实时计算数据。这篇文章主要讲述如何集成Kafka,对于Kafka的集成有两种方式:Receiver-based ApproachDirect Approach (No Receivers)在集成Kafka之前,必须先安装kafka并且启...

Kafka Java API使用Demo

首先导入相关pom文件依赖,这里使用的kafak0.8.1,scala是2.10.4版本,注意导入正确的版本,与你的kafka集群版本相匹配。pom.xml:<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-inst

Strom实时热力图展示项目

一、概述本篇文章主要介绍如何使用Storm + Logstash + Kafka 实现实时数据的计算,并且使用高德地图API实现热力图的展示。背景知识:在有些场合,我们需要了解当前人口的流动情况,比如,需要实时监控一些旅游景点旅客的密集程度,这时可以使用GPS定位系统将该区域内旅客的IP数据进行计算,但是GPS定位系统也有一定的缺点,不是每个旅客都会GPS功能,这时可以使用“信令”来获取个人...

Flink Kafka connector详解

在Flink中提供了特殊的Connectors从kafka中读写数据,它基于Kafka Consumer API以及Producer API封装了自己的一套API来连接kafka,即可读取kafka中的数据流,也可以对接数据流到kafka中,基于kafka的partition机制,实现了并行化数据切片。下面让我们来看看它的主要API以及使用。Flink kafka consumer使用kafk..

    共 13 条
  • 1
  • 2
  • 请选择