logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

基于LR的新闻多分类(基于spark2.1.0, 附完整代码)

自从引进DataFrame之后,spark在ml方面,开始使用DataFrame作为RDD的上层封装,以屏蔽RDD层次的复杂操作,对应用开发者提供简单的DataFrame,以减少开发量。本文以最新的spark2.1.0版本为基础,构建从数据预处理、特征转换、模型训练、数据测试到模型评估的一整套处理流程。

#spark#逻辑回归#scala
【问题跟踪】KryoException: java.io.IOException: No space left on device

今天在对LDA进行不同参数训练模型,记录其avglogLikelihood和logPerplexity,以便判断模型训练是否收敛时,产生了一个令人极度崩溃的事儿:程序在辛辛苦苦跑了7.3h后...挂了!证据如下:早上一来看这张图,好像跑完了,然后点进去看...然后就没有然后了每次迭代都需要9min左右,迭代了近50次跟我说挂了,确实挺让人奔溃的。先说说我的配置以

#spark
通俗理解LDA主题模型

声明:本文转载自July的CSDN博客,仅作为知识记录所用,原文链接:http://blog.csdn.net/v_july_v/article/details/412095150 前言    印象中,最开始听说“LDA”这个名词,是缘于rickjin在2013年3月写的一个LDA科普系列,叫LDA数学八卦,我当时一直想看来着,记得还打印过一次,但不知是因为这篇文档

#机器学习
VirtualBox 安装ghost xp(雨林木风)

        自从微软宣布停止更新XP以来,网上各种各样的xp序列号都不能用了,但是因为工作的需要又必须要装一个xp的虚拟机。因此只能忍痛装一个ghost版的xp(个人不太喜欢ghost版本,总觉得预装了很多乱七八糟的软件让我很不爽)。        自己鼓捣了几次发现ghost版的xp还没有想象中的那么好装,因此写一篇教程方便自己也方便别人,供大家参考一下:↓↓↓↓↓↓

Linux格式化并重新加载磁盘

今天在用fio做完centos系统IO对比测试后,发现个严重的问题,用df工具查看磁盘,发现经过fio写操作的磁盘容量变成了这样:         瞬间就有一种不好的感觉,果然,经过多方查证,是由于磁盘反复进行写操作导致文件存储信息被破坏,只能进行格式化了。(吐槽一下,坑爹的fio,在测试之前完全没看到有这方面的说明)在网上搜集了一下Linux下磁盘格式化步骤,写下来和大家分享一下:

#linux
Hadoop2.6.0 + zookeeper集群环境搭建

在centos6.5上进行hadoop2.6.0+zookeeper集群初步安装

#centos#hadoop#集群 +1
Hadoop HA——namenode无法启动问题解决

今天按照之前《Hadoop2.6.0 + zookeeper集群环境搭建 》一文重新搭建了Hadoop2.7.2+zookeeper的HA,实现namenode挂掉后可以自动切换,总体来说还算比较顺利。搭建完成后一切正常!但是!第二天重新启动集群的时候出现问题:两个namenode有一个始终启动不了!,具体问题描述如下:问题描述HA按照规划配置好,启动后,NameNod

#hadoop
到底了