
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
自从引进DataFrame之后,spark在ml方面,开始使用DataFrame作为RDD的上层封装,以屏蔽RDD层次的复杂操作,对应用开发者提供简单的DataFrame,以减少开发量。本文以最新的spark2.1.0版本为基础,构建从数据预处理、特征转换、模型训练、数据测试到模型评估的一整套处理流程。
今天在对LDA进行不同参数训练模型,记录其avglogLikelihood和logPerplexity,以便判断模型训练是否收敛时,产生了一个令人极度崩溃的事儿:程序在辛辛苦苦跑了7.3h后...挂了!证据如下:早上一来看这张图,好像跑完了,然后点进去看...然后就没有然后了每次迭代都需要9min左右,迭代了近50次跟我说挂了,确实挺让人奔溃的。先说说我的配置以
声明:本文转载自July的CSDN博客,仅作为知识记录所用,原文链接:http://blog.csdn.net/v_july_v/article/details/412095150 前言 印象中,最开始听说“LDA”这个名词,是缘于rickjin在2013年3月写的一个LDA科普系列,叫LDA数学八卦,我当时一直想看来着,记得还打印过一次,但不知是因为这篇文档
自从微软宣布停止更新XP以来,网上各种各样的xp序列号都不能用了,但是因为工作的需要又必须要装一个xp的虚拟机。因此只能忍痛装一个ghost版的xp(个人不太喜欢ghost版本,总觉得预装了很多乱七八糟的软件让我很不爽)。 自己鼓捣了几次发现ghost版的xp还没有想象中的那么好装,因此写一篇教程方便自己也方便别人,供大家参考一下:↓↓↓↓↓↓
今天在用fio做完centos系统IO对比测试后,发现个严重的问题,用df工具查看磁盘,发现经过fio写操作的磁盘容量变成了这样: 瞬间就有一种不好的感觉,果然,经过多方查证,是由于磁盘反复进行写操作导致文件存储信息被破坏,只能进行格式化了。(吐槽一下,坑爹的fio,在测试之前完全没看到有这方面的说明)在网上搜集了一下Linux下磁盘格式化步骤,写下来和大家分享一下:
在centos6.5上进行hadoop2.6.0+zookeeper集群初步安装
今天按照之前《Hadoop2.6.0 + zookeeper集群环境搭建 》一文重新搭建了Hadoop2.7.2+zookeeper的HA,实现namenode挂掉后可以自动切换,总体来说还算比较顺利。搭建完成后一切正常!但是!第二天重新启动集群的时候出现问题:两个namenode有一个始终启动不了!,具体问题描述如下:问题描述HA按照规划配置好,启动后,NameNod