logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大数据 应用场景

http://www.36dsj.com/archives/7573大数据:实际使用案例 让Hadoop和其他大数据技术如此引人注目的部分原因是,他们让企业找到问题的答案,而在此之前他们甚至不知道问题是什么。这可能会产生引出新产品的想法,或者帮助确定改善运营效率的方法。不过,也有一些已经明确的大数据用例,无论是互联网巨头如谷歌,Facebook和LinkedIn还是更多的传统企

RapidMiner数据挖掘入门之一:概要

1 简介RapidMiner原名Yale,它是用于数据挖掘、机器学习、商业预测分析的开源计算环境。根据KDnuggets在2011年的一次投票显示,从使用率来看该软件比之R语言还要略胜一筹。因为其具备GUI特性,所以很适合于数据挖掘的初学者入门。RapidMiner提供的数据挖掘和机器学习程序包括:数据加载和转换(ETL),数据预处理和可视化,建模,评估和部署。数据挖掘的流程是以XML

1、spark-数据倾斜问题

数据倾斜调优, 使用各种技术方案解决不同类型的数据倾斜问题,以保证spark作业的性能。现象:绝大多数task执行都非常块,但是个别task执行极慢,比如总共有1000个task,997task都在1分钟内执行完成,但是剩下两三个task 需要一两个小时。spark oom数据倾斜发生的原理数据倾斜的原理很简单:在进行shuffle的时候,必须将各个节点上相同的key拉取到某...

4、数据仓库——五层模型架构

1. ODS 数据准备层. (ods_v8sp.event_log)2. DWD 数据明细层.(dwd_v8sp.event_column_info_hour)3. DWB数据汇总层.(dwb_v8sp.event_column_info_new_hour)4. ST 数据应用层功能:ST层面向用户应用和分析需求,包括前端报表、分析图表、KPI、仪表盘、OLAP、专题等分析,...

数据挖掘十大经典算法

算法数据挖掘classificationalgorithmgooglevector国际权威的学术组织the IEEE International Conference on Data Mining (ICDM) 2006年12月评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive

RapidMiner数据挖掘入门之一:概要

1 简介RapidMiner原名Yale,它是用于数据挖掘、机器学习、商业预测分析的开源计算环境。根据KDnuggets在2011年的一次投票显示,从使用率来看该软件比之R语言还要略胜一筹。因为其具备GUI特性,所以很适合于数据挖掘的初学者入门。RapidMiner提供的数据挖掘和机器学习程序包括:数据加载和转换(ETL),数据预处理和可视化,建模,评估和部署。数据挖掘的流程是以XML

用 WEKA 进行数据挖掘

什么是 数据挖掘?您会不时地问自己这个问题,因为这个主题越来越得到技术界的关注。您可能听说过像 Google 和 Yahoo! 这样的公司都在生成有关其所有用户的数十亿的数据点,您不禁疑惑,“它们要所有这些信息干什么?”您可能还会惊奇地发现 Walmart 是最为先进的进行数据挖掘并将结果应用于业务的公司之一。现在世界上几乎所有的公司都在使用数据挖掘,并且目前尚未使用数据挖掘的公司在不久的将来就会

RapidMiner适合于数据挖掘的初学者

本帖最后由 Nicolle 于 2014-12-21 09:02 编辑1. 简介RapidMiner原名Yale,它是用于数据挖掘、机器学习、商业预测分析的开源计算环境。根据KDnuggets在2011年的一次投票显示,从使用率来看该软件比之R语言还要略胜一筹。因为其具备GUI特性,所以很适合于数据挖掘的初学者入门。RapidMiner提供的数据挖掘和机器学习程序包括:数据加载

数据挖掘算法与现实生活中的应用案例

相对于武汉,北京的秋来的真是早,九月初的傍晚,就能够感觉到丝丝丝丝丝丝的凉意。最近两件事挺有感觉的。看某发布会,设计师李剑叶的话挺让人感动的。“**的设计是内敛和克制的…。希望设计成为一种,可以被忽略的存在感”。其次,有感于不断跳Tone的妇科圣手,冯唐,“有追求、敢放弃”是他的标签。“如何分辨出垃圾邮件”、“如何判断一笔交易是否属于欺诈”、“如何判断红酒的品质和档次”、“扫描王是

数据挖掘十大经典算法(详解)

数据挖掘算法,不是我的强项,对数学,对逻辑有太多的要求了。比较不适合我。 数据挖掘十大经典算法 一、 C4.5 C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3 算法.   C4.5算法继承了ID3算法的优点,并在以下几方面对ID3算法进行了改进: 1) 用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足; 2) 在树构造过

    共 27 条
  • 1
  • 2
  • 3
  • 请选择