logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

面试题 从很长的数据流等概率随机采样 蓄水池抽样 Reservoir Sampling

题目:有一个网页抓取器每秒钟抓取一个网页,定义一个API,每次调用的时候要等概率的从目前已经抓取的网页中随机选取一个,应该怎么实现?分析:这题题目定义有一定迷惑性,最直接的思路貌似应该是先保存当前采集到的所有网页,然后随机采样,这显然不是这题的考点。这题想只用O(1)的空间。其实就等价于有一个很长的数据流,数据量大到无法载入内存,怎么做随机等概率采样?容易想到的思路是产生一个0到1之间的随机数,然

WEKA使用教程(经典教程转载)

WEKA使用教程目录1. 简介2. 数据格式3.数据准备4. 关联规则(购物篮分析)5. 分类与回归6. 聚类分析1. 简介WEKA的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),它的源代码可通过http://www.cs.waikato.ac.nz/ml/weka得到。同时weka也

#算法#数据挖掘
SVM算法入门

课程文本分类project SVM算法入门转自:http://www.blogjava.net/zhenandaci/category/31868.html(一)SVM的简介支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中[10]。

#算法
数据挖掘—概念学习Candidate-Elimination算法的C++实现

Candidate-Elimination算法是数据挖掘中的一种概念学习算法,部分解决Find-S的不足,可以输出所有与训练样本一致的概念,同时利用概念间偏序关系来指导搜索,其伪代码描述如下Initialize Gto the set of most-general hypotheses in HInitialize Sto the set of most-specific hypoth...

数据挖掘—概念学习Candidate-Elimination算法的C++实现

Candidate-Elimination算法是数据挖掘中的一种概念学习算法,部分解决Find-S的不足,可以输出所有与训练样本一致的概念,同时利用概念间偏序关系来指导搜索,其伪代码描述如下Initialize Gto the set of most-general hypotheses in HInitialize Sto the set of most-specific hypoth

#算法#数据挖掘#c++ +1
数据挖掘—概念空间挖掘FindS算法的C++实现

该算法是概念空间挖掘最简单的算法,只考虑了正实例,不断做泛化,实际上求得了一个最特化边界概念挖掘需求C++实现#include <iostream>#include <string>using namespace std;#define MAXTRAIN 4#define MAXLEN 7int main(){int i, j;str...

数据挖掘-基于贝叶斯算法及KNN算法的newsgroup18828文档分类器的JAVA实现(上)

本文主要描述基于贝叶斯算法及KNN算法的newsgroup18828文档分类器的设计及实现,包括数据预处理、贝叶斯算法及KNN算法实现。本分类器的完整工程可以到点击打开链接下载,详细说明的运行方法,用eclipse可以运行,学习数据挖掘的朋友可以跑一下,有问题可以联系我,欢迎交流:)。本文主要内容如下:对newsgroup文档集进行预处理,提取出30095 个特征词计算每篇文档中的特征词的...

#人工智能#java#开发工具
数据挖掘-基于贝叶斯算法及KNN算法的newsgroup18828文档分类器的JAVA实现(下)

本文接数据挖掘-基于贝叶斯算法及KNN算法的newsgroup18828文档分类器的JAVA实现(上)本分类器的完整工程可以到点击打开链接下载,详细说明的运行方法,用eclipse可以运行,学习数据挖掘的朋友可以跑一下,有问题可以联系我,欢迎交流:)上文中描述了newsgroup18828文档集的预处理及贝叶斯算法的JAVA实现,下面我们来看看如何实现基于KNN算法的newsgroup文本分类..

#人工智能#java#开发工具
数据挖掘—概念空间挖掘FindS算法的C++实现

该算法是概念空间挖掘最简单的算法,只考虑了正实例,不断做泛化,实际上求得了一个最特化边界概念挖掘需求C++实现#include#includeusing namespace std;#define MAXTRAIN 4#define MAXLEN 7int main(){int i, j;string state[MAXTRAIN][MAXLEN];

#算法#数据挖掘#c++ +1
SQL游标的基本用法

CREATEPROCEDURE[dbo].[pro_CURSOR]ASBEGIN--声明一个游标DECLAREMyCURSORCURSORFORSELECTuserid,depidFROMusers--打开游标openMyCURSOR--声明两个变量declare@useridvarchar(50)declare@depidvarchar(50)--循环移动fetchnextfromMyCURSO

    共 18 条
  • 1
  • 2
  • 请选择