从海量数据中找出最小的k个数
从大量(海量)数据中查找最小的k(k一般比较小)个数,这是笔试中常考的题目。 如果是从少量数据中查找最小的k个数据,并且允许修改允许修改原始数据,侧利用Partition()函数,在O(N)的时间复杂度,O(1)的空间复杂度就可以找到最小的k个数据。 从大量数据中查找最小的k个数,我们可以利用一个容器先存储前k个数据,然后从数据中读取下一个数,判断该数是与容器中最大的数的大小,如果该数较
·
从大量(海量)数据中查找最小的k(k一般比较小)个数,这是笔试中常考的题目。 如果是从少量数据中查找最小的k个数据,并且允许修改允许修改原始数据,侧利用Partition()函数,在O(N)的时间复杂度,O(1)的空间复杂度就可以找到最小的k个数据。
从大量数据中查找最小的k个数,我们可以利用一个容器先存储前k个数据,然后从数据中读取下一个数,判断该数是与容器中最大的数的大小,如果该数较大或相等,侧读取下一个数,如果该数比容器中最大数小,侧删除容器中该最大数,将该数放入容器中,然后读取下一个数...
从容器中选择最大的数,可以知道该容器应该是大根堆,或二叉排序树,红黑树。下面是以multiset为容器实现该算法。
#include "stdafx.h"
#include <iostream>
#include <vector>
#include <set>
#include <ctime>
using namespace std;
typedef multiset<int,greater<int>> Set;
typedef multiset<int,greater<int>>::const_iterator Set_iterator;
void getLeastNumbers(const vector<int> & numbers,Set & leastNumbers,int k)
{
leastNumbers.clear();
if(k<=0 || numbers.size()<k)
return ;
for(vector<int>::const_iterator ite=numbers.begin();ite!=numbers.end();ite++)
{
if(leastNumbers.size()<k)
{
leastNumbers.insert(*ite);
}
else
{
Set_iterator IteratorFirst=leastNumbers.begin();//最大的元素
if(*ite<*IteratorFirst)
{
leastNumbers.erase(IteratorFirst);
leastNumbers.insert(*ite);
}
}
}
}
int _tmain(int argc, _TCHAR* argv[])
{
//int a[]={4,5,1,6,2,7,3,8};
//int length=sizeof(a)/sizeof(int);
//vector<int> numbers(a,a+length-1);
srand((unsigned)time(0));
vector<int> numbers;
for(int i=0;i<100000;i++)
numbers.push_back(rand());
for(vector<int>::iterator ite=numbers.begin();ite!=numbers.end();ite++)
cout<<*ite<<" ";
cout<<endl;
Set leastNumbers;
int k=4;
getLeastNumbers(numbers,leastNumbers,k);
for(Set_iterator ite=leastNumbers.begin();ite!=leastNumbers.end();ite++)
{
cout<<*ite<<" ";
}
system("PAUSE");
return 0;
}
该算法的时间复杂度为:NlogK,空间复杂度为O(k)。我们不需要一次性将数据全部放入内存,只需从硬盘一次读一个数据到内存即可,但是内存必须够容纳容器(multiset)中的K个数。
更多推荐
已为社区贡献1条内容
所有评论(0)