使用KNN算法改进约会网站的配对效果

#!/usr/bin/python#coding:utf-8import numpy as npimport operatorimport matplotlibimport matplotlib.pyplot as plt'''KNN算法1. 计算已知类别数据集中的每个点依次执行与当前点的距离。2. 按照距离递增排序。3. 选取与当前点距离最小的k个点4. 确定前k个点所

zhujianing^_^

601人浏览 · 2017-06-29 15:21:22

zhujianing^_^ · 2017-06-29 15:21:22 发布

#!/usr/bin/python
#coding:utf-8

import numpy as np
import operator
import matplotlib
import matplotlib.pyplot as plt

'''
KNN算法
1. 计算已知类别数据集中的每个点依次执行与当前点的距离。
2. 按照距离递增排序。
3. 选取与当前点距离最小的k个点
4. 确定前k个点所在类别的出现频率
5. 返回前k个点出现频率最高的类别作为当前点的预测分类
'''

'''
inX为要分类的向量
dataSet为训练样本
labels为标签向量
k为最近邻的个数
'''
def classify0(inX , dataSet , labels , k):
    dataSetSize = dataSet.shape[0]#dataSetSize为训练样本的个数
    diffMat = np.tile(inX , (dataSetSize , 1)) - dataSet#将inX扩展为dataSetSize行，1列
    sqDiffMat = diffMat**2
    sqDistances = sqDiffMat.sum(axis=1)
    distances = sqDistances**0.5
    sortedDistIndicies = distances.argsort()#返回的是元素从小到大排序后，该元素原来的索引值的序列
    classCount = {}
    for i in range(k):
        voteIlabel = labels[sortedDistIndicies[i]]#voteIlabel为类别
        classCount[voteIlabel] = classCount.get(voteIlabel,0)+1#如果之前这个voteIlabel是有的，那么就返回字典里这个voteIlabel里的值，如果没有就返回0
    sortedClassCount = sorted(classCount.iteritems(),key=operator.itemgetter(1),reverse=True)#key=operator.itemgetter(1)的意思是按照字典里的第一个排序，{A:1,B:2},要按照第1个（AB是第0个），即‘1’‘2’排序。reverse=True是降序排序
    print sortedClassCount
    return sortedClassCount[0][0]

'''
读取文件
'''

def file2matrix(filename):
    fr = open(filename)
    arrayOLines = fr.readlines()
    numberOfLines = len(arrayOLines)
    returnMat = np.zeros((numberOfLines,3))
    classLabelVector = []
    index = 0
    for line in arrayOLines:
        line = line.strip()
        listFromLine = line.split('\t')
        returnMat[index,:] = listFromLine[0:3]
        classLabelVector.append(int(listFromLine[-1]))
        index+=1
    return  returnMat , classLabelVector


'''
数值归一化
'''

def autoNorm(dataSet):
    minVals = dataSet.min(0)#0代表在列上取最小值
    maxVals = dataSet.max(0)
    ranges = maxVals - minVals
    normDataSet = np.zeros(np.shape(dataSet))
    m = dataSet.shape[0]
    normDataSet = dataSet - np.tile(minVals,(m,1))
    normDataSet = normDataSet/np.tile(ranges,(m,1))

    return normDataSet , ranges, minVals

'''
测试分类器的正确率
'''
def dataingClassTest():
    hoRaio  = 0.15
    datingDataMat, datingLabels = file2matrix("/Users/mac/Downloads/machinelearninginaction/Ch02/datingTestSet2.txt")
    normMat , ranges , minVals = autoNorm(datingDataMat)
    m  = normMat.shape[0]
    numTestVecs = int(m*hoRaio)#为要测试的向量的个数
    errorCount = 0.0
    for i in range(numTestVecs):
        classifierResult = classify0(normMat[i,:],normMat[numTestVecs:m,:],datingLabels[numTestVecs:m],10)
        print "the classifier came bank with : %d , the real answer id :%d "% (classifierResult , datingLabels[i])
        if(classifierResult != datingLabels[i]) :
            errorCount+=1
    print " the total error rate  is : %f" % (errorCount/(numTestVecs))

dataingClassTest()

'''
该表k的值，看错误率是否下降
'''

CSDN学习社区

CSDN联合极客时间，共同打造面向开发者的精品内容学习社区，助力成长！

更多推荐