近邻算法,机器学习实战笔记

k-近邻算法轻巧、直观:给定叁个教练数据集,对新的输入实例,在磨炼多少集中找到与该实例最临近的k个实例,那k个实例的绝大许多属于某些类,就把该输入实例分为那些类。

优点

精度高、对万分值不灵敏、无数据输入假定

可取:精度高、对分外值不灵活、无数据输入假定。

缺点

算算复杂度高、空间复杂度高

缺欠:计算复杂度高、空间复杂度高。

适用数据范围

数值型和标称型
标称型:标称型目的变量的结果只在有限目的聚集取值,如真与假(首要用来分类)
数值型:数值型目的变量能够从可是的数值集合中取值,如0.2300,1111.1111等(首要用来回归)

适用数据范围:数值型和标称型(只在有限目的集中取值,如真与假,常用来分类难题。)。

行事原理

存在八个样本数量集结,也称作陶冶样本集,并且样本集中每一个数据都设有标签,即我们领悟样本聚集每三个数额与所属分类的应和关系。输入未有标签的新数据后,将新数据的各样特征与范本聚焦数据对应的特点实行相比较,然后算法提取样本聚集特征最相似数据(前段时间邻)的分类标签。经常的话,大家只选拔样本数量汇总前k个最相似的多少,那就是k-近邻算法中k的出处,经常是k非常小于20的偏分头。最终,选用k个最相似数据中出现次数最多的分类,作为新数据的归类。

图片 1K-近邻算法

《总计学习方法》中的解释

给定一个教练数据集,对新的输入实例,在陶冶多少汇总找到与该实例最周围的k个实例,那k个实例的好多属于有些类,就把该输入实例分到这几个类。

  • 应用Python导入数据

k-近邻算法的日常流程

1.征集数据:anyway
2.筹算数据:距离计算所供给的数值,最好是结构化的多少格式。
3.解析数额:anyway
4.教练算法:此步骤不适用于k-近邻算法
5.测量试验算法:计算错误率
6.利用算法:首先供给输入样本数量和结构化的输出结果,然后运营k-周围算法判断输入数据分别属于哪个分类,最后动用对计量出的分类施行后续的管理。

对未知连串属性的数量聚集的各样点依次实施以下操作:

1.计量一向种类数据聚焦的点与当前点之间的偏离
2.依照距离递增次序排序
3.抉择与当下相差最小的k个点
4.明确前k个点所在连串出现的频率
5.回去前k个点现身频率最高的品种作为当下点的推测分类

def createDataSet(): ''' 创建带标签的数据集 :return: 返回训练集和标签 ''' # 4*2的特征变量矩阵 group = array([[1.0, 1.1], [1.0, 1.0], [0, 0], [0, 0.1]]) labels = ['A', 'A', 'B', 'B'] return group, labels

实际代码

import numpy as np
import operator
import matplotlib
import matplotlib.pyplot as plt
import os


def create_date_set():
    group = np.array([[1.0, 1.1], [1.0, 1.0], [0, 0], [0, 0.1]])
    labels = ['A', 'A', 'B', 'B']
    return group, labels


'''
:parameter
输入向量:in_x, 输入的训练样本:data_set, 标签向量:labels, 
表示用于选择最近邻居的数目
'''


def classify0(in_x, data_set, labels, k):
    data_set_size = data_set.shape[0]
    # tile(original, (a, b)) 将原来的矩阵行复制倍,列复制a倍
    # 计算欧氏距离
    diff_mat = np.tile(in_x, (data_set_size, 1)) - data_set
    sq_diff_mat = diff_mat ** 2
    # 相加为一个列向量
    sq_distances = sq_diff_mat.sum(axis=1)
    # 开方
    distances = sq_distances ** 0.5
    # 从小到大排列,返回该值在原来值中的索引
    sorted_dist_indices = distances.argsort()
    class_count = {}
    # 计算在邻居中哪一类最多
    for i in range(k):
        votel_label = labels[sorted_dist_indices[i]]
        class_count[votel_label] = class_count.get(votel_label, 0) + 1
    sorted_class_count = sorted(class_count.items(), key=operator.itemgetter(1), reverse=True)  #
    return sorted_class_count[0][0]


# 读取文件,形成数据集和标签
def file2matrix(filename):
    with open(filename, 'r', encoding='UTF-8') as fr:
        lines = fr.readlines()
        number_of_lines = len(lines)
        mat = np.zeros((number_of_lines, 3))
        class_label_vector = []
        index = 0
        for line in lines:
            line = line.strip()
            content = line.split('t')
            mat[index, :] = content[0:3]
            class_label_vector.append(int(content[-1]))
            index += 1
        return mat, class_label_vector


# 归一化特征值
def auto_norm(data_set):
    min_value = data_set.min(0)
    max_value = data_set.max(0)
    ranges = max_value - min_value
    norm_data_set = np.zeros(np.shape(data_set))
    m = data_set.shape[0]
    norm_data_set = data_set - np.tile(min_value, (m, 1))
    norm_data_set = norm_data_set / np.tile(ranges, (m, 1))
    return norm_data_set, ranges, min_value


# 测试
def dating_class_test():
    ho_ratio = 0.2
    dating_data_mat, dating_labels = file2matrix("./MLiA_SourceCode/machinelearninginaction/Ch02"
                                                 "/datingTestSet2.txt")
    nor_mat, ranges, min_vals = auto_norm(dating_data_mat)
    m = nor_mat.shape[0]
    num_test_vecs = int(m * ho_ratio)
    error_count = 0.0
    for i in range(num_test_vecs):
        classifier_result = classify0(nor_mat[i, :], nor_mat[num_test_vecs:m, :],
                                      dating_labels[num_test_vecs:m], 3)
        print("the classifier came back with: %d, the real answer is: %d"
              % (classifier_result, dating_labels[i]))
        if classifier_result != dating_labels[i]:
            error_count += 1
    print("the total error rate is: %f" % (error_count / float(num_test_vecs)))


# 约会网站预测函数
def classify_person():
    result_list = ['not at all', 'in small doses', 'in large doses']
    percent_tats = float(input("percentage of time spent playing video games?"))
    ice_cream = float(input("liters of ice cream consumed per year?"))
    ff_miles = float(input("frequent flier miles earned per year?"))

    dating_data_mat, dating_labels = file2matrix("./MLiA_SourceCode/machinelearninginaction/Ch02"
                                                 "/datingTestSet2.txt")
    nor_mat, ranges, min_vals = auto_norm(dating_data_mat)
    in_arr = np.array([ff_miles, percent_tats, ice_cream])
    classifier_result = classify0((in_arr - min_vals) / ranges, nor_mat, dating_labels, 3)

    print("You will probably like this person: ", result_list[classifier_result - 1])


# 将图片转换为vector
def img2vector(filename):
    vector = np.zeros((1, 1024))
    with open(filename, 'r', ecoding='utf-8') as fp:
        for i in range(32):
            line_str  = fp.readline()
            for j in range(32):
                vector[0, 32 * i * j] = int(line_str[j])

    return vector

品类地址:https://github.com/RJzz/Machine.git

group矩阵包蕴4组数据,向量labels包括了各样数办事处的竹签音信。此处,大家将数分部和定义为类A,将数分部和定义为类B。

至于k值的挑选

1.k值的回降就表示模型完全变复杂,也就是用极大圈子中的锻炼实例进行展望,轻松发生过拟合。
2.k值过大,意味着全部的模子变简单。
3.在使用中,k值平时取三个非常的小的数值,平时使用接力验证法来采用最优的k值。

发表评论

电子邮件地址不会被公开。 必填项已用*标注