K-邻近算法

【采用测量不同特征值之间的距离来进行分类】

  • 优点:精度高、对异常值不敏感、无数据输入假定

  • 缺点:计算复杂度高,空间复杂度高

  • 适应数据范围:数值型、标称型


KNN简介

原理

  • 简述:采用测量不同特征值之间的距离来进行分类。一种泛用于机器学习的监督学习方法,所输入的样本数据集合(也称为训练集、样本集)中每个数据都存在标签,且每条数据与所属的种类相互对应
  • 核心思想:如果一个待分类样本在特征空间中的k个最相似**(即特征空间中K近邻)**的样本中的大多数属于某一个类别,则该样本也属于这个类别
  • K值:邻居的数量,是应该提前给出来的,