任务描述
本关任务:补充 python 代码,完成 kNNClassifier 类中的 fit 函数与 predict 函数。实现 kNN 算法的训练与预测功能。
相关知识
为了完成本关任务,你需要掌握 kNN 算法的算法流程。
kNN 算法的算法流程
kNN 算法其实是众多机器学习算法中最简单的一种,因为该算法的思想完全可以用 8 个字来概括:“近朱者赤,近墨者黑”。
假设现在有这样的一个样本空间,该样本空间里有宅男和文艺青年这两个类别,其中红圈表示宅男,绿圈表示文艺青年。如下图所示:
其实构建出这样的样本空间的过程就是 kNN 算法的训练过程。可想而知 kNN 算法是没有训练过程的,所以 kNN 算法属于懒惰学习算法。
假设我在这个样本空间中用黄圈表示,如下图所示:
现在使用 kNN 算法来鉴别一下我是宅男还是文艺青年。首先需要计算我与样本空间中所有样本的距离。假设计算得到的距离表格如下:
样本编号 1 2 … 13 14
标签 宅男 宅男 … 文艺青年 文艺青年
距离 11.2 9.5 … 23.3 37.6
然后找出与我距离最小的 k 个样本(k 是一个超参数,需要自己设置,一般默认为 5),假设与我离得最近的 5 个样本的标签和距离如下:
样本编号 4 5 6 7 8
标签 宅男 宅男 宅男 宅男 文艺青年
距离 11.2 9.5 7.7 5.8 15.2
最后只需要对这 5 个样本的标签进行统计,并将票数最多的标签作为预测结果即可。如上表中,宅男是 4 票,文艺青年是 1 票,所以我是宅男。
注意