1.聚类分析概述
目前为止,我们了解了回归和分类。他们都属于监督式机器学习。在监督式机器学习中,你训练一个算法,通过它从已知的变量来预测未知的变量。
另外一种主要的机器学习方式被叫做非监督式学习。在非监督式学习中,我们并不尝试预测任何变量。取而代之,在数据中找到一种模式。
一个非常重要的非监督式学习技术叫做聚类。当我们尝试探索一个数据集时,并且准备去理解变量的行与列之间的联系时,我们使用聚类。例如,我们可以基于NBA球员的统计资料,来聚集他们。
这里是他们的聚类分布图:
这个分类组制作出之后,你将很容易发现球员的角色,否则,你很难弄清楚。是一个描述分类组怎样被创建出来的文章。
聚类算法组类似在一起的行。他们在数据中可以是一个或多个一组,并且这些组来自于聚类。当我们看这个分类组,我们可以更好的理解数据的结构。
聚类是探索未知数据的钥匙,它是机器学习中普遍用法。在这个任务中,我们将会研究US国会议员选票的聚类问题。