课前指导
上一节
下一节
与前次所讲授的“监督学习”内容不同,在这一讲中,大家将学习如何从没有标签的数据中挖掘数据所蕴含模式,进行预测、识别和分类等任务。
“皮之不存,毛将焉附”。在无监督学习中,虽然数据本身没有标注信息,但是由于数据是内容(如概念和语义等)的载体,因此刻画相同内容的数据这一载体必然具有相似模式。从这个意义上而言,从无标注数据中挖掘其固有模式,就成为无监督学习要解决的主要问题。
无标注数据的概率分布就是数据的固有模式,其使得数据实现“物以类聚,人以群分”的归属。就好比疾病病毒携带者虽在确诊前尚未打上患病标签,但是其会从不同侧面表现出若干症状。“有心无相,相由心生;有相无心,相由心灭。”因此,需要我们通过观察客观事物重要属性而洞悉其内在秉性,而不是被逐一告知每个客观事物的概念名称而学习。
作为无监督学习的代表,主成分分析和特征人脸(Eigenface)在没有标签的数据帮助下,实现了原始高维数据“化繁为简”式的紧凑表达(特征降维),如用人脸(特征人脸)来表示人脸、而不是用像素点来表示人脸。

