3.4 数据准备主要步骤
上一节
下一节
机器学习:
•为了测试机器学习算法的效果,通常使用两套独立的样本集:训练数据和测试数据。
•当机器学习程序开始运行时,使用训练样本集作为算法的输入,训练完成之后输入测试样本。输入测试样本时并不提供测试样本的目标变量,由程序决定样本属于哪个类别。
•比较测试样本预测的目标变量值与实际样本类别之间的差别,就可以得出算法的实际精确度。
数据挖掘:
• 1. 将实例数据划分到合适的分类中。
• 2. 回归,主要用户预测数值型数据。 数据拟合曲线: 通过给定数据点的最优拟合曲线。分类和回归属于监督学习; 监督学习就是:这类算法必须知道预测什么? 即目标变量的分类信息。 •
3. 无监督学习:数据没有类别信息,也不会给定目标值。将数据集合分成由类似的对象组成的多个类的过程称作聚类。 将寻找描述数据统计值得过程称之为密度估计。

