数据的预处理是数据整理的先前步骤,是在对数据分类或分组之前所做的必要处理,包括数据的审核、筛选、排序等。
1.数据的审核
对于通过直接调查取得的原始数据,应主要从完整性和准确性两个方面去审核。完整性审核主要是检查应调查的单位或个体是否有遗漏,所有的调查项目或指标是否填写齐全等。准确性审核主要包括两个方面:一是检查数据资料是否真实地反映了客观实际情况,内容是否符合实际;二是检查数据是否有错误,计算是否正确等。
对于通过其他渠道取得的第二手数据,除了对其完整性和准确性进行审核外,还应首重审核数据的适用性和时效性。
2.数据的筛选
找出符合条件的数据。对审核过程中发现的错误应尽可能予以纠正。调查结束后,当数据中发现的错误不能予以纠正,或者有些数据不符合调查的要求而又无法弥补时,就需要对数据进行筛选。数据筛选包括两方面内容:一是将某些不符合要求的数据或有明显错误的数据予以剔除;二是将符合某种特定条件的数据筛选出来,对不符合特定条件的数据予以剔除。数据的筛选在市场调查中是十分重要的。
3.数据排序
数据排序是按一定顺序将数据排列,以便于研究者通过游览数据发现一些明显的特征或趋势,找到解决问题的线索。除此之外,排序还有助于对数据检查纠错,为重新归类或分组等提供依据。
升序和降序;寻找数据的基本特征;分类数据的排序
字母型数据,排序有升序降序之分,但习惯上用升序
汉字型数据,可按汉字的首位拼音字母排列,也可按笔画排序,其中也有笔画多少的升序降序之分
数值型数据的排序
递增排序:设一组数据为x1,x2,…,xn,递增排序后可表示为:x(1)<x(2)<…<x(n)
递减排序:可表示为:x(1)>x(2)>…>x(n)
1.数据审核
检查数据中是否存在错误。
2.数据筛选
根据需要找出符合条件的数据。
3.数据排序
按一定顺序将数据排列,以便于研究者通过游览数据发现一些明显的特征或趋势,找到解决问题的线索。
操作练习一
例3.1(1)是8名学生4门课程的考试成绩数据(单位:分)。 试找出统计学成绩等于75分的学生,英语成绩最高的前三名学生, 四门课程成绩都大于70分的学生。
用 Excel 进行数据筛选的操作步骤
1.筛选出考试分数大于等于75的学生
第1步:将光标放在数据区域的任意单元格。然后点击【数据】【筛选】。这时绘在每个变量名中出现下拉箭头。
第2步:点击要筛选的变量的下拉箭头即可对该变量进行筛选。比如,要筛选出统计学成绩为75分的学生,点击统计学成绩变量的下拉箭头,在【数字筛选】下选择【等于】,并在其后面的方框内选择(或写入)75,得到结果。
2.筛选出英语成绩最高的前三名学生
点击英语成绩变量的下拉箭头,在【数字筛选】下选择【前10项】,并在对话框中的【最大】后输入数据3
3.筛选出四门课程成绩都大于70分的学生
由于设定的条件比较多,需要使用【高级筛选】命令。使用高级筛选时,必须建立条件区域。这时需要在数据清单上面至少留出三行作为条件区域。然后选择【数据】→【高级】。在【列表区域】输入要筛选的数据区域;在【条件区域】输入条件区域。点击【确定】
操作练习二
在某大学随机抽取30名学生,调查他们的性别、家庭所在地、 平均每月生活费支出、平均每月购买衣物支出和购买衣物时所考虑的首要因素等,得到的数据如下:
试建立一个数据透视表,在表的行变量中给出性别和买衣物首选因素,在列变量中给出学生的家庭所在地区,对平均月生活费进行交叉汇总。
用 Excel 创建数据透视表的操作步骤
第1步:选择【插入】→【数据透视表】。
第2步:在【表/区域】框内选定数据区域(在操作前将光标放在任意数据单元格内,系统会自动选定数据区域)。选择放置数据透视表的位置。系统默认是新工作表,如果要将透视表放在现有工作表中,则选择【现有工作表】,并在【位置】框内点击工作表的任意单元格(不要覆盖数据)。点击【确定】。第3步:用鼠标右键单击数据透视表,选择【数据透视表选项】,在弹出的对话框中点击【显示】,并选中【经典数据透视表布局】,然后点击【确定】。
第4步:将数据透视的一个字段拖至“行”的位置,将另一个字段拖至“列”的位置(行列可以互换),再将要计数的变量拖至“值字段”的位置,即可生成需要的频数分布表。
同学可自行录制视频