一段让人记忆犹新的故事不能只靠文字堆砌,需要造诣深厚的作家把文字进行加工,加工的不好可能让人看不懂,达不到预期效果。数据也一样,要让他人在最短时间内看清数据背后隐含的逻辑关系和重要信息也需要对数据进行“加工”,文字太啰嗦会让读者失去兴趣,而直接呈现过多数据会让主题变得无法分辨、模糊不清。因此,我们需要将数据用合适的方法进行展示,以此凸显重要的信息,那么如何对数据进行展示呢?
常用的数据展示方法是通过统计图或统计表进行表达。首先,在用统计图表进行展示前需要确定展示什么信息。拿到数据后,对数据进行简单的预处理是必要也是必须的,审核数据正确性、筛选需要的信息而不是对所有数据进行展示,有时需要对数据进行排序或汇总得到重要的展示信息。其次,不同数据类型在展示时要用到不同的统计量,比如分类和顺序数据常用频数、百分比等,而数值型数据有时需要分组统计。最后,对于不同数据类型,通常要用不同的统计图或统计表来展示,一幅有用的统计图表常常会比文字或数据表达更多重要的信息,而误用统计图表有时反而会适得其反。
需要强调的是,一些文章中展示的统计图表可能会扭曲事实,其中有些是无心的,有些却是故意的,统计图表是用来展示数据的,必须呈现数据真实的状况,学习本章内容之后,你看到数据的不同展示形式时请先问一个问题:这副用来展示数据的统计图表会不会让某些人落入陷阱而上当?当然,即使在此时,你也不要苛责统计数据不真实,请你记住:数据不会说谎,但说谎的人会算计你。所以,请格外小心!
数据预处理
拿到数据后不能直接来展示,首先要判断数据是否存在不完整或不准确的情形,然后要考虑是否要用全体数据中的一部分来展示,比如,只需要统计月销售收入低于100万以下的员工,或者只需要展示市场占有率排名前三的企业,又或者我们只对年龄在20岁到40岁之间、每月在某电商平台花费超过10000元以上的群体感兴趣,此时就涉及到数据的预处理问题。数据预处理可以分为四步,即数据审核、数据筛选、数据排序、数据汇总,其中数据审核的目的是保证数据的质量,确定数据分析的总体,而数据筛选、排序和汇总则是为了在全体数据中得到我们想要的部分数据,在此基础上进行展示或后续的分析。
数据审核
数据审核的目的是检查数据中是否有错误。对于调查获得的原始数据应该审核什么呢?第一是完整性审核,主要是检查应该调查的单位或者个体是否存在遗漏,所有的调查项目或者变量是否填写齐全。完整性审核要保证原始数据的完整性。第二是准确性审核,主要是检查数据是否能够真实反映客观实际情况,内容是否符合实际,有没有异常值,数据是否有错误,计算是否正确等。
对于二手数据来讲,即不是直接采取的数据,是从其他地方获得的数据,对于这样的数据应该用适用性和时效性审核。所谓适用性审核就是弄清楚数据来源、数据统计口径和有关的背景资料,以便确定别人的研究是不是适合当前的研究,确定数据是否符合自己分析研究的需要。此外,还需要对数据的时效性进行审核,应尽可能使用最新的统计数据,否则便会失去研究的意义。最后要确认是否有必要对数据做进一步的加工整理。
数据筛选
数据筛选就是当数据中的错误不能予以纠正,或者某些数据不符合调查的要求而又无法弥补时,需要对数据进行筛选。
数据筛选的内容是将某些不符合要求的数据或者有明显错误的数据予以剔除。将符合某种特定条件的数据筛选出来,而不符合特定条件的数据予以剔除。举个例子,比如要找出销售额在1000万到2000万的销售团队;找出考试成绩大于60分并且是统计学院的男生,等等。这就是涉及到数据筛选的过程。
数据排序
数据排序就是按照一定的顺序将数据进行排列,以发现一些明显的特征或趋势,去找到解决问题的线索。排序是有助于对数据进行检查纠错的,以及为重新归类或者分组来提供依据。在某些场合,排序本身就是分析的目的之一,比如想知道收入从高到低的人群是哪些?排序可以借助于计算机完成,比如要找出智能手机市场占有率前三的企业,那么对手机市场占有率的数据从上到下排序,就能得到前三的企业。再比如要确定世界500强企业,也对其营业收入从高到底进行排序,就能得到世界500强的企业。
对于分类数据的排序。如果是字母型的数据,那么排序可以有升序和降序之分,但习惯上用升序;如果是汉字型数据,那么可以按照汉字的首字母的拼音字母排序,也可以按照笔画去排序,其中有笔画多少的升序或降序之分。
数据汇总
我们可以通过透视表的方法来进行数据汇总。利用透视表可以从复杂的数据中汇总 出有用的信息。可以对数据表的重要信息按照使用者的习惯或分析进行汇总或作图。它可以形成一个符合需求的交叉表(列联表)。在利用数据透视时,数据源表中的首行必须有列标题。比如,我们按全校各专业分类汇总每个专业男同学和女同学的频数;再比如,我们可以按照性别和年龄汇总各省市居民的平均消费。

