1
社会科学方法论
1.10.2.2 二、横向设计的类型

二、横向设计的类型

横向设计非常适合于对某个时间节点事物的分析,主要包括描述性分析和解释性分析。

(一)描述性分析

横向设计非常适合于描述性分析,被广泛运用于市场研究、人口普查和家庭消费调查等研究中。描述性分析通常关注事物的一般性特征及其语境,比如“有多少人”“有什么样的人”等。在市场调查中,描述性分析主要用来分析“哪些人喜爱或使用某种产品”“消费者有什么样的消费行为”等。人口普查是一种典型的描述性横向设计,旨在精确地描述在某个时间节点上的一个国家的人口。比如,该国的人口总数是多少?在性别、年龄、教育水平、居住地等人口统计学特征是什么?家庭消费调查也运用了描述性横向设计。这些调查详细地描述了不同类型家庭、不同收入人群,以及个体消费者的消费模式。

描述性分析主要涉及对“数量”“详细程度”“数据转换”和“要素结构”等基本方面的分析。(1)数量。计量是描述性分析的一个基本方面,目的是要了解有多少人具有某种特征、某个观点、某种行为等。市场调查可以发现有多少人喜欢某种产品,民意测验可以计算出有多少人中意于某位候选人,人口普查能算出全部人口的数量,家庭消费调查可以揭示出有多少人具有某种消费模式。除了简单的计量外,还可以概述分布特征,比如均值、中位数或者众数等集中趋势,以及极差、四分位差、方差和标准差等离散状态。还可以用偏态和峰度来描述分布的其他特征。(2)详细程度。在描述分布状态和特征时,还要考虑描述的详细程度。对年龄、收入和工作时间等连续变量,可以进行分组分析。比如年龄可以分为20以下、20—29、30—39、40—49、50—59、60—69、70—79和80岁以上等多个类别。收入可分成“少于1 000元”“1 001—2 000元”“2 001—3 000元”“3 001—4 000元”“4 001—5 000元”“5 001以上”等多个类别。根据李凯尔特量表可将定序态度变量分成“非常同意”“同意”“没意见”“不同意”“非常不同意”五组。也可以根据需要只分为“同意”“没意见”和“不同意”三组,如果只关注同意的情况,就只需要简单地分成“同意”和“其他”两大类即可。当然,究竟要达到何种详细程度,还要视样本量、类别人数、分析方法以及分析重点等其他因素而定。(3)数据转换。描述性分析需要有适当的数据分析形式,有时需要通过数据转换来实现数据标准化。变量标准化是指用变量的实际观察值减去典型值(平均数或中位数),再用这个差除以变异值(用平均数会得到标准差,用中位数会得到四分位差或其他值)。数据标准化有助于描述个体观察值相对于分布中的其他值的情况,从而消除跨国家、跨时间以及跨测量单位的差异,如把苹果和橘子放在一块进行比较。比如,收入的标准化可以用个人收入与平均收入的差距,用高于或低于均值的标准差来表示。将一段时间内不同国家的男女收入标准化,我们就可以计算出任何国家或任何年份男女平均标准收入,可以比较不同国家男女的相对位置,而不用去担心通货膨胀以及货币间差异。(4)要素结构。描述性分析还要确定把哪些变量放在一起。要素分析(或称为因子分析和因素分析)常被用来确定人们态度、行为等抽象概念的结构或维度,即人们对问题的回答是否具有某种潜在结构。例如,在确定人们的工作期望结构时,涉及与工作有关的一些元素:①工资待遇,②主动性,③责任心,④成就感,⑤压力,⑥假期,⑦工作时间等。通过要素分析可以找出某些潜在结构或维度,比如有些人可能会关注主动性、责任心和成就感等本质特征,而另一些人则关注工资待遇、假期、压力和工作时间等外在特征。

(二)解释性分析

横向设计的解释性分析涉及组间比较或相关分析,包括统计控制原理、多元统计控制和多元变量分析等内容。

(1)统计控制原理。横向设计的统计控制原理就是比较基于既有差异(自变量)形成的组,然后,再比较这些组内的观察值(因变量)。实验设计通常通过随机分组来获得组间的可比性,而横向设计需要通过“匹配”来寻求可比性。但是,由于我们依赖于既有的差异,而且所有数据都在同一时间节点上收集,所以应当在数据收集后的数据分析阶段进行“匹配”。这种匹配通常有一定局限,而且缺乏足够的方法进行随机分配进而使组间具有可比性。我们只能依据既有信息对变量进行匹配。这意味着我们必须预测拟匹配组的变量是什么,而我们的预测常常都不够准确。例如,如果要分析性别对收入的影响,我们就需要比较每周工作时间相同的男女,而不应该把兼职女性与全职男性进行比较。如果在控制了工作时间后,男女收入差异依然存在,我们就可以确定收入差异不是由男女工作时间差异引起的。我们还可以控制职业变量,将从事专业工作的男性和从事专业工作的女性相比较,或将男公务员与女公务员相比较等。如果相同职业的男女存在着收入差异,我们就可以断定男女收入差异不是由工作类型的差异造成的。

(2)多元统计控制。当我们一次性控制多个变量,比较组的相似性会更大。例如,如果假想男女的收入差异是由工作时间、职业类型、工作经验和教育背景等多个因素决定的,那么就可以按这些因素把样本分成多个比较组,其中一组女性有中等学历、14年工作经验、从事外贸工作、全职,也有在上述4方面与之类似的一组男性。这样就可以进行更多类似配对组的比较。如果其他条件相同,仍然存在男女收入差异,那么就可以推断,性别对收入差异有影响。如果在控制了一系列变量以后,没有发现收入的性别差异,那么就可以断定,最初的收入差异是由控制变量引起的,或者说,控制变量解释了最初的差异。当然,由于我们不可能控制每个可能的变量,所以总是存在着这样的可能性,即任何与性别有关的收入差异都可以归结为那些未控制变量的作用。

(3)多变量分析。多变量分析主要有详析分析、偏相关分析、多元回归、路径分析和对数线性分析等。多变量分析的主要特点是,它可以同时控制多个变量,提供令人信服的解释。比如,我们可以控制一组变量的混合影响,从中找出自变量的“净”影响。一次控制的变量越多,对不同组的比较就越有效,就越能断定自变量的影响源自某个变量而不是其他变量的混合影响。值得注意的是,多变量分析技术还可以通过同时控制一组变量,来检测一组自变量中每一个变量的单独影响。性别、教育水平和工作时间同时对收入有影响,多变量分析能够区分出性别、教育水平和工作时间等每个变量的单独影响,并确定每个变量在每组自变量中的相对重要性。此外,多变量分析技术还可以用来检测单个变量的影响,帮助确立因果过程,评估模型与数据的拟合程度。