多重回归分析包括了多个变量,多个变量之间往往存在关系,因此在应用多重回归分析进行预测时,自变量纳入回归方程式的组合有不同的方式。另外,在多重线性回归方程中,有些自变量的偏回归系数显著,也有些自变量的偏回归系数不显著。这意味着凭经验选取的自变量中有的在回归方程中作用显著,有的却无足轻重,而最优的回归方程,应该方程显著且每个自变量的偏回归系数都显著。因此,为了建立最优的回归方程,需要对自变量进行选择,作用不显著的自变量不必进入回归方程。一般选择自变量,建立最优回归方程的方法有如下几种。
(一)最优方程选择法
(二)同时多重回归法
同时多重回归法(simultaneous multiple regression)是将所有的预测变量同时纳入回归方程中估计因变量。此时,整个回归分析仅保留一个包括全体预测变量的回归方程式。同时回归分析法又区分为强制进入法和强制淘汰法两种。
强制进入法是在某一显著水平下,不考虑预测变量间的关系,把对因变量具有解释力的所有预测变量纳入回归方程式,计算所有变量的回归系数。
强制淘汰法的原理与强迫进入法相反,是在某一显著水平下,不考虑预测变量间的关系,将对因变量没有解释力的所有预测变量,一次性全部排除在回归方程式之外,再计算保留在回归方程式中的所有预测变量的回归系数。
(三)逐步多重回归法
逐步多重回归法(stepwise multiple regression)是依据预测变量解释力的大小,逐步检查每一个预测变量对因变量的影响。它不像同时回归分析法那样,同时用所有预测变量来进行预测。根据预测变量的选取顺序,逐步回归分析法又分为向前法(forward)、向后法(backward)和逐步法(stepwise)三种。
向前法又称为顺向进入法。这种方法在选取预测变量时,依照自变量对因变量预测力的大小,由大到小,优先选用具有最大预测力且具有统计学意义的自变量(其偏回归平方和最大),然后依序将自变量逐个纳入方程式中,直到方程式外所有具有统计学意义的预测变量全部被纳入到回归方程式中为止。这种方法计算量较小,但一次只能引入一个变量。
向后法又称为反向淘汰法。它与向前回归法的程序相反。先按照同时回归分析法方式,把所有预测变量纳入回归方程式中运算,然后将没有达到统计学意义的预测变量,以最弱、次弱的顺序从方程式中逐个予以剔除(偏回归平方和最小),直到不具有统计学意义的所有预测变量全部被剔除为止。
逐步法是向前回归法与向后回归法的综合运用。先按自变量对因变量预测力的大小,引入一个或全部预测变量进入回归方程。每引入一个预测变量后,即利用向后回归法检验方程式中所有预测变量(包括刚引入的那个)的作用是否具有统计学意义,若检验结果表明一些预测变量的作用不具有统计学意义时,就将其剔除(因为引入新的自变量后,原来方程中作用显著的自变量有可能变成不显著)。每剔除一个自变量后,对留在方程式中的自变量的统计学意义要再作检验,若发现又有自变量不具有统计学意义时接着再剔除之。这样交叉循环,逐个引进或剔除,直到保留在方程式内的预测变量全部具有统计学意义,方程式外的预测变量不具有统计学意义为止。这种方法引入变量后立即考虑是否要剔除,剔除变量后立即考虑是否要引入,交替使用了向前回归法与向后回归法,兼具二者的优点,一般来说,求得的回归方程最优。
(四)层次多重回归法
在一般研究中,预测变量之间可能具有特定的先后关系,需要依照研究者的设计,以特定的顺序进行分析。例如,以性别、社会经济地位、自尊、焦虑感与努力程度来预测学业表现时。性别与社会经济地位两个变量在概念上属于人口统计学变量,不受任何其他预测变量的影响,而自尊与焦虑感两个变量为情意变量,彼此之间可能具有高度相关,也可能受到其他变量的影响,因此四个预测变量可以被区分为两个阶段,先将人口变量用强迫进入法进行回归分析,计算回归系数,其次再将情意变量以逐步分析法计算自尊、焦虑感各自的预测力,完成对因变量的回归分析,这种方法称为层次多重回归法(hierarchical multiple regression)。这种回归分析,多运用在当研究者有一个明确的理论依据,得以将多个预测变量进行事先的分割排序之时。
以上这些方法都是在做多重回归分析时逐步筛选变量的方法。比较而言,同时法可以从整体效果模式中看到所有自变量的效果,能够考虑与呈现每一个自变量的解释力。向前法和向后法可以找到最有预测力的变量,同时也可以避免共线性的影响,适合做探索性的研究使用。逐步法适合用于预测性研究,协助建立最佳预测模型。层次分析法则以一定的理论为先导。