多侧面拉希模型

2024-01-27

    多侧面拉希模型 :

J.M.历纳克雷在两面拉希模型考察被试和项目因素的基础上,引入了测验情景中典型的变量。这些变量或因素统称为侧面,因而该模型被称作多侧面拉希模型。

多侧面拉希模型是拉希模型的延伸与拓广。拉希模型的一般表达式为:

式中为第道题目的难度;为被试的能力;为被试答对题目的概率。对这一公式进行数学转换,可以得到:

使用这个模型,可以同时估算项目的难度和被试的能力值。因此,它是一个双面模型。

对于多级评分,拉希模型可以拓展为:

是分部评分模型中(Partial Credit Model)考生得分从等到的等级难度(step difficulty),每个项目均为h级评分。

是被试在项目上评定为等的概率。

进一步考虑不同评分者具有不同的评分严厉度,上述模型又可以拓展如下:

是被试在项目上被评分者评定为等的概率。

是被试的能力参数。

是项目的难度参数。

是评分者的宽严程度。

使用该模型,被试的能力值、项目难度和评分者的严厉度能同时得到估计,它是一个三面拉希模型,是多面拉希模型的一个典型示例。当然,多侧面拉希模型指的并不只是上面公式所定义的一个模型,而是包括用于各种测量情景的一类模型:涉及各种侧面,如被试、标准、评分者、项目、任务、访谈者和性别等交互侧面;涉及不同评分模型,如评定量表模型或分部评分模型。

由于多侧面拉希模型可以表示对数线性模型,理论上它可由标准的对数线性模型软件进行参数估计。但多侧面拉希模型通常有成百上千甚至更多参数,对数线性模型软件难以处理。且多侧面拉希模型分析的数据往往来自于不完全实验设计,有的侧面组合下的观察数据缺失,对于这样的缺失数据,对数线性模型软件不太好处理。因此,通常采用高斯最小二乘法(Gaussian Least-Squares)、成对似然估计方法、联合极大似然估计方法(Joint Maximum Likelihood Estimation,简称JMLE)、条件极大似然估计方法(Conditional Maximum Likelihood Estimation,简称CMLE)或边际极大似然估计方法(Marginal Maximum Likelihood Estimation,简称MMLE)估计MFRM的参数。这些方法各有优劣。主要表现为:①最小二乘法优势在于易于估计,而劣势在于相同总分的不同反应模式的能力估计值是不同的。②成对似然估计优势在于它是JMLE的一种有效替代方法,同时用CMLE可以在估计项目难度时,消除能力参数。由于观察数据重复使用,由二阶偏导求得的标准误很小,标准误大致与观察数据平均使用次数开平方成比例,这是该方法的劣势。③JMLE的优势在于易于编程实现,劣势在于当测验长度较短或样本量较小时,JMLE估计的项目参数是有偏估计。④CMLE的优势在于不需要假定能力分布,项目参数不受能力分布抽样的影响,且估计值具有一致性,对数似然值也可用于假设检验。劣势在于不能估计全对或全错的项目或被试,一旦测验过长计算量非常大,且不易处理缺失数据。⑤MMLE的优势在于没有充分统计量要求,无论测验长短或数据缺失均可估计,且MMLE边际似然值可用于假设检验和拟合指标。劣势在于编程稍微复杂,必须假设能力分布。

除能获得各种参数外,多侧面拉希模型还能提供拟合指标。常用的拟合指标有:①Outfit统计量。它是基于无加权残差平方均值,对异常评分比较敏感,如对评分者侧面的Outfit统计量,计算如下:

②Infit统计量。它是基于加权残差平方均值,对异常评分不太敏感,如对评分者侧面的Infit统计量,计算如下:

在拟合数据时,Outfit和Infit的期望值为1,有研究者认为其接受范围为[0.5,1.5],也有其他标准。此外,多侧面拉希模型还提供了分离信度指标,它类似于传统的信度指标。计算如下:

式中为某个侧面不同元素的潜变量估计值的方差;而为估计误差的均值。

多侧面拉希模型数据分析的一般步骤为:①建立侧面假设,即确定有哪些侧面与特定测量情景有关。②选择能够反映假设侧面及侧面间关系的测量模型。③应用模型解释各个侧面。

多侧面拉希模型主要为表现性评价中被试能力的质量评价提供一种框架。表现性评价常以开放性问题或具体操作的形式评价被试运用特定知识或技能的能力。这就要求评分者按照对潜在能力的理解,对被试的反应作出评价。因此,测量的结果不再只受被试能力和项目难度的影响,还受评价者的严厉程度、提示语的难度等影响。J.M.历纳克雷称这些因素为侧面,它们对测量结果产生的影响是系统的而不是随机的。侧面包括两部分:一部分是研究者关注的具有实质性差异的因素,如被试、项目或任务;另一部分是研究者假设会对测量结果(如被试能力、项目难度等)产生系统误差的因素,如评分者、记分规则、面试官或测试时间等,侧面之间还可能出现交互效应。

多侧面拉希模型能用来度量评分者宽严程度和评分一致性、修正被试分数中由评分者带来的差异、检查量表的功能,以及侦测侧面之间可能存在的交互效应(如评分者功能差异)等。在统计分析中,它能剔除评分者及其他因素带来的影响,得到的被试能力值是独立于特定评分者的特点及特定项目难度的。因此,基于多侧面拉希模型估计得到的被试能力值更为客观、准确。相对于其他方法(如经典测量理论和概化理论),多侧面拉希模型具有独特的优势:①具有等距量尺。由于它是对观测分数进行线性逻辑斯蒂克转换的量表模型,因此其估计的侧面值(如能力)是指定在等距量表之上的。而其他方法是基于观察分数(或原始分数)的。②为检查测量情景中各种侧面提供了方法,并为调整侧面差异(如评分者宽严程度、项目难度)提供理论框架,可提供测量结果的客观性和公平性。③继承了拉希模型的优良特性,各参数具有充分统计量,便于参数估计,具有参数不变性,参数处于同一量表上,方便题库建设和增加新题,对于等值转换,只需加减一链接常数。④对含缺失值的不完全研究设计进行处理比较方便。⑤通过分组估计,检查组间侧面成分的相对难度是否保持不变,可以用于检查不同组的侧面功能差异。另外,多侧面拉希模型还可以处理侧面之间的交互作用。

多侧面拉希模型不同于概化理论的另一点在于,前者分析的对象是个体而后者分析的对象是群体。多侧面拉希模型剔除其他因素的影响,对观察分数进行校正,使之尽可能地接近真分数,输出的是真分数的估计值。这个估计值可以推论到性质相同但量上有差异的情景(如更严的裁判等)中去。所以当要考察剔除其他因素影响后各考生的真分数是多少时,应该选用多侧面拉希模型。概化理论认为,观察分数与真分数之间的关联究竟有多大,它的输出是概化系数,这个信度只能概化到类似的情景中去,因为观测值只是既定区域的一个抽样。当主要任务是要考察当前情景下测得的目标群体的原始分数与其他类似情况下测得的原始分数的相似性时,应该选用概化理论。

鉴于多侧面拉希模型的优点及其适用性,目前它已广泛应用于口语测试、作文考试、无领导小组讨论、结构化面试、医师资格认证考试、课程能力评价和体育比赛等方面。以口语测试为例,采用MFRM可以考察测试中项目与评分者评分的变异情况及这些因素对测试成绩的相对影响,并能对口语测验的信度进行分析。