SlideShare a Scribd company logo
4、知道——正确假设,即被试知道某一项目的正确答案,他必然答对,换句话说,若答
错某一项目,则他必然不知道答案。
目反 理 概述项 应 论
运用曲线回归的方法,有人又提出了 ARCTG、COS、LINEAR 三个模型。而作为一个良好
的数学模型,应该能够使参数估计的结果比较精确。对 IRT 中的逻辑斯谛、正态卵形 、
ARCTG、COS 和 LINEAR 模型进行了比较研究,其结果表明:逻辑斯谛、正态卵形和 ARCTG
三个模型的参数估计的精确度很接近, COS 模型的参数估计的精确度次之,而 LINEAR 模型
对于项目区分度的估计精确度大大低于另外四个模型,对于项目难度和被试能力的估计精确
度和其它模型接近。
国外比较流行的是 ASCAL 和 BILOG 程序,最近,又提出了 GIRT 程序,其中, ASCAL 是运
用联合极大似然法和贝叶斯方法进行参数估计; BILOG 是另一计算机软件,它运用边际极大
似然法和贝叶斯方法进行参数估计; GIRT 程序运用联合极大似然法和图形化方法进行参数
估计。
向度数量 计分方
式
参数个数 模型提出者 适用软件
单维度 二元计
分
单参数模型
(Rasch 模型)
Rasch(1960) Bigstep,
BILOG,
BILOG-MG二参数模型 Lord(1952)
三参数模型 Birnbaum(1968)
多元计
分
类别反应模型
(Nominal Response
Model)
Bock(1972) MULTILOG,
ConQuest
PARSCALE
等级反应模型
(Grade Response Model)
Samejima(1969)
部份给分模型 (Partial
Credit Model)
Wright &
Masters(1982)
评定量尺模型
(Rating Scale Model)
Andrich (1978)
多维度 二元计
分
多维度二参数模型 Mckinley &
Reckase(1983)
NOHARM,
ConQuest
多维度三参数模型 Hattie(1981)
多元计
分
多元计分模型 Adams, Wilson &
Wang, (1997)
信息函数公式:
IRT 理论采用信息函数(包括测验信息函数、项目信息函数、分数信息函数。其中,测验信
息函数量是各项目信息量之和)。项目信息函数是将反映项目特征的难度、区分度和猜测参数
合而为一,它反映各个项目对不同能力水平被试所能提供信息的多少,信息量大,测量标准误
差小。而分数信息函数 I(θ,Y)则表示对于能力为 θ 的被试得分为 Y 时所得到的信息量,它反映
了测量的精确度。信息量越大,测量的标准误差越小。
近 20 年, 目反 理 的新 展项 应 论 进
 多维度项目反应理论
 非参数项目反应理论
 认知诊断理论
目反 理 指 制的一般步项 应 论 导测验编 骤
应用项目反应理论指导测验编制实质上是在项目反应理论的思想方法指导下,应用某
个合适的模型去分析、筛选项目,去组合编制试卷,以达到精确测量被试某种潜在特质的目
的。
重在研究测验编制各步骤中计量分析的理论与技术。
(一)测验设计
应用项目反应理论编制测验时,测验设计必须着重考虑选择哪一个测验模型。
原则:既能适合测验的需要又尽量简化。
1. 分析测验所测潜在特质的维度,是单维的还是多维的。
如果证明所测潜在特质是单维,则选择单维模型;
如果证明所测潜在特质是多维,还有两种方法:
其一是选择一个多维模型,同时精确计量所测特质的各个维度;
其二是将整个测验分成若干个一维的分测验,这也是经典测验中遇到这类测验时的常
用方法,则每个分测验还是可以分别用单维模型拟合它。
分析潜在心理特质维度的方法,除了从心理学、教育学理论作结构分析外,还可用因素
分析的方法:因素分析结果仅有一个因素,则单维性就得到了保障。在实际检验时,根据实
测数据求出各项目间的两两相关,构成相关矩阵,然后在相关矩阵基础上估出约相关矩阵
求出其第一和第二特征根。若两特征根之比在 5 以上,即可认为测验是单维的,不必再往下
分析。否则可做完因素分析,据因素分析结果数据组配分测验,以保证各分测验的一维性。
2. 选择双值记分模型还是多值记分模型
依据测验中的题型决定。如果所有试题都是双值记分,则可选用相对比较简单的双值记
分模型;
如果测验中试题都是多值记分的,则应选择多值记分模型;
如果是两种题型混用,则可以统一选择多值记分模型,将双值记分题看作多值记分题
的特例。
3. 选择参数模型。
如果认为所有项目均不存在猜对可能,则选双参数模型;
如果进一步认为测验中所有项目的区分能力是相等的,或是要求它们相等,则可以选
择单参数模型。
项目反应理论中还有许多适合各种特殊测验的模型,比如专门计时的模型,既计分又
计时的模型,还有简单机械重复只记错误次数的模型等。测验编制者必须根据自己的需要选
择合适的模型。
(二)项目参数估计与项目筛选
1. 项目质量的定量分析。
无论是经典测验理论还是项目反应理论,项目的定量分析都是先根据需要估出反映项
目质量的各种性能参数,一般包括项目难度、项目区分度和项目猜测度三项指标。在项目反
应理论中却是根据所选择的模型应用极大似然法估计的。为了精确估计项目参数,研究者在
算法上作了很多研究,最新的算法是应用 EM 算法的边缘极大似然估计方法了。当然,一般
的测验骗制并不需要都去亲自开发项目参数估计软件,而只要根据自己的需要去选择合适
的商业软件即可。如果模型只是单维双值记分模型,可以选用 BlLOG、MicroCAT,如果模型
是单维多值记分模型,可以选用 WINMLOG、WINPARSC。如果不使用外文版软件,可以选
用 ANOTE 软件。该软件可解决以上两种模型的参数估计问题。
2. 分析项目质量,筛选测验项目。
项目难度是项目筛选的参考指标,难度值的高低并不是单个项目取舍的依据。应该考虑
的是,作为所选测验项目整体,其构成的难度分布与测验所基于项目反应理论的测验编制
方法研究要求的难度分布是否拟合,就以此作为取舍的原则,如果某些必需的难度水平上
出现断层,则还要考虑再增加项目。项目区分度和项目猜测度都是单个项目取舍的指标。一
般来说,项目猜测度越小,项目质量越好,因此要保留项目猜测度较小的项目,最大一般
不应超过 0.25。项目区分度原则上应该是越高越好。一个项目的区分度到 0.5 以下就可以考
虑删除。
当然,区分度高低还与命题技术有关,如果总体上区分度均不高,则也不过分苛求。在
项目反应理论指导下作项目筛选还要注意在参数估计中未能正常收敛的那些项目,一般来
说,这样的项目只占少数,但都是质量较差的项目,必须舍弃。
(三)测验组卷与测量质量调查
定性要求主要包括题型比例、内容比例、能力层次比例等方面,这些要求与做法也与经
典测验理论的要求是基本一致的。
定量方面的要求最主要的就是测验的信度要高,也可以说是测量的精度要高。项目反应
理论为达到精确计量测量误差的目的,给出了一个测验项目信息函数的概念,并给出了一
个测验项目信息函数的计算公式如下:
Ii(θ)=Pi′(θ)[/Pi(θ·)(1-Pi(θ)]
其中 Ii(θ)表示第 I 个项目的信息函数。Pi(θ)为双值记分题的项目特征函数,式中分子部
分为 Pi(θ)的导数。如果是多值记分题,则项目信息函数为:
其中 Pij(θ)为项目 I 的第 j 等级的运算特征函数。项目信息量的大小总体上由项目的区分
度和猜测度决定,同时它也是潜在特质水平 θ 的函数。这意味着不仅不同的项目有不同的信
息量,而且同一项目对不同特质水平被试施测也有不同的信息量。在双值记分模型中,每项
目都在难度值点附近取得最大信息量值。
测验信息函数如下:
其中 I(θ)为测验信息函数,n 为测验的项目数。
测验施用于被试后所产生的测量标准误差可由下式求出:
ME(θ)=1/I(!)
如果对于某个 θ 区间上的信息量不满意,则可以通过调整测验项目结构来解决。
如果对整个测验在 θ 全阈所提供的信息量都不满意,可选方法有两个:
 一个是加大全卷题量,此方法有效但有限,因为要考虑对被试的疲劳影响;
 另一个方法是修改提高项目质量。具体地说就是要努力提高每个项目的区分度。
建题库 设
一个题库的题量不能低于 1000 题。题库中试题不仅要在题型分布、内容分布、能力层次
分布和难度分布上都是均匀的(或者符合组卷要求的),而且在这四维联合分布上也是均匀
的(或者符合组卷要求的)。这显然是一项非常细致的工作。其三,所有入库试题性能参数齐
全、同一参数所用数字系统的参照系统一,整个题库层次结构清楚,存储和调用都非常方便。
其四,题库应该有足够的安全性,保密措施健全。其五,要建成一个可经常维护的动态题库,
以保证及时剔除陈旧项目,修订或增加新项目,保持整个题库的适时性和适用性。
项目参数等值设计采用的是锚测验非等组设计,具体做法是在两份待等值的试卷中安
排四分之一左右的相同项目,称为锚题,两份试卷分别施测于不同被试群体后,分别估计
项目参数。这时,这一批作为锚题的项目就拥有两套不同的项目参数,并分别定义在不同的
参数系统上。在不同被试群体上估出的不同参数系统之间存在着一种线性关系,具有一对线
性转换系数 A 与 B。这一关系可以表述如下:
其中 a、b、c、θ 的脚标 1 与 2 分别代表两套不同的参数。项目参数等值最主要的工作就是
估出 A 与 B 这一对系数。在已知同一批项目(锚题)两套参数的条件下求取转换关系系数 A 与
B 的方法,最理想的一种方法称为项目特征曲线等值法。其基本原理是:对一个被试用一批
项目(锚题)进行测量,用不同的参数系统表达,其累计得分概率,也即其真分数是相等
的,即应有:
其中 n 为锚题题数,P1j(θ1)和 P2j(θ2)是不同参数系统下表述的项目得分概率,也即所
用项目反应模型。应用式 6 的关系式代换其中某些参数,由于随机误差原因,等式两边也会
稍有误差,这时可在误差最小的原则之下估出关系参数 A 和 B。其他项目(即非锚题)均可应
用这一关系完成从第 2 系统向第 1 系统的转换,从而完成统一参数的任务。
用 目反 理 的具体步项 应 论检验测题 骤
1. 建立题库(如 200 多道题)
2. 设计成套测验(如 4 套,设计铆题目-在不同套测验中重复出现的题目,如 20 题)
3. 0,1 单选计分
4. 因素分析主成分分析法分析原始数据
5. 要求:第一特征值超过第二特征值 4 倍;第一特征值所解释的变异量均在 20%以上
6. 使用 BILOGMG3. 0 软件“最大似然估计法”进行项目参数估计和模型-资料拟合度检验
7. 区分度参数 a,难度参数 b,猜测概率 c
8. 按照 IRT 的要求,删除试卷中不拟合(P<0. 05)的项目及( i)>0. 5 的项目
9. 使用 BILOGMG 3. 0 软件“同时估计参数法”进行四套试卷的项目参数等值转换
自适 考 系应 试 统 CAT
CAT 考试大体分为两个阶段。第一阶段是考生能力水平的探索阶段,以求取该考生的能
力初值。一般的做法是从题库中随机调取中等难度的题目开始,若考生能正确作答,则继之以
更难的题目;若考生不能正确作答,则继之以较易的题目,到考生既有答对题目又有答错题目
时,就可以初步估计出其能力值。当然,若此考生已有历史记录,或者允许被试者自行选择能力
程度的话,这一阶段会更容易些。
第二阶段是对考生能力的不断修正。针对初步估计能力值继续从题库中挑出难度最适当、
信息量最大的题目施测,并不断地估计考生能力,逐步向考生的能力真值逼近,直到满足测量
精度要求为止,从而对考生的真实能力作出准确的评价。整个考试过程如图 2 所示。
基于 Web 的自适 考 系 的应 试 统 实现
1. 系统的构成
系统分为题库子系统和考试子系统两部分。题库子系统主要完成 IRT 题库的建立与维
护工作,其功能结构如图 3 所示。由于题库子系统的用户少,并出于简便、安全等方面的考虑,
采用 C/S 结构实现。
考试子系统完成在线测试工作,采用基于 Internet 的三层模型实现,其系统结构如图 4 所
示。在考试过程中,客户端的任务主要是:确定考试的起始点与结束点、与用户交互、题目的呈
现、估计用户能力值。Server 端负责处理用户的登录请求和对用户考试记录的更新,同时接受
客户端的请求,在 IRT 题库中选择与用户能力估计值相应的题目。
整个系统工作流程
用户经过客户端的界面代理和考试代理向 Server 发出登录请求。Server 端的考试代理接
收用户请求后,通过用户记录代理查询用户资料库,以决定是否接受用户登录。若通过,则根据
用户的记录确定考试的初始题目,返回给客户端。在考试中,界面代理处理与用户的交互,并负
责试题的呈现工作,客户端的考试代理通过界面代理得知用户的反应,便可经过计算估计用户
的能力值。再向 Server 端的考试代理请求与该能力估计值相适应的题目,同时传送用户答题
时的反应数据(如答题时间、反应类型等)。
Server 端的考试代理接受用户反应数据后,通过用户记录代理更新用户的考试记录。并
将客户端的题目请求传送给相应题库代理。相应的题库代理查询 IRT 题库,选择库中最适合
该用户测试的题目,即相对该能力估计值的题目信息量最大的题目,返回给 Server 端的考试代
理。考试代理将题目返回给客户端的考试代理,并通过界面代理呈现给用户。在考试结束后,用
户便可即时通过客户端的统计代理得知自己的考试信息,还可得到分析总结后的数据,使得用
户可以改进日后的学习。
3.2 主要算法
3.2.1 受试者的能力估计
正确估计受试者的能力是 CAT 顺利进行的前提。在考试中对被试者能力的估计常用的方法
是极大似然估计法或贝叶斯估计。但较方便和实用的是极大似然估计法。
若以 L(uj|θ)表示能力为 θ 的受试者对题目 j 的反应为 uj(若答对,uj=1;答错,uj=0)的概率。则
其中:
n:题目数
Piui:受试者答对第 i 题的概率
Qiui:受试者答错第 i 题的概率
上式通常称为似然函数,我们要对每一个反应向量(u1,u2,……,un)求出相应的!值,使似然
函数的值为最大。我们以 Newton-Raphson 法逐次迭代,求出能力的极大似然估计值(!')。
在进行考试之前,对受试者的能力值进行初始估计一般采用以下几种方法:① 选择中等
难度的试题,即假定受测者的能力为中等,在题库中随机抽取难度为中等的题目,作为测试的
开始点。②根据历史记录确定受测者的初始能力值,受测者可能参加过测试,可以根据以前的
测试记录决定此次的开始题目,或根据以前其他受测者的测试记录决定开始题目。③受测者
自行选择,由受测者自行决定自己的能力程度,选择测试起始题目。
3.2.2 抽题策略
不断抽取和受测者能力相适应的题目是 CAT 的基本原则。通常,我们利用 IRT 题库中题
目的最大信息函数来确定所选择的题目。IRT 用题目的信息函 I(!)来表示题目参数与受测者
能力的关系。
其中:
!:受测者能力估计值;ai,bi,ci:第 i 题的区分度、难度、猜测系数信息量具有可加性,可以随
时估计一组试题施测的信息量的总和。对于不同能力的受测者,题目有不同的信息量,信息量
取最大值时,它所对应的能力值即是最适合于采用此题目测试的人员的能力值。因此,在 CAT
系统中,根据前面推测的能力值,系统搜寻相应信息量最大的题目进行测试。另外,还可以采用
Bayes 方法选取试题。它是以能力估计值在测试之后的改变作为选择标准,即选择使得能力估
计值在测试之后改变最小的题目进行测试。
试题参数的估计
题目参数的确定,主要是对题目 IRT 各参数值的确定,一般有两种途径:一是经试测后统
计分析,另一种是由专家进行评估后,再采用统计方法确定参数。但在建立题库的时候,我们往
往无法事先得知能力值和试题参数,因此,它们必须同时进行估计。我们可以采用上述的最大
近似值估计法来进行参数的估计,这种同时进行能力值估计与试题参数最大近似值估计的方
法,叫做联合最大近似值估计法(joint maximum likelihoodestimation,简写成 JMLE)。由于详细
的计算过程非常的繁琐,手工编程难度较大。所以采用国际上较成熟具有较高知名的项目反
应参数计算软件一 BILOGMG3 来进行题库参数的估算。
2·4 CAT 用于抑郁量表的临床测验
 能标准化不同的测验结果;
 能比较量表的精确度;
 能快速有效地筛查抑郁症状;
 能进行计算机适应测验等。
但 IRT 模式的数学复杂性和参数估计程序的复杂性及缺乏很好适合于心理测量领域的
支持性的软件和文献等限制了它的使用。
GardneW[5] 等 对 307 名 心 身 疾 病 患 者 采 用 CAT 进 行 21 项 抑 郁 自 评 问 卷 (Beck
Depression Inventory,BDI)测验,测验开始询问的是建立在参与者潜在抑郁评分假设最大信息
量的问题。这是 21 项 BDI 的第 7 个问题,涉及的是被试者的自我失望。把受试者对问题 7 的
实际反应定为在测验阶段的第一个问题。计算机立即对他的能力进行估计,并马上根据估计
值确立下一个要呈现的题目,当被试者的评分计算到指定的精确度,测验终止。结果显示 CAT
下的 BDI 询问的问题(平均 5·6 个项目)比整体 BDI 询问的问题(21 个项目)少。CAT 下的抑郁
评分与 BDI 总的评分有相关性(r=0·92),CAT 下的抑郁评分与 HAMD 的评分有相关性
(r=0·74),比与 BDI 的总评分与 HAMD 的评分的相关性( r= 0·70)要高。CAT 下的 BDI 把受试
者 作 业 特 征 (Receiver operating characteristic,ROC) 的 曲 线 下 面 积 (The area under
thecurve,AUC)用作重型抑郁症的一个指示,AUC 为 88%,显示与整体 BDI 等量。提示 CAT 测
验可能在识别重型抑郁症或测量抑郁严重程度上能提高效率而没有影响到测量精确度。Rose
M[11]等采用 CAT 对 114 名心身疾病患者和 201 名健康人进行抑郁症状调查, 3 名评定者评
定了抑郁项目池中获得的 320 个项目,一些不符合 IRT 分析的假设要求的项目(如食欲减退、
体重减轻)被删除。留下的 64 个项目涉及抑郁心境、注意集中、自尊和自杀思维等。CAT 测验
在估计受试者能力的基础上,在 64 个项目的项目池中搜索适合测试的项目进行测试,CAT 下
的抑郁症潜在特质能被大约 6 个项目在 1·7±1·1 分钟计算出来,提示所需要的项目数少及计
算机运行速度快大大减少了被试的测验时间。CAT 下的抑郁评分与所有获得的项目评分
(r=0·95)和 CES-D 抑郁评分(r=0·85)相关。并且显示 CAT 下的抑郁评分对持续的潜在特质的
高分和低分有一个较好的区别度。提示 CAT 下的抑郁量表的临床测验能显著减少测验时间,
也能减少在纸笔测验中产生的费用。
四参数 斯蒂克 模型逻辑 计时
Pi 表示被试 i 的速度参数,dj 是项目 j 的速度参数,tij 是被试 i 在项目 j 上的反应时即作答
时间。被试速度、项目速度以及反应时的单位均为秒。与三参数逻辑斯蒂克模型相比,该模型
中的项目参数加了一个速度参数,变成四个参数,因此该模型又称四参数逻辑斯蒂克计时
模型,简称 4PIJRT。4PLRT 属于 0 一 l 计分模型。
(1)它可以用于具有时间限制的能力测验的项目参数的估计。只要实际的作答机制与模型的
要求相符合,加入时间这一因素可以更加精确地对传统项目参数 a、b、c 进行估计。
(2)可以用项目反应时参加推断被试的能力 0,如果用于计算机化自适应测验(CAT),对被试
能力进行推断即能力参数的条件估计,可以使得能力的估计更快地向真值收敛,从而减少
实施的项目数量和测试的时间。
(3)该模型可以用于推断被试是否又快又准确地解决问题。
(4)可以用于在时间限制条件下,对被试的策略选择进行分析。
(5)可以用于鉴别被试的随机猜测行为和处理在 CAT 条件下的不完全测验。
系统主要包括以下八个部分
(1)系统管理模块:主要用于管理员对整个系统进行维护和调整(包括帐户管理系统、被试信息
管理和题库建设与管理)。
(2)测验控制模块:这是整个测验部分的核心模块,控制整个测验过程(包括调题策略、计分系
统和自动终止策略)。
(3)被试输入模块:用于记录被试对系统给出的题目的作答结果(包括本机作答和远程作答)。
(4)结果输出模块:负责测验结果的整理,并把最终结果呈现给用户(包括仿真答卷输出、测验
结果输出和团体分析数据输出)。
(5)数据分析模块:根据研究的需要,对测验数据进行各种分析。
(6)网络管理模块:实现测验的网络化,可以进行大规模在线测验。
(7)其他辅助系统:为促使测验更加完善、更具人性化而设计的模块。
(8)被试模拟系统:模拟真实被试的作答结果,辅助题库管理。
江西师范大学,开发国内较早且较为实用的参数估计程序 MLE 一 CJ 、ANOTE。
常用的项目反应模型主要有以下几种:
(l)正态肩形曲线模型(Nominal Categorieo Model)
这是洛德于 1952 年提出的第一个双参数项目反应模型,它采用了正态累积分布函数的
形式,其表达式如下:
其中 θ 为被试的特质水平,取值范围是正负无穷。Pi(θ)表示特质水平为 θ 的被试在项目
i 上正确作答的概率,并且其取值在负无穷时取 O,在正无穷时取 1。a 为项目的区分度,在
正态肩形曲线的图形中表示曲线在拐点 b,处的切线斜率(参见图 2-1)。b 为项目的难度参数,
在正态肩形曲线的图形中表示曲线的拐点,也是曲线的对称中心(参见图 2-1)。
实际上根据项目反应模型常用的三个参数 a(区分度参数)、b(难度参数)、c(猜测参数),
还可以导出正态肩形曲线的单参模型和三参模型,它们分别如下
(2)拉希模型(RashcModel)
丹麦学者拉希(Rashc)是最早独立研究项目反应模型获得巨大成功的学者之一。拉希模
型实际上包括三个模型:用于阅读测验的泊松模型、用于智力和成就测验的“测验项目的结构
模型”和特指的拉希模型。人们所熟知的就是他的第三个模型,这里也只介绍这一模型,其
表达式如下
其中 θ 为被试的特质水平,bi 为项目难度参数,Pi(θ)表示特制水平为 0 的被试在项目 i 上正
确作答的概率。拉希模型中只有一个难度参数而没有区分度参数,因为拉希认为,用一批项
目去测被试,就是要在一个线性系统上去确定被试的特质水平,除了项目难度之外,应该
维持所有项目有相同的性质。根据这一逻辑,拉希模型的项目特征曲线除了它们在横轴上的
位置不同外全都是一样的形状(参见图 2-2)。
(3)逻辑斯蒂克模型(LogistieModel)
(4)名称选项模型(NonlinalCategorioeModel)
名称选项模型(有些教材中也称为称名选项模型)是伯克(Bock)于 1972 年提出的一个项目反
应模型,它适用于多重选择,且各个选项之间无等级关系的题目。模型的函数表达式如下
其 中, Pih(θ) 表示 特质 水平 为 0 的被 试在 项目 i 的 第 h 个 选项 上作 选择 的概 率
(=1,2,3,…n;h=1,2,3,…m,)。aih 和 cih 是与项目 i 的第 h 个选项有关的项目参数 。
Pih(θ)称为选项反应函数,且 mi 个 Pih(θ)之和为 1,即对任何一个被试,他在所有选项上的
选择概率之和为 1。图 2-4 为一个项目的四个选项的名称选项模型特征曲线,由图可以看出,
多值评分项目的选项反应函数并不都是单调的。
(5)等级反应模型(Grdaed Response Model)
这个模型是塞姆吉玛 Samejima 在逻辑斯蒂克模型的框架下建立起来的用于多等级评分
资料的模型,它突破了过去项目反应模型只能用于二值评分项目的限制。后来这个模型发展
成为一系列模型,其中最常见的是同质模型。下面是等级反应模型的两种具体形式
ui 表示被试在第 i 个项目上的反应记录,其值可能是第 i 项目上 m+i1 个等第中的任何
一个。ai 表示第 i 个项目的区分度,bui 表示第 ui 等级的等级难度,D 为量表因子,一般为
1.7。等级反应模型要求一个项目各个等级上的难度严格单调递增,即有
(6)分部评分模型(Partial Credit Model)
分部评分模型是由马斯特斯(Masters)于 1982 年提出来的,是拉希二值评分项目模型的
一种应用,主要用于多值评分项目的计分,它包含两组参数,一组是被试能力参数,另一
组是项目难度参数。两组参数都在一种潜在特质上定位。分部评分模型的函数表达式如下
在 分 部 评 分 模 型 中 , 项 目 的 难度参数并不一定是单调的,
这是它与等级反应模型的一个很大不同。
(7)其他模型
除了以上提到的反应模型之外,还有许多其他的项目反应模型,如莫雷卡(Murkai)的
通用分部评分模型(Generalized Partial Credit Model,也称为拓展分部评分模型、拓广的分部
评分模型)、麦克唐纳德(McDonald)的多维正态肩形曲线模型(Normal Ogive Multidimensional
Model)、理凯斯(Reekase)的多维线性逻辑斯蒂克模型 (Multidimensional Linear Logistic
Model)、凯尔德曼(Keldemrna)的对数性多维模型(Log Linear Multidimensional Model)、埃姆布
里逊(5.E.Embretosn)的多成分潜在特质模型(Multi-Component Latent Trait Model)等。这些模
型多用于较为复杂的多维测验,在相应的参数估计程序出现之前,它们只能是一些理论设
想,因为它们的参数估计实在是太困难了,完全靠手工计算几乎是不可能完成的事情,现
在随着计算机在测验中的应用,以及专门计算软件的问世,这些复杂的多维模型得到了较
快的发展,但要应用在实际的计算机自适应测验中还有很长的路要走。
等值常用的方法有以下几种〔21〕
(l)均值一均值法(Mean 一 Mean)
(2)均值一标准差法(Mean 一 sigma)
(3)稳健的迭代加权均值一标准差法(Robust Iterative weighted Mean 一 Sigma)
(4)Haebara 项目特征曲线法(Item Characteristic Curve)
(5)Stocking-Lord 测验特征曲线法(Test Characteristic Curve)
(6)Kim&Cohen 的最小 χ2 法(Minimum χ2 Method)

More Related Content

More from Albert

多级化Irt的设计20090913
多级化Irt的设计20090913多级化Irt的设计20090913
多级化Irt的设计20090913Albert
 
项目反应理论项目进度报告20090929
项目反应理论项目进度报告20090929项目反应理论项目进度报告20090929
项目反应理论项目进度报告20090929Albert
 
认知论文
认知论文认知论文
认知论文Albert
 
基于危机介入理论的河南新密复读生心理需求调研及介入初探
基于危机介入理论的河南新密复读生心理需求调研及介入初探基于危机介入理论的河南新密复读生心理需求调研及介入初探
基于危机介入理论的河南新密复读生心理需求调研及介入初探Albert
 
效度的概念
效度的概念效度的概念
效度的概念Albert
 
为什么选择问卷
为什么选择问卷为什么选择问卷
为什么选择问卷
Albert
 
精神分裂症讲稿
精神分裂症讲稿精神分裂症讲稿
精神分裂症讲稿Albert
 
精神分裂症
精神分裂症精神分裂症
精神分裂症Albert
 
Making Sense of the World
Making Sense of the WorldMaking Sense of the World
Making Sense of the World
Albert
 
世界精神文化医学大会
世界精神文化医学大会世界精神文化医学大会
世界精神文化医学大会Albert
 
质性研究中的数据处理20090922
质性研究中的数据处理20090922质性研究中的数据处理20090922
质性研究中的数据处理20090922Albert
 

More from Albert (11)

多级化Irt的设计20090913
多级化Irt的设计20090913多级化Irt的设计20090913
多级化Irt的设计20090913
 
项目反应理论项目进度报告20090929
项目反应理论项目进度报告20090929项目反应理论项目进度报告20090929
项目反应理论项目进度报告20090929
 
认知论文
认知论文认知论文
认知论文
 
基于危机介入理论的河南新密复读生心理需求调研及介入初探
基于危机介入理论的河南新密复读生心理需求调研及介入初探基于危机介入理论的河南新密复读生心理需求调研及介入初探
基于危机介入理论的河南新密复读生心理需求调研及介入初探
 
效度的概念
效度的概念效度的概念
效度的概念
 
为什么选择问卷
为什么选择问卷为什么选择问卷
为什么选择问卷
 
精神分裂症讲稿
精神分裂症讲稿精神分裂症讲稿
精神分裂症讲稿
 
精神分裂症
精神分裂症精神分裂症
精神分裂症
 
Making Sense of the World
Making Sense of the WorldMaking Sense of the World
Making Sense of the World
 
世界精神文化医学大会
世界精神文化医学大会世界精神文化医学大会
世界精神文化医学大会
 
质性研究中的数据处理20090922
质性研究中的数据处理20090922质性研究中的数据处理20090922
质性研究中的数据处理20090922
 

Recently uploaded

大学成绩修改,找黑客改分,修改成绩单,挂科修改,GPA成绩提高黑客常用的邮件入侵方式如何破解Instagram帐户和密码【微oojjiijj信】
大学成绩修改,找黑客改分,修改成绩单,挂科修改,GPA成绩提高黑客常用的邮件入侵方式如何破解Instagram帐户和密码【微oojjiijj信】大学成绩修改,找黑客改分,修改成绩单,挂科修改,GPA成绩提高黑客常用的邮件入侵方式如何破解Instagram帐户和密码【微oojjiijj信】
大学成绩修改,找黑客改分,修改成绩单,挂科修改,GPA成绩提高黑客常用的邮件入侵方式如何破解Instagram帐户和密码【微oojjiijj信】
微信 tytyqqww业务接单
 
一比一原版(JCU毕业证书)詹姆斯库克大学毕业证成绩单
一比一原版(JCU毕业证书)詹姆斯库克大学毕业证成绩单一比一原版(JCU毕业证书)詹姆斯库克大学毕业证成绩单
一比一原版(JCU毕业证书)詹姆斯库克大学毕业证成绩单
h0wovd5
 
黑客改gpa ,黑客技术,黑客改分,黑客改成绩,黑客修改成绩揭秘黑客常用的入侵方式,邮件成主要攻击对象!💥 你是否曾经收到过来历不明的邮件?里面可能藏着木...
黑客改gpa ,黑客技术,黑客改分,黑客改成绩,黑客修改成绩揭秘黑客常用的入侵方式,邮件成主要攻击对象!💥 你是否曾经收到过来历不明的邮件?里面可能藏着木...黑客改gpa ,黑客技术,黑客改分,黑客改成绩,黑客修改成绩揭秘黑客常用的入侵方式,邮件成主要攻击对象!💥 你是否曾经收到过来历不明的邮件?里面可能藏着木...
黑客改gpa ,黑客技术,黑客改分,黑客改成绩,黑客修改成绩揭秘黑客常用的入侵方式,邮件成主要攻击对象!💥 你是否曾经收到过来历不明的邮件?里面可能藏着木...
微信 tytyqqww业务接单
 
鏘鏘的帶賽人生:從自卑到強運的50年成長屁事然後聊一聊傻瓜型學習歷程分析.pptx
鏘鏘的帶賽人生:從自卑到強運的50年成長屁事然後聊一聊傻瓜型學習歷程分析.pptx鏘鏘的帶賽人生:從自卑到強運的50年成長屁事然後聊一聊傻瓜型學習歷程分析.pptx
鏘鏘的帶賽人生:從自卑到強運的50年成長屁事然後聊一聊傻瓜型學習歷程分析.pptx
Koong Lin
 
一比一原版(Griffith毕业证书)格里菲斯大学毕业证成绩单
一比一原版(Griffith毕业证书)格里菲斯大学毕业证成绩单一比一原版(Griffith毕业证书)格里菲斯大学毕业证成绩单
一比一原版(Griffith毕业证书)格里菲斯大学毕业证成绩单
h0wovd5
 
一比一原版(Ryerson毕业证书)瑞尔森大学毕业证成绩单如何办理
一比一原版(Ryerson毕业证书)瑞尔森大学毕业证成绩单如何办理一比一原版(Ryerson毕业证书)瑞尔森大学毕业证成绩单如何办理
一比一原版(Ryerson毕业证书)瑞尔森大学毕业证成绩单如何办理
ictglzse
 
一比一原版(Adelaide毕业证)阿德莱德大学毕业证成绩单
一比一原版(Adelaide毕业证)阿德莱德大学毕业证成绩单一比一原版(Adelaide毕业证)阿德莱德大学毕业证成绩单
一比一原版(Adelaide毕业证)阿德莱德大学毕业证成绩单
h0wovd5
 
黑客改分,黑客改成绩,黑客修改成绩,黑客改学历,黑客服务黑客修改大学成绩,黑客改成绩单,黑客入侵教务系统,找黑客修改成绩.【微oojjiijj信】
黑客改分,黑客改成绩,黑客修改成绩,黑客改学历,黑客服务黑客修改大学成绩,黑客改成绩单,黑客入侵教务系统,找黑客修改成绩.【微oojjiijj信】黑客改分,黑客改成绩,黑客修改成绩,黑客改学历,黑客服务黑客修改大学成绩,黑客改成绩单,黑客入侵教务系统,找黑客修改成绩.【微oojjiijj信】
黑客改分,黑客改成绩,黑客修改成绩,黑客改学历,黑客服务黑客修改大学成绩,黑客改成绩单,黑客入侵教务系统,找黑客修改成绩.【微oojjiijj信】
微信 tytyqqww业务接单
 
一比一原版(UQ毕业证书)昆士兰大学毕业证成绩单
一比一原版(UQ毕业证书)昆士兰大学毕业证成绩单一比一原版(UQ毕业证书)昆士兰大学毕业证成绩单
一比一原版(UQ毕业证书)昆士兰大学毕业证成绩单
h0wovd5
 
国外学历认证办理,留信网认证办理.国外大学成绩单修改,留学gpa不足上国外名牌大学,黑客改gpa成绩!【微信tytyqqww】
国外学历认证办理,留信网认证办理.国外大学成绩单修改,留学gpa不足上国外名牌大学,黑客改gpa成绩!【微信tytyqqww】国外学历认证办理,留信网认证办理.国外大学成绩单修改,留学gpa不足上国外名牌大学,黑客改gpa成绩!【微信tytyqqww】
国外学历认证办理,留信网认证办理.国外大学成绩单修改,留学gpa不足上国外名牌大学,黑客改gpa成绩!【微信tytyqqww】
微信 tytyqqww业务接单
 
出国改成绩, 修改成绩,找黑客修改成绩,找黑客改成绩,黑客修改国外大学成绩修改,[英国院校]挂科?别担心!成绩单上的遗憾,我们帮你弥补。改造成绩认证deg...
出国改成绩, 修改成绩,找黑客修改成绩,找黑客改成绩,黑客修改国外大学成绩修改,[英国院校]挂科?别担心!成绩单上的遗憾,我们帮你弥补。改造成绩认证deg...出国改成绩, 修改成绩,找黑客修改成绩,找黑客改成绩,黑客修改国外大学成绩修改,[英国院校]挂科?别担心!成绩单上的遗憾,我们帮你弥补。改造成绩认证deg...
出国改成绩, 修改成绩,找黑客修改成绩,找黑客改成绩,黑客修改国外大学成绩修改,[英国院校]挂科?别担心!成绩单上的遗憾,我们帮你弥补。改造成绩认证deg...
微信 tytyqqww业务接单
 
大学成绩修改,找黑客改分修改成绩单,挂科修改GPA成绩提高代考GMAT【微oojjiijj信】
大学成绩修改,找黑客改分修改成绩单,挂科修改GPA成绩提高代考GMAT【微oojjiijj信】大学成绩修改,找黑客改分修改成绩单,挂科修改GPA成绩提高代考GMAT【微oojjiijj信】
大学成绩修改,找黑客改分修改成绩单,挂科修改GPA成绩提高代考GMAT【微oojjiijj信】
微信 tytyqqww业务接单
 
哇塞!黑客大佬居然能入侵网站改成绩,简直是神仙操作啊!太牛了!🤩💪🔥【微oojjiijj信】
哇塞!黑客大佬居然能入侵网站改成绩,简直是神仙操作啊!太牛了!🤩💪🔥【微oojjiijj信】哇塞!黑客大佬居然能入侵网站改成绩,简直是神仙操作啊!太牛了!🤩💪🔥【微oojjiijj信】
哇塞!黑客大佬居然能入侵网站改成绩,简直是神仙操作啊!太牛了!🤩💪🔥【微oojjiijj信】
微信 tytyqqww业务接单
 

Recently uploaded (13)

大学成绩修改,找黑客改分,修改成绩单,挂科修改,GPA成绩提高黑客常用的邮件入侵方式如何破解Instagram帐户和密码【微oojjiijj信】
大学成绩修改,找黑客改分,修改成绩单,挂科修改,GPA成绩提高黑客常用的邮件入侵方式如何破解Instagram帐户和密码【微oojjiijj信】大学成绩修改,找黑客改分,修改成绩单,挂科修改,GPA成绩提高黑客常用的邮件入侵方式如何破解Instagram帐户和密码【微oojjiijj信】
大学成绩修改,找黑客改分,修改成绩单,挂科修改,GPA成绩提高黑客常用的邮件入侵方式如何破解Instagram帐户和密码【微oojjiijj信】
 
一比一原版(JCU毕业证书)詹姆斯库克大学毕业证成绩单
一比一原版(JCU毕业证书)詹姆斯库克大学毕业证成绩单一比一原版(JCU毕业证书)詹姆斯库克大学毕业证成绩单
一比一原版(JCU毕业证书)詹姆斯库克大学毕业证成绩单
 
黑客改gpa ,黑客技术,黑客改分,黑客改成绩,黑客修改成绩揭秘黑客常用的入侵方式,邮件成主要攻击对象!💥 你是否曾经收到过来历不明的邮件?里面可能藏着木...
黑客改gpa ,黑客技术,黑客改分,黑客改成绩,黑客修改成绩揭秘黑客常用的入侵方式,邮件成主要攻击对象!💥 你是否曾经收到过来历不明的邮件?里面可能藏着木...黑客改gpa ,黑客技术,黑客改分,黑客改成绩,黑客修改成绩揭秘黑客常用的入侵方式,邮件成主要攻击对象!💥 你是否曾经收到过来历不明的邮件?里面可能藏着木...
黑客改gpa ,黑客技术,黑客改分,黑客改成绩,黑客修改成绩揭秘黑客常用的入侵方式,邮件成主要攻击对象!💥 你是否曾经收到过来历不明的邮件?里面可能藏着木...
 
鏘鏘的帶賽人生:從自卑到強運的50年成長屁事然後聊一聊傻瓜型學習歷程分析.pptx
鏘鏘的帶賽人生:從自卑到強運的50年成長屁事然後聊一聊傻瓜型學習歷程分析.pptx鏘鏘的帶賽人生:從自卑到強運的50年成長屁事然後聊一聊傻瓜型學習歷程分析.pptx
鏘鏘的帶賽人生:從自卑到強運的50年成長屁事然後聊一聊傻瓜型學習歷程分析.pptx
 
一比一原版(Griffith毕业证书)格里菲斯大学毕业证成绩单
一比一原版(Griffith毕业证书)格里菲斯大学毕业证成绩单一比一原版(Griffith毕业证书)格里菲斯大学毕业证成绩单
一比一原版(Griffith毕业证书)格里菲斯大学毕业证成绩单
 
一比一原版(Ryerson毕业证书)瑞尔森大学毕业证成绩单如何办理
一比一原版(Ryerson毕业证书)瑞尔森大学毕业证成绩单如何办理一比一原版(Ryerson毕业证书)瑞尔森大学毕业证成绩单如何办理
一比一原版(Ryerson毕业证书)瑞尔森大学毕业证成绩单如何办理
 
一比一原版(Adelaide毕业证)阿德莱德大学毕业证成绩单
一比一原版(Adelaide毕业证)阿德莱德大学毕业证成绩单一比一原版(Adelaide毕业证)阿德莱德大学毕业证成绩单
一比一原版(Adelaide毕业证)阿德莱德大学毕业证成绩单
 
黑客改分,黑客改成绩,黑客修改成绩,黑客改学历,黑客服务黑客修改大学成绩,黑客改成绩单,黑客入侵教务系统,找黑客修改成绩.【微oojjiijj信】
黑客改分,黑客改成绩,黑客修改成绩,黑客改学历,黑客服务黑客修改大学成绩,黑客改成绩单,黑客入侵教务系统,找黑客修改成绩.【微oojjiijj信】黑客改分,黑客改成绩,黑客修改成绩,黑客改学历,黑客服务黑客修改大学成绩,黑客改成绩单,黑客入侵教务系统,找黑客修改成绩.【微oojjiijj信】
黑客改分,黑客改成绩,黑客修改成绩,黑客改学历,黑客服务黑客修改大学成绩,黑客改成绩单,黑客入侵教务系统,找黑客修改成绩.【微oojjiijj信】
 
一比一原版(UQ毕业证书)昆士兰大学毕业证成绩单
一比一原版(UQ毕业证书)昆士兰大学毕业证成绩单一比一原版(UQ毕业证书)昆士兰大学毕业证成绩单
一比一原版(UQ毕业证书)昆士兰大学毕业证成绩单
 
国外学历认证办理,留信网认证办理.国外大学成绩单修改,留学gpa不足上国外名牌大学,黑客改gpa成绩!【微信tytyqqww】
国外学历认证办理,留信网认证办理.国外大学成绩单修改,留学gpa不足上国外名牌大学,黑客改gpa成绩!【微信tytyqqww】国外学历认证办理,留信网认证办理.国外大学成绩单修改,留学gpa不足上国外名牌大学,黑客改gpa成绩!【微信tytyqqww】
国外学历认证办理,留信网认证办理.国外大学成绩单修改,留学gpa不足上国外名牌大学,黑客改gpa成绩!【微信tytyqqww】
 
出国改成绩, 修改成绩,找黑客修改成绩,找黑客改成绩,黑客修改国外大学成绩修改,[英国院校]挂科?别担心!成绩单上的遗憾,我们帮你弥补。改造成绩认证deg...
出国改成绩, 修改成绩,找黑客修改成绩,找黑客改成绩,黑客修改国外大学成绩修改,[英国院校]挂科?别担心!成绩单上的遗憾,我们帮你弥补。改造成绩认证deg...出国改成绩, 修改成绩,找黑客修改成绩,找黑客改成绩,黑客修改国外大学成绩修改,[英国院校]挂科?别担心!成绩单上的遗憾,我们帮你弥补。改造成绩认证deg...
出国改成绩, 修改成绩,找黑客修改成绩,找黑客改成绩,黑客修改国外大学成绩修改,[英国院校]挂科?别担心!成绩单上的遗憾,我们帮你弥补。改造成绩认证deg...
 
大学成绩修改,找黑客改分修改成绩单,挂科修改GPA成绩提高代考GMAT【微oojjiijj信】
大学成绩修改,找黑客改分修改成绩单,挂科修改GPA成绩提高代考GMAT【微oojjiijj信】大学成绩修改,找黑客改分修改成绩单,挂科修改GPA成绩提高代考GMAT【微oojjiijj信】
大学成绩修改,找黑客改分修改成绩单,挂科修改GPA成绩提高代考GMAT【微oojjiijj信】
 
哇塞!黑客大佬居然能入侵网站改成绩,简直是神仙操作啊!太牛了!🤩💪🔥【微oojjiijj信】
哇塞!黑客大佬居然能入侵网站改成绩,简直是神仙操作啊!太牛了!🤩💪🔥【微oojjiijj信】哇塞!黑客大佬居然能入侵网站改成绩,简直是神仙操作啊!太牛了!🤩💪🔥【微oojjiijj信】
哇塞!黑客大佬居然能入侵网站改成绩,简直是神仙操作啊!太牛了!🤩💪🔥【微oojjiijj信】
 

3 irt 笔记

  • 1. 4、知道——正确假设,即被试知道某一项目的正确答案,他必然答对,换句话说,若答 错某一项目,则他必然不知道答案。 目反 理 概述项 应 论 运用曲线回归的方法,有人又提出了 ARCTG、COS、LINEAR 三个模型。而作为一个良好 的数学模型,应该能够使参数估计的结果比较精确。对 IRT 中的逻辑斯谛、正态卵形 、 ARCTG、COS 和 LINEAR 模型进行了比较研究,其结果表明:逻辑斯谛、正态卵形和 ARCTG 三个模型的参数估计的精确度很接近, COS 模型的参数估计的精确度次之,而 LINEAR 模型 对于项目区分度的估计精确度大大低于另外四个模型,对于项目难度和被试能力的估计精确 度和其它模型接近。 国外比较流行的是 ASCAL 和 BILOG 程序,最近,又提出了 GIRT 程序,其中, ASCAL 是运 用联合极大似然法和贝叶斯方法进行参数估计; BILOG 是另一计算机软件,它运用边际极大 似然法和贝叶斯方法进行参数估计; GIRT 程序运用联合极大似然法和图形化方法进行参数 估计。 向度数量 计分方 式 参数个数 模型提出者 适用软件 单维度 二元计 分 单参数模型 (Rasch 模型) Rasch(1960) Bigstep, BILOG, BILOG-MG二参数模型 Lord(1952) 三参数模型 Birnbaum(1968) 多元计 分 类别反应模型 (Nominal Response Model) Bock(1972) MULTILOG, ConQuest PARSCALE 等级反应模型 (Grade Response Model) Samejima(1969) 部份给分模型 (Partial Credit Model) Wright & Masters(1982) 评定量尺模型 (Rating Scale Model) Andrich (1978) 多维度 二元计 分 多维度二参数模型 Mckinley & Reckase(1983) NOHARM, ConQuest 多维度三参数模型 Hattie(1981) 多元计 分 多元计分模型 Adams, Wilson & Wang, (1997) 信息函数公式:
  • 3. 目反 理 指 制的一般步项 应 论 导测验编 骤 应用项目反应理论指导测验编制实质上是在项目反应理论的思想方法指导下,应用某 个合适的模型去分析、筛选项目,去组合编制试卷,以达到精确测量被试某种潜在特质的目 的。 重在研究测验编制各步骤中计量分析的理论与技术。 (一)测验设计 应用项目反应理论编制测验时,测验设计必须着重考虑选择哪一个测验模型。 原则:既能适合测验的需要又尽量简化。 1. 分析测验所测潜在特质的维度,是单维的还是多维的。 如果证明所测潜在特质是单维,则选择单维模型; 如果证明所测潜在特质是多维,还有两种方法: 其一是选择一个多维模型,同时精确计量所测特质的各个维度; 其二是将整个测验分成若干个一维的分测验,这也是经典测验中遇到这类测验时的常 用方法,则每个分测验还是可以分别用单维模型拟合它。 分析潜在心理特质维度的方法,除了从心理学、教育学理论作结构分析外,还可用因素 分析的方法:因素分析结果仅有一个因素,则单维性就得到了保障。在实际检验时,根据实 测数据求出各项目间的两两相关,构成相关矩阵,然后在相关矩阵基础上估出约相关矩阵 求出其第一和第二特征根。若两特征根之比在 5 以上,即可认为测验是单维的,不必再往下 分析。否则可做完因素分析,据因素分析结果数据组配分测验,以保证各分测验的一维性。 2. 选择双值记分模型还是多值记分模型 依据测验中的题型决定。如果所有试题都是双值记分,则可选用相对比较简单的双值记 分模型; 如果测验中试题都是多值记分的,则应选择多值记分模型; 如果是两种题型混用,则可以统一选择多值记分模型,将双值记分题看作多值记分题 的特例。 3. 选择参数模型。 如果认为所有项目均不存在猜对可能,则选双参数模型; 如果进一步认为测验中所有项目的区分能力是相等的,或是要求它们相等,则可以选 择单参数模型。 项目反应理论中还有许多适合各种特殊测验的模型,比如专门计时的模型,既计分又
  • 4. 计时的模型,还有简单机械重复只记错误次数的模型等。测验编制者必须根据自己的需要选 择合适的模型。 (二)项目参数估计与项目筛选 1. 项目质量的定量分析。 无论是经典测验理论还是项目反应理论,项目的定量分析都是先根据需要估出反映项 目质量的各种性能参数,一般包括项目难度、项目区分度和项目猜测度三项指标。在项目反 应理论中却是根据所选择的模型应用极大似然法估计的。为了精确估计项目参数,研究者在 算法上作了很多研究,最新的算法是应用 EM 算法的边缘极大似然估计方法了。当然,一般 的测验骗制并不需要都去亲自开发项目参数估计软件,而只要根据自己的需要去选择合适 的商业软件即可。如果模型只是单维双值记分模型,可以选用 BlLOG、MicroCAT,如果模型 是单维多值记分模型,可以选用 WINMLOG、WINPARSC。如果不使用外文版软件,可以选 用 ANOTE 软件。该软件可解决以上两种模型的参数估计问题。 2. 分析项目质量,筛选测验项目。 项目难度是项目筛选的参考指标,难度值的高低并不是单个项目取舍的依据。应该考虑 的是,作为所选测验项目整体,其构成的难度分布与测验所基于项目反应理论的测验编制 方法研究要求的难度分布是否拟合,就以此作为取舍的原则,如果某些必需的难度水平上 出现断层,则还要考虑再增加项目。项目区分度和项目猜测度都是单个项目取舍的指标。一 般来说,项目猜测度越小,项目质量越好,因此要保留项目猜测度较小的项目,最大一般 不应超过 0.25。项目区分度原则上应该是越高越好。一个项目的区分度到 0.5 以下就可以考 虑删除。 当然,区分度高低还与命题技术有关,如果总体上区分度均不高,则也不过分苛求。在 项目反应理论指导下作项目筛选还要注意在参数估计中未能正常收敛的那些项目,一般来 说,这样的项目只占少数,但都是质量较差的项目,必须舍弃。 (三)测验组卷与测量质量调查 定性要求主要包括题型比例、内容比例、能力层次比例等方面,这些要求与做法也与经 典测验理论的要求是基本一致的。 定量方面的要求最主要的就是测验的信度要高,也可以说是测量的精度要高。项目反应 理论为达到精确计量测量误差的目的,给出了一个测验项目信息函数的概念,并给出了一 个测验项目信息函数的计算公式如下: Ii(θ)=Pi′(θ)[/Pi(θ·)(1-Pi(θ)] 其中 Ii(θ)表示第 I 个项目的信息函数。Pi(θ)为双值记分题的项目特征函数,式中分子部 分为 Pi(θ)的导数。如果是多值记分题,则项目信息函数为:
  • 5. 其中 Pij(θ)为项目 I 的第 j 等级的运算特征函数。项目信息量的大小总体上由项目的区分 度和猜测度决定,同时它也是潜在特质水平 θ 的函数。这意味着不仅不同的项目有不同的信 息量,而且同一项目对不同特质水平被试施测也有不同的信息量。在双值记分模型中,每项 目都在难度值点附近取得最大信息量值。 测验信息函数如下: 其中 I(θ)为测验信息函数,n 为测验的项目数。 测验施用于被试后所产生的测量标准误差可由下式求出: ME(θ)=1/I(!) 如果对于某个 θ 区间上的信息量不满意,则可以通过调整测验项目结构来解决。 如果对整个测验在 θ 全阈所提供的信息量都不满意,可选方法有两个:  一个是加大全卷题量,此方法有效但有限,因为要考虑对被试的疲劳影响;  另一个方法是修改提高项目质量。具体地说就是要努力提高每个项目的区分度。 建题库 设 一个题库的题量不能低于 1000 题。题库中试题不仅要在题型分布、内容分布、能力层次 分布和难度分布上都是均匀的(或者符合组卷要求的),而且在这四维联合分布上也是均匀 的(或者符合组卷要求的)。这显然是一项非常细致的工作。其三,所有入库试题性能参数齐 全、同一参数所用数字系统的参照系统一,整个题库层次结构清楚,存储和调用都非常方便。 其四,题库应该有足够的安全性,保密措施健全。其五,要建成一个可经常维护的动态题库, 以保证及时剔除陈旧项目,修订或增加新项目,保持整个题库的适时性和适用性。 项目参数等值设计采用的是锚测验非等组设计,具体做法是在两份待等值的试卷中安 排四分之一左右的相同项目,称为锚题,两份试卷分别施测于不同被试群体后,分别估计 项目参数。这时,这一批作为锚题的项目就拥有两套不同的项目参数,并分别定义在不同的 参数系统上。在不同被试群体上估出的不同参数系统之间存在着一种线性关系,具有一对线 性转换系数 A 与 B。这一关系可以表述如下:
  • 6. 其中 a、b、c、θ 的脚标 1 与 2 分别代表两套不同的参数。项目参数等值最主要的工作就是 估出 A 与 B 这一对系数。在已知同一批项目(锚题)两套参数的条件下求取转换关系系数 A 与 B 的方法,最理想的一种方法称为项目特征曲线等值法。其基本原理是:对一个被试用一批 项目(锚题)进行测量,用不同的参数系统表达,其累计得分概率,也即其真分数是相等 的,即应有: 其中 n 为锚题题数,P1j(θ1)和 P2j(θ2)是不同参数系统下表述的项目得分概率,也即所 用项目反应模型。应用式 6 的关系式代换其中某些参数,由于随机误差原因,等式两边也会 稍有误差,这时可在误差最小的原则之下估出关系参数 A 和 B。其他项目(即非锚题)均可应 用这一关系完成从第 2 系统向第 1 系统的转换,从而完成统一参数的任务。 用 目反 理 的具体步项 应 论检验测题 骤 1. 建立题库(如 200 多道题) 2. 设计成套测验(如 4 套,设计铆题目-在不同套测验中重复出现的题目,如 20 题) 3. 0,1 单选计分 4. 因素分析主成分分析法分析原始数据 5. 要求:第一特征值超过第二特征值 4 倍;第一特征值所解释的变异量均在 20%以上 6. 使用 BILOGMG3. 0 软件“最大似然估计法”进行项目参数估计和模型-资料拟合度检验 7. 区分度参数 a,难度参数 b,猜测概率 c 8. 按照 IRT 的要求,删除试卷中不拟合(P<0. 05)的项目及( i)>0. 5 的项目 9. 使用 BILOGMG 3. 0 软件“同时估计参数法”进行四套试卷的项目参数等值转换 自适 考 系应 试 统 CAT CAT 考试大体分为两个阶段。第一阶段是考生能力水平的探索阶段,以求取该考生的能 力初值。一般的做法是从题库中随机调取中等难度的题目开始,若考生能正确作答,则继之以 更难的题目;若考生不能正确作答,则继之以较易的题目,到考生既有答对题目又有答错题目 时,就可以初步估计出其能力值。当然,若此考生已有历史记录,或者允许被试者自行选择能力 程度的话,这一阶段会更容易些。 第二阶段是对考生能力的不断修正。针对初步估计能力值继续从题库中挑出难度最适当、 信息量最大的题目施测,并不断地估计考生能力,逐步向考生的能力真值逼近,直到满足测量 精度要求为止,从而对考生的真实能力作出准确的评价。整个考试过程如图 2 所示。
  • 7. 基于 Web 的自适 考 系 的应 试 统 实现 1. 系统的构成 系统分为题库子系统和考试子系统两部分。题库子系统主要完成 IRT 题库的建立与维 护工作,其功能结构如图 3 所示。由于题库子系统的用户少,并出于简便、安全等方面的考虑, 采用 C/S 结构实现。 考试子系统完成在线测试工作,采用基于 Internet 的三层模型实现,其系统结构如图 4 所 示。在考试过程中,客户端的任务主要是:确定考试的起始点与结束点、与用户交互、题目的呈 现、估计用户能力值。Server 端负责处理用户的登录请求和对用户考试记录的更新,同时接受 客户端的请求,在 IRT 题库中选择与用户能力估计值相应的题目。
  • 8. 整个系统工作流程 用户经过客户端的界面代理和考试代理向 Server 发出登录请求。Server 端的考试代理接 收用户请求后,通过用户记录代理查询用户资料库,以决定是否接受用户登录。若通过,则根据 用户的记录确定考试的初始题目,返回给客户端。在考试中,界面代理处理与用户的交互,并负 责试题的呈现工作,客户端的考试代理通过界面代理得知用户的反应,便可经过计算估计用户 的能力值。再向 Server 端的考试代理请求与该能力估计值相适应的题目,同时传送用户答题 时的反应数据(如答题时间、反应类型等)。 Server 端的考试代理接受用户反应数据后,通过用户记录代理更新用户的考试记录。并 将客户端的题目请求传送给相应题库代理。相应的题库代理查询 IRT 题库,选择库中最适合 该用户测试的题目,即相对该能力估计值的题目信息量最大的题目,返回给 Server 端的考试代 理。考试代理将题目返回给客户端的考试代理,并通过界面代理呈现给用户。在考试结束后,用 户便可即时通过客户端的统计代理得知自己的考试信息,还可得到分析总结后的数据,使得用 户可以改进日后的学习。 3.2 主要算法 3.2.1 受试者的能力估计 正确估计受试者的能力是 CAT 顺利进行的前提。在考试中对被试者能力的估计常用的方法 是极大似然估计法或贝叶斯估计。但较方便和实用的是极大似然估计法。 若以 L(uj|θ)表示能力为 θ 的受试者对题目 j 的反应为 uj(若答对,uj=1;答错,uj=0)的概率。则 其中: n:题目数
  • 9. Piui:受试者答对第 i 题的概率 Qiui:受试者答错第 i 题的概率 上式通常称为似然函数,我们要对每一个反应向量(u1,u2,……,un)求出相应的!值,使似然 函数的值为最大。我们以 Newton-Raphson 法逐次迭代,求出能力的极大似然估计值(!')。 在进行考试之前,对受试者的能力值进行初始估计一般采用以下几种方法:① 选择中等 难度的试题,即假定受测者的能力为中等,在题库中随机抽取难度为中等的题目,作为测试的 开始点。②根据历史记录确定受测者的初始能力值,受测者可能参加过测试,可以根据以前的 测试记录决定此次的开始题目,或根据以前其他受测者的测试记录决定开始题目。③受测者 自行选择,由受测者自行决定自己的能力程度,选择测试起始题目。 3.2.2 抽题策略 不断抽取和受测者能力相适应的题目是 CAT 的基本原则。通常,我们利用 IRT 题库中题 目的最大信息函数来确定所选择的题目。IRT 用题目的信息函 I(!)来表示题目参数与受测者 能力的关系。 其中: !:受测者能力估计值;ai,bi,ci:第 i 题的区分度、难度、猜测系数信息量具有可加性,可以随 时估计一组试题施测的信息量的总和。对于不同能力的受测者,题目有不同的信息量,信息量 取最大值时,它所对应的能力值即是最适合于采用此题目测试的人员的能力值。因此,在 CAT 系统中,根据前面推测的能力值,系统搜寻相应信息量最大的题目进行测试。另外,还可以采用 Bayes 方法选取试题。它是以能力估计值在测试之后的改变作为选择标准,即选择使得能力估 计值在测试之后改变最小的题目进行测试。 试题参数的估计 题目参数的确定,主要是对题目 IRT 各参数值的确定,一般有两种途径:一是经试测后统 计分析,另一种是由专家进行评估后,再采用统计方法确定参数。但在建立题库的时候,我们往 往无法事先得知能力值和试题参数,因此,它们必须同时进行估计。我们可以采用上述的最大 近似值估计法来进行参数的估计,这种同时进行能力值估计与试题参数最大近似值估计的方 法,叫做联合最大近似值估计法(joint maximum likelihoodestimation,简写成 JMLE)。由于详细 的计算过程非常的繁琐,手工编程难度较大。所以采用国际上较成熟具有较高知名的项目反 应参数计算软件一 BILOGMG3 来进行题库参数的估算。 2·4 CAT 用于抑郁量表的临床测验  能标准化不同的测验结果;  能比较量表的精确度;  能快速有效地筛查抑郁症状;  能进行计算机适应测验等。 但 IRT 模式的数学复杂性和参数估计程序的复杂性及缺乏很好适合于心理测量领域的 支持性的软件和文献等限制了它的使用。
  • 10. GardneW[5] 等 对 307 名 心 身 疾 病 患 者 采 用 CAT 进 行 21 项 抑 郁 自 评 问 卷 (Beck Depression Inventory,BDI)测验,测验开始询问的是建立在参与者潜在抑郁评分假设最大信息 量的问题。这是 21 项 BDI 的第 7 个问题,涉及的是被试者的自我失望。把受试者对问题 7 的 实际反应定为在测验阶段的第一个问题。计算机立即对他的能力进行估计,并马上根据估计 值确立下一个要呈现的题目,当被试者的评分计算到指定的精确度,测验终止。结果显示 CAT 下的 BDI 询问的问题(平均 5·6 个项目)比整体 BDI 询问的问题(21 个项目)少。CAT 下的抑郁 评分与 BDI 总的评分有相关性(r=0·92),CAT 下的抑郁评分与 HAMD 的评分有相关性 (r=0·74),比与 BDI 的总评分与 HAMD 的评分的相关性( r= 0·70)要高。CAT 下的 BDI 把受试 者 作 业 特 征 (Receiver operating characteristic,ROC) 的 曲 线 下 面 积 (The area under thecurve,AUC)用作重型抑郁症的一个指示,AUC 为 88%,显示与整体 BDI 等量。提示 CAT 测 验可能在识别重型抑郁症或测量抑郁严重程度上能提高效率而没有影响到测量精确度。Rose M[11]等采用 CAT 对 114 名心身疾病患者和 201 名健康人进行抑郁症状调查, 3 名评定者评 定了抑郁项目池中获得的 320 个项目,一些不符合 IRT 分析的假设要求的项目(如食欲减退、 体重减轻)被删除。留下的 64 个项目涉及抑郁心境、注意集中、自尊和自杀思维等。CAT 测验 在估计受试者能力的基础上,在 64 个项目的项目池中搜索适合测试的项目进行测试,CAT 下 的抑郁症潜在特质能被大约 6 个项目在 1·7±1·1 分钟计算出来,提示所需要的项目数少及计 算机运行速度快大大减少了被试的测验时间。CAT 下的抑郁评分与所有获得的项目评分 (r=0·95)和 CES-D 抑郁评分(r=0·85)相关。并且显示 CAT 下的抑郁评分对持续的潜在特质的 高分和低分有一个较好的区别度。提示 CAT 下的抑郁量表的临床测验能显著减少测验时间, 也能减少在纸笔测验中产生的费用。 四参数 斯蒂克 模型逻辑 计时 Pi 表示被试 i 的速度参数,dj 是项目 j 的速度参数,tij 是被试 i 在项目 j 上的反应时即作答 时间。被试速度、项目速度以及反应时的单位均为秒。与三参数逻辑斯蒂克模型相比,该模型 中的项目参数加了一个速度参数,变成四个参数,因此该模型又称四参数逻辑斯蒂克计时 模型,简称 4PIJRT。4PLRT 属于 0 一 l 计分模型。 (1)它可以用于具有时间限制的能力测验的项目参数的估计。只要实际的作答机制与模型的 要求相符合,加入时间这一因素可以更加精确地对传统项目参数 a、b、c 进行估计。 (2)可以用项目反应时参加推断被试的能力 0,如果用于计算机化自适应测验(CAT),对被试 能力进行推断即能力参数的条件估计,可以使得能力的估计更快地向真值收敛,从而减少 实施的项目数量和测试的时间。 (3)该模型可以用于推断被试是否又快又准确地解决问题。 (4)可以用于在时间限制条件下,对被试的策略选择进行分析。
  • 11. (5)可以用于鉴别被试的随机猜测行为和处理在 CAT 条件下的不完全测验。 系统主要包括以下八个部分 (1)系统管理模块:主要用于管理员对整个系统进行维护和调整(包括帐户管理系统、被试信息 管理和题库建设与管理)。 (2)测验控制模块:这是整个测验部分的核心模块,控制整个测验过程(包括调题策略、计分系 统和自动终止策略)。 (3)被试输入模块:用于记录被试对系统给出的题目的作答结果(包括本机作答和远程作答)。 (4)结果输出模块:负责测验结果的整理,并把最终结果呈现给用户(包括仿真答卷输出、测验 结果输出和团体分析数据输出)。 (5)数据分析模块:根据研究的需要,对测验数据进行各种分析。 (6)网络管理模块:实现测验的网络化,可以进行大规模在线测验。 (7)其他辅助系统:为促使测验更加完善、更具人性化而设计的模块。 (8)被试模拟系统:模拟真实被试的作答结果,辅助题库管理。 江西师范大学,开发国内较早且较为实用的参数估计程序 MLE 一 CJ 、ANOTE。 常用的项目反应模型主要有以下几种: (l)正态肩形曲线模型(Nominal Categorieo Model) 这是洛德于 1952 年提出的第一个双参数项目反应模型,它采用了正态累积分布函数的 形式,其表达式如下:
  • 12. 其中 θ 为被试的特质水平,取值范围是正负无穷。Pi(θ)表示特质水平为 θ 的被试在项目 i 上正确作答的概率,并且其取值在负无穷时取 O,在正无穷时取 1。a 为项目的区分度,在 正态肩形曲线的图形中表示曲线在拐点 b,处的切线斜率(参见图 2-1)。b 为项目的难度参数, 在正态肩形曲线的图形中表示曲线的拐点,也是曲线的对称中心(参见图 2-1)。 实际上根据项目反应模型常用的三个参数 a(区分度参数)、b(难度参数)、c(猜测参数), 还可以导出正态肩形曲线的单参模型和三参模型,它们分别如下 (2)拉希模型(RashcModel) 丹麦学者拉希(Rashc)是最早独立研究项目反应模型获得巨大成功的学者之一。拉希模 型实际上包括三个模型:用于阅读测验的泊松模型、用于智力和成就测验的“测验项目的结构 模型”和特指的拉希模型。人们所熟知的就是他的第三个模型,这里也只介绍这一模型,其 表达式如下 其中 θ 为被试的特质水平,bi 为项目难度参数,Pi(θ)表示特制水平为 0 的被试在项目 i 上正 确作答的概率。拉希模型中只有一个难度参数而没有区分度参数,因为拉希认为,用一批项 目去测被试,就是要在一个线性系统上去确定被试的特质水平,除了项目难度之外,应该 维持所有项目有相同的性质。根据这一逻辑,拉希模型的项目特征曲线除了它们在横轴上的 位置不同外全都是一样的形状(参见图 2-2)。
  • 13. (3)逻辑斯蒂克模型(LogistieModel) (4)名称选项模型(NonlinalCategorioeModel) 名称选项模型(有些教材中也称为称名选项模型)是伯克(Bock)于 1972 年提出的一个项目反 应模型,它适用于多重选择,且各个选项之间无等级关系的题目。模型的函数表达式如下 其 中, Pih(θ) 表示 特质 水平 为 0 的被 试在 项目 i 的 第 h 个 选项 上作 选择 的概 率 (=1,2,3,…n;h=1,2,3,…m,)。aih 和 cih 是与项目 i 的第 h 个选项有关的项目参数 。 Pih(θ)称为选项反应函数,且 mi 个 Pih(θ)之和为 1,即对任何一个被试,他在所有选项上的 选择概率之和为 1。图 2-4 为一个项目的四个选项的名称选项模型特征曲线,由图可以看出, 多值评分项目的选项反应函数并不都是单调的。 (5)等级反应模型(Grdaed Response Model) 这个模型是塞姆吉玛 Samejima 在逻辑斯蒂克模型的框架下建立起来的用于多等级评分 资料的模型,它突破了过去项目反应模型只能用于二值评分项目的限制。后来这个模型发展 成为一系列模型,其中最常见的是同质模型。下面是等级反应模型的两种具体形式
  • 14. ui 表示被试在第 i 个项目上的反应记录,其值可能是第 i 项目上 m+i1 个等第中的任何 一个。ai 表示第 i 个项目的区分度,bui 表示第 ui 等级的等级难度,D 为量表因子,一般为 1.7。等级反应模型要求一个项目各个等级上的难度严格单调递增,即有 (6)分部评分模型(Partial Credit Model) 分部评分模型是由马斯特斯(Masters)于 1982 年提出来的,是拉希二值评分项目模型的 一种应用,主要用于多值评分项目的计分,它包含两组参数,一组是被试能力参数,另一 组是项目难度参数。两组参数都在一种潜在特质上定位。分部评分模型的函数表达式如下 在 分 部 评 分 模 型 中 , 项 目 的 难度参数并不一定是单调的, 这是它与等级反应模型的一个很大不同。 (7)其他模型 除了以上提到的反应模型之外,还有许多其他的项目反应模型,如莫雷卡(Murkai)的 通用分部评分模型(Generalized Partial Credit Model,也称为拓展分部评分模型、拓广的分部 评分模型)、麦克唐纳德(McDonald)的多维正态肩形曲线模型(Normal Ogive Multidimensional Model)、理凯斯(Reekase)的多维线性逻辑斯蒂克模型 (Multidimensional Linear Logistic Model)、凯尔德曼(Keldemrna)的对数性多维模型(Log Linear Multidimensional Model)、埃姆布 里逊(5.E.Embretosn)的多成分潜在特质模型(Multi-Component Latent Trait Model)等。这些模 型多用于较为复杂的多维测验,在相应的参数估计程序出现之前,它们只能是一些理论设 想,因为它们的参数估计实在是太困难了,完全靠手工计算几乎是不可能完成的事情,现
  • 15. 在随着计算机在测验中的应用,以及专门计算软件的问世,这些复杂的多维模型得到了较 快的发展,但要应用在实际的计算机自适应测验中还有很长的路要走。 等值常用的方法有以下几种〔21〕 (l)均值一均值法(Mean 一 Mean) (2)均值一标准差法(Mean 一 sigma) (3)稳健的迭代加权均值一标准差法(Robust Iterative weighted Mean 一 Sigma) (4)Haebara 项目特征曲线法(Item Characteristic Curve) (5)Stocking-Lord 测验特征曲线法(Test Characteristic Curve) (6)Kim&Cohen 的最小 χ2 法(Minimum χ2 Method)