- 相關(guān)推薦
基于聯(lián)結(jié)主義的連續(xù)記分IRT模型的項(xiàng)目參數(shù)和被試能力估計(jì)
1 問(wèn)題的提出與經(jīng)典測(cè)驗(yàn)理論相比,項(xiàng)目反應(yīng)理論(簡(jiǎn)稱IRT)由于具有參數(shù)不變性、能進(jìn)行計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)等優(yōu)點(diǎn)而受到歡迎[1,2],但是也存在著不少問(wèn)題,首先是目前比較成熟的、得到廣泛應(yīng)用的IRT軟件,如BILOG、MicroCAT等,主要是運(yùn)用極大似然法或貝葉斯方法進(jìn)行項(xiàng)目參數(shù)和被試能力估計(jì)[3],一般都只能處理二值記分的項(xiàng)目,也有少數(shù)軟件可以處理等級(jí)記分的項(xiàng)目,例如MULTILOG,但對(duì)于連續(xù)記分的項(xiàng)目還缺少估計(jì)方法和工具;其次是在運(yùn)用BILOG、MicroCAT和MULTILOG等軟件時(shí)往往需要數(shù)百人的大樣本,而對(duì)于小樣本則缺少有效的估計(jì)方法,因此需要另尋途徑來(lái)解決這些問(wèn)題。
2 聯(lián)結(jié)主義理論中的級(jí)連相關(guān)模型
聯(lián)結(jié)主義理論(或稱人工神經(jīng)網(wǎng)絡(luò))是近年來(lái)得到廣泛關(guān)注的認(rèn)知心理學(xué)理論[4,5,6],它一方面可以用來(lái)模擬人的認(rèn)知活動(dòng),探討人類的信息加工機(jī)制[7],另一方面可以作為一種工具來(lái)分析系統(tǒng)的輸入和輸出之間的關(guān)系,特別是當(dāng)系統(tǒng)的輸入和輸出之間難以用顯性的數(shù)學(xué)方程表示時(shí),聯(lián)結(jié)主義模型就可以通過(guò)其本身的學(xué)習(xí)功能,在用一組已知的輸入和輸出數(shù)據(jù)對(duì)它進(jìn)行訓(xùn)練以后,就可以在一定程度上掌握了該系統(tǒng)內(nèi)部的輸入和輸出之間的關(guān)系,即建立了某種模型。如果我們?cè)俳o這個(gè)經(jīng)過(guò)訓(xùn)練的網(wǎng)絡(luò)模型以新的輸入,那么它就可以給出相應(yīng)的輸出值。因此,人們可以利用聯(lián)結(jié)主義模型的這種性質(zhì)來(lái)進(jìn)行預(yù)測(cè)和參數(shù)估計(jì)等活動(dòng)[8]。
聯(lián)結(jié)主義模型通常由一個(gè)輸入層、一個(gè)輸出層和若干個(gè)隱含層組成,每一層中含有若干個(gè)結(jié)點(diǎn),一個(gè)模型中所含的隱含層數(shù)目和各層所含結(jié)點(diǎn)數(shù)目,是由具體問(wèn)題的性質(zhì)和復(fù)雜程度來(lái)確定的。各個(gè)結(jié)點(diǎn)之間的聯(lián)結(jié)具有一定的權(quán)重,它的大小反映了相鄰兩個(gè)結(jié)點(diǎn)之間相互影響的程度,在模型被訓(xùn)練的過(guò)程中,各結(jié)點(diǎn)間的權(quán)重得到了調(diào)整。
聯(lián)結(jié)主義模型通?梢苑譃殪o態(tài)型和動(dòng)態(tài)型兩種,靜態(tài)型模型的拓?fù)浣Y(jié)構(gòu)是實(shí)驗(yàn)者在一開(kāi)始的時(shí)候就設(shè)計(jì)好的,它的訓(xùn)練過(guò)程就是調(diào)節(jié)各結(jié)點(diǎn)之間的權(quán)重。動(dòng)態(tài)型模型的拓?fù)浣Y(jié)構(gòu)是在訓(xùn)練過(guò)程中不斷變化的,它能夠隨著訓(xùn)練的進(jìn)行,自動(dòng)地加入新的隱含結(jié)點(diǎn),同時(shí)也調(diào)整各結(jié)點(diǎn)間的聯(lián)結(jié)權(quán)重,這樣就可以更快地減少訓(xùn)練誤差。
級(jí)連相關(guān)模型是動(dòng)態(tài)型聯(lián)結(jié)主義模型中的一種[9],它的計(jì)算精度較高,運(yùn)算速度較快。在開(kāi)始訓(xùn)練時(shí),該模型只有輸入層和輸出層,處于最小拓?fù)浣Y(jié)構(gòu)。隨著訓(xùn)練過(guò)程的進(jìn)行,它能夠根據(jù)需要自動(dòng)地逐個(gè)加入隱含結(jié)點(diǎn)。該模型的訓(xùn)練分為輸出和輸入兩個(gè)階段交替進(jìn)行,首先是輸出階段,在這一階段,模型對(duì)聯(lián)結(jié)隱含結(jié)點(diǎn)和輸出結(jié)點(diǎn)間的各權(quán)重進(jìn)行調(diào)整,直到誤差不再減少為止;然后轉(zhuǎn)至輸入階段,在這一階段,模型對(duì)于聯(lián)結(jié)輸入結(jié)點(diǎn)和候選隱含結(jié)點(diǎn)間的各個(gè)權(quán)重進(jìn)行調(diào)整,并從中選出其輸出變量和網(wǎng)絡(luò)的誤差變量間相關(guān)為最大的候選隱含結(jié)點(diǎn),把它裝入網(wǎng)絡(luò),這樣使得每次裝入的新隱含結(jié)點(diǎn)都能最大程度地影響誤差的變化。然后再轉(zhuǎn)至輸出階段,這個(gè)過(guò)程不斷重復(fù),直到達(dá)到預(yù)定的訓(xùn)練精度。在本研究中,由于無(wú)法事先確定模型的拓?fù)浣Y(jié)構(gòu),以及為了較快地對(duì)模型進(jìn)行訓(xùn)練和達(dá)到較好的訓(xùn)練和測(cè)試效果,采用了級(jí)連相關(guān)模型作為研究的工具。
3 連續(xù)記分IRT模型
連續(xù)記分IRT模型是二值記分IRT模型的擴(kuò)展,即它的記分不是按照二值邏輯的全對(duì)或全錯(cuò)的方式來(lái)進(jìn)行,而是根據(jù)被試答對(duì)項(xiàng)目的程度來(lái)進(jìn)行記分,如果全對(duì)該題目就得滿分。由于各題目的滿分值不一樣,有的是3分、5分、6分或更高的分?jǐn)?shù),為了統(tǒng)一起見(jiàn),可以對(duì)它們進(jìn)行歸一化處理,全部轉(zhuǎn)化為0至1的值。這樣就可以和下面的三參數(shù)邏輯斯諦模型中的P(θ)相一致。Samejima[10]、Muller[11]和Mullenbergh[12]等都對(duì)連續(xù)記分IRT模型進(jìn)行過(guò)研究,它和二值記分模型一樣,可以用正態(tài)卵形模型和邏輯斯諦模型表示。對(duì)于常用的三參數(shù)邏輯斯諦模型,它的表示式為:
P(θ)=c[,i]+(1-c[,i])exp[1.7a[,i](θ-b[,i])]/{1+exp[1.7a[,i](θ-bi)]}
在該模型中,式中的ai、bi和ci分別為第i個(gè)項(xiàng)目的區(qū)分度、難度和猜測(cè)參數(shù),θ為某個(gè)被試的能力,P(θ)為該被試答對(duì)第i個(gè)項(xiàng)目的概率,它的值為0至1,這是一個(gè)連續(xù)的值。
雖然有些學(xué)者對(duì)于該模型進(jìn)行了一些研究,但是他們的研究還只是涉及該模型的性質(zhì)、信息函數(shù)的定義、參數(shù)不變性等方面,在具有實(shí)用意義的參數(shù)和被試能力估計(jì)方面還沒(méi)有成熟的結(jié)果。
為了對(duì)連續(xù)記分IRT模型的參數(shù)估計(jì)問(wèn)題進(jìn)行研究,作者對(duì)目前常用的幾個(gè)IRT軟件的算法進(jìn)行分析[13,14],發(fā)現(xiàn)它們的共同特點(diǎn)都是運(yùn)用統(tǒng)計(jì)的方法來(lái)進(jìn)行參數(shù)估計(jì),都無(wú)法對(duì)小樣本情況下的IRT連續(xù)記分模型進(jìn)行參數(shù)估計(jì),于是作者就決定另辟捷徑,在本研究中采用了和常用統(tǒng)計(jì)技術(shù)完全不同的聯(lián)結(jié)主義模型(人工神經(jīng)網(wǎng)絡(luò))方法。運(yùn)用統(tǒng)計(jì)方法不能完全解決的問(wèn)題,并不意味著用其它方法就不能解決,其關(guān)鍵問(wèn)題是常用的統(tǒng)計(jì)參數(shù)估計(jì)方法大多是建立在線性模型的基礎(chǔ)上的,而被試的反應(yīng)和IRT中參數(shù)之間的關(guān)系是非線性的,因此在運(yùn)用統(tǒng)計(jì)方法進(jìn)行參數(shù)估計(jì)時(shí),要采用大樣本才能得到較好的結(jié)果。而人工神經(jīng)網(wǎng)絡(luò)的輸出和輸入之間的關(guān)系本身就是非線性的,特別值得一提的是,本研究把人工神經(jīng)網(wǎng)絡(luò)的激活函數(shù)設(shè)計(jì)為S型的Sigmoid函數(shù),它的表達(dá)式為
f(x)=exp(x)/[1+exp(x)]
它和上述的三參數(shù)邏輯斯諦模型的表示式非常相似,仔細(xì)比較一下,就可以看出它實(shí)際上就是IRT模型在c[,i]=0,b[,i]=0,1.7a[,i]=1,θ=x時(shí)的特例,因此聯(lián)結(jié)主義模型(人工神經(jīng)網(wǎng)絡(luò))的這種輸出和輸入之間的非線性結(jié)構(gòu)就可以較好地處理IRT中相類似的數(shù)據(jù)關(guān)系。
4 計(jì)算機(jī)模擬實(shí)驗(yàn)的設(shè)計(jì)和實(shí)施
該實(shí)驗(yàn)的基本思想是:把一組被試對(duì)于一組項(xiàng)目的反應(yīng)矩陣作為級(jí)連相關(guān)模型(以下簡(jiǎn)稱為神經(jīng)網(wǎng)絡(luò))的輸入,這組被試的能力θ或該組項(xiàng)目的參數(shù)a、b和c作為該模型的輸出,并且用這些輸入和對(duì)應(yīng)的輸出值對(duì)該神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,經(jīng)過(guò)訓(xùn)練的網(wǎng)絡(luò)就具備了估計(jì)θ,a,b或c的能力。當(dāng)輸入一組新的反應(yīng)矩陣時(shí),該網(wǎng)絡(luò)就可以輸出所需的被試能力或項(xiàng)目參數(shù)估計(jì)值。本實(shí)驗(yàn)是用計(jì)算機(jī)模擬方法來(lái)考察運(yùn)用這種方法得到的估計(jì)值和真實(shí)值之間的誤差是否能夠達(dá)到相當(dāng)小的程度。
4.1 實(shí)驗(yàn)步驟的設(shè)計(jì)
整個(gè)實(shí)驗(yàn)分以下幾個(gè)步驟進(jìn)行:
(1)運(yùn)用蒙特卡羅方法產(chǎn)生一組均勻分布的被試能力值θ,一組均勻分布的項(xiàng)目參數(shù)值(包括項(xiàng)目區(qū)分度a、項(xiàng)目難度b和項(xiàng)目猜測(cè)參數(shù)c)。被試能力值θ的分布范圍為[-3,+3],項(xiàng)目區(qū)分度a的分布范圍為[0,2],項(xiàng)目難度b的分布范圍為[-3,+3],項(xiàng)目猜測(cè)參數(shù)c的分布范圍為[0,0.25]。
(2)根據(jù)項(xiàng)目反應(yīng)模型,讓各個(gè)模擬的被試回答各個(gè)模擬的項(xiàng)目,產(chǎn)生反應(yīng)矩陣。
(3)將該反應(yīng)矩陣作為神經(jīng)網(wǎng)絡(luò)訓(xùn)練模式的輸入部分,用所要學(xué)習(xí)的項(xiàng)目參數(shù)或被試能力作為訓(xùn)練模式的輸出部分。若要估計(jì)被試的能力,就把反應(yīng)矩陣中的每一行作為一個(gè)模式,因?yàn)樗『檬且粋(gè)被試對(duì)于一組項(xiàng)目的反應(yīng);若要估計(jì)項(xiàng)目參數(shù),就把反應(yīng)矩陣中的每一列
作為一個(gè)模式,因?yàn)樗从沉嗣恳粋(gè)項(xiàng)目被解答的情況。
(4)用上述訓(xùn)練模式對(duì)一組神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,直至達(dá)到預(yù)定的精確度為止。在本研究中為了統(tǒng)計(jì)上的方便,對(duì)30個(gè)神經(jīng)網(wǎng)絡(luò)進(jìn)行了訓(xùn)練,預(yù)定的精確度為網(wǎng)絡(luò)的目標(biāo)值和實(shí)際輸出值之間的誤差小于0.001。
(5)用經(jīng)過(guò)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)來(lái)估計(jì)被試能力和項(xiàng)目參數(shù)。在本研究中需要估計(jì)的被試能力和項(xiàng)目參數(shù)的真實(shí)值實(shí)際上是用蒙特卡羅方法產(chǎn)生的,因此可以計(jì)算出估計(jì)值(實(shí)際輸出值)和真實(shí)值的誤差,稱為測(cè)試誤差,并用下式表示:
附圖
式中,T[,p.o]為每個(gè)測(cè)試模式的每個(gè)輸出結(jié)點(diǎn)的目標(biāo)值。N[,p.o]為每個(gè)測(cè)試模式的每個(gè)輸出結(jié)點(diǎn)的實(shí)際輸出值。p是測(cè)試模式的數(shù)目,o是輸出結(jié)點(diǎn)的數(shù)目。根據(jù)測(cè)試誤差E的大小,可以看出經(jīng)過(guò)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)是否真正可以對(duì)項(xiàng)目參數(shù)和被試能力進(jìn)行很好的估計(jì)。
4.2 預(yù)備實(shí)驗(yàn)
由于在正式對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練以前,對(duì)于要用什么樣的模式來(lái)訓(xùn)練沒(méi)有任何先驗(yàn)的知識(shí),為此先進(jìn)行預(yù)備實(shí)驗(yàn)。和正式實(shí)驗(yàn)的步驟一樣,首先運(yùn)用蒙特卡羅方法產(chǎn)生25個(gè)被試對(duì)15個(gè)項(xiàng)目的反應(yīng)矩陣,用這一矩陣和相應(yīng)的被試能力或項(xiàng)目參數(shù)組成4組訓(xùn)練模式,分別用以估計(jì)θ,a,b和c。在對(duì)被試能力進(jìn)行估計(jì)時(shí),將矩陣的行作為一組神經(jīng)網(wǎng)絡(luò)訓(xùn)練模式的輸入部分,因?yàn)榫仃嚨囊恍袛?shù)據(jù)就代表了一個(gè)被試對(duì)所有項(xiàng)目的反應(yīng);相應(yīng)被試的θ值作為訓(xùn)練模式的輸出部分,因?yàn)樗砹吮辉嚨哪芰χ。在?duì)項(xiàng)目參數(shù)進(jìn)行估計(jì)時(shí),將矩陣的列作為一組神經(jīng)網(wǎng)絡(luò)訓(xùn)練模式的輸入部分,因?yàn)榫仃嚨囊涣袛?shù)據(jù)就代表了所有被試對(duì)一個(gè)項(xiàng)目的反應(yīng);相應(yīng)項(xiàng)目的a,b或c值作為訓(xùn)練模式的輸出部分,因?yàn)樗砹隧?xiàng)目的參數(shù)值。就用這些訓(xùn)練模式分別對(duì)4組神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,這4組神經(jīng)網(wǎng)絡(luò)分別對(duì)應(yīng)于被試能力和項(xiàng)目的三個(gè)參數(shù),每組有30個(gè)網(wǎng)絡(luò)。然后,再用蒙特卡羅方法產(chǎn)生另外25個(gè)被試對(duì)另外15個(gè)項(xiàng)目的反應(yīng)矩陣,并用已經(jīng)訓(xùn)練過(guò)的網(wǎng)絡(luò)對(duì)這個(gè)反應(yīng)矩陣估計(jì)θ,a,b和c,記錄下測(cè)試誤差。其結(jié)果表明,雖然可以進(jìn)行被試能力和項(xiàng)目參數(shù)的估計(jì),但誤差較大,無(wú)法達(dá)到實(shí)際應(yīng)用的精確度。根據(jù)神經(jīng)網(wǎng)絡(luò)訓(xùn)練的一般規(guī)律,估計(jì)出現(xiàn)這一情況的原因有兩條,一是訓(xùn)練模式太少,二是訓(xùn)練模式和測(cè)試模式之間沒(méi)有任何聯(lián)系,即沒(méi)有用“錨題”或“錨人”把它們聯(lián)系起來(lái),改進(jìn)的方法可以是增加訓(xùn)練模式,或運(yùn)用一定的“錨題”或“錨人”方法,在本研究中先用“錨題”的方法進(jìn)行試驗(yàn)(具體方法在進(jìn)行正式實(shí)驗(yàn)時(shí)詳述),試驗(yàn)的效果很好,然后進(jìn)行下面的正式實(shí)驗(yàn)。
4.3 正式實(shí)驗(yàn)
(1)步驟1:產(chǎn)生訓(xùn)練矩陣和測(cè)試矩陣
運(yùn)用蒙特卡羅方法產(chǎn)生25個(gè)被試(稱為第一組被試)對(duì)45個(gè)項(xiàng)目(稱為第一組項(xiàng)目)的反應(yīng)矩陣(稱為第一矩陣),這一矩陣在下面的實(shí)驗(yàn)中將作為測(cè)試矩陣;從該45個(gè)項(xiàng)目中隨機(jī)取出15個(gè)項(xiàng)目(稱為第二組項(xiàng)目),再用蒙特卡羅方法產(chǎn)生另外25個(gè)被試(稱為第二組被試),令它們和上述隨機(jī)取出的第二組項(xiàng)目起反應(yīng),產(chǎn)生另一個(gè)反應(yīng)矩陣(稱為第二矩陣),用它作為訓(xùn)練模式的一部分,由此可見(jiàn),訓(xùn)練矩陣和測(cè)試矩陣之間有15個(gè)項(xiàng)目作為“錨題”,如下面圖1所示。
附圖
圖1 被試、項(xiàng)目和反應(yīng)矩陣
圖1中的第三組項(xiàng)目和第三矩陣將在下面作解釋。
(2)步驟2:建立能力訓(xùn)練模式
用“第二矩陣”中的每一行作為一個(gè)模式的輸入,其相應(yīng)的25個(gè)第二組被試的能力值作為輸出,組成能力訓(xùn)練模式,對(duì)一組神經(jīng)網(wǎng)絡(luò)(共30個(gè),稱為第一組神經(jīng)網(wǎng)絡(luò))進(jìn)行訓(xùn)練。
(3)步驟3:建立能力測(cè)試模式并進(jìn)行測(cè)試
將“第一矩陣”中的每一行作為一個(gè)模式的輸入,相應(yīng)的第一組被試的25個(gè)能力值作為輸出,組成能力測(cè)試模式,用上述經(jīng)過(guò)訓(xùn)練的第一組神經(jīng)網(wǎng)絡(luò)對(duì)其進(jìn)行測(cè)試。這時(shí),實(shí)際上是神經(jīng)網(wǎng)絡(luò)對(duì)第一組被試的能力值進(jìn)行估計(jì)。然后,將估計(jì)值和真實(shí)值進(jìn)行比較,記錄下測(cè)試誤差,如表1左邊第1列所示,要注意的是,表中記錄的是30個(gè)網(wǎng)絡(luò)的測(cè)試誤差實(shí)際值,根據(jù)公式可見(jiàn),它是所有輸出結(jié)點(diǎn)和所有測(cè)試模式的誤差總和。由于本研究中只有一個(gè)輸出結(jié)點(diǎn),有25個(gè)測(cè)試模式(因?yàn)橛?5個(gè)被試),因此要將表中的測(cè)驗(yàn)誤差實(shí)際值除以25,得到對(duì)單個(gè)測(cè)試模式的測(cè)試誤差,然后,再計(jì)算其平均數(shù)M和標(biāo)準(zhǔn)差SD,結(jié)果如表2所示,可以看出測(cè)試誤差是比較小的。由此可見(jiàn),當(dāng)測(cè)試模式中有部分項(xiàng)目(本例中為15個(gè)項(xiàng)目)和訓(xùn)練模式相同時(shí),經(jīng)過(guò)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)可以對(duì)被試的θ進(jìn)行很好的估計(jì)。應(yīng)該指出的是,測(cè)試模式和訓(xùn)練模式中沒(méi)有被試是重復(fù)相同的,這說(shuō)明經(jīng)過(guò)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)確實(shí)可以對(duì)新的被試進(jìn)行能力估計(jì)。
表1 測(cè)試誤差
θ a b c
0.129 2.239 2.982 0.065
0.084 1.843 2.976 0.056
0.243 2.016 2.798 0.069
0.324 1.804 2.133 0.058
0.126 2.159 2.556 0.027
0.201 2.224 2.399 0.067
0.288 2.246 2.617 0.043
0.114 1.741 2.834 0.065
0.189 1.937 2.347 0.076
0.249 2.295 2.745 0.092
0.264 2.319 2.433 0.065
0.321 2.382 2.030 0.044
0.105 2.136 2.231 0.093
0.132 2.061 2.244 0.023
0.153 2.019 2.868 0.068
0.279 2
.270 2.042 0.044
0.204 2.196 1.850 0.099
0.102 1.950 2.597 0.059
0.105 1.732 1.709 0.089
0.282 1.764 2.328 0.072
0.228 2.281 2.556 0.114
0.256 2.089 1.961 0.071
0.222 2.445 2.002 0.093
0.210 1.666 2.243 0.035
0.138 1.743 2.441 0.075
0.201 2.438 2.034 0.080
0.171 1.740 2.100 0.106
0.246 2.307 2.594 0.069
0.195 1.577 2.535 0.057
0.213 2.436 2.199 0.057
(4)步驟4:建立項(xiàng)目參數(shù)訓(xùn)練模式
當(dāng)估計(jì)項(xiàng)目參數(shù)時(shí),將“第一矩陣”中的每一列作為一個(gè)模式的輸入,因?yàn)槊恳涣卸即硭斜辉噷?duì)一個(gè)項(xiàng)目的反應(yīng)情況,于是可以將與各列相應(yīng)項(xiàng)目的a、b或c作為輸出,組成項(xiàng)目參數(shù)訓(xùn)練模式,用該模式對(duì)一組神經(jīng)網(wǎng)絡(luò)(共30個(gè),稱為第二組神經(jīng)網(wǎng)絡(luò))進(jìn)行訓(xùn)練。
(5)步驟5:建立項(xiàng)目參數(shù)測(cè)試模式并進(jìn)行測(cè)試
用蒙特卡羅方法產(chǎn)生15個(gè)項(xiàng)目(稱為第三組項(xiàng)目)的參數(shù)a、b、c,并用原先已經(jīng)產(chǎn)生的第一組被試的θ值對(duì)它們起反應(yīng),產(chǎn)生反應(yīng)矩陣(稱為“第三矩陣”)。然后,將“第三矩陣”中的每一列作為模式的輸入,相應(yīng)的15個(gè)項(xiàng)目的參數(shù)a、b或c作為輸出,組成測(cè)試模式。用經(jīng)過(guò)訓(xùn)練的第二組神經(jīng)網(wǎng)絡(luò)對(duì)其進(jìn)行測(cè)試,也就是由神經(jīng)網(wǎng)絡(luò)對(duì)第三組項(xiàng)目進(jìn)行參數(shù)估計(jì),然后將估計(jì)值和真實(shí)值進(jìn)行比較,記錄下測(cè)試誤差,如表1的2、3、4列所示。和對(duì)θ估計(jì)的測(cè)試誤差一樣,它是所有測(cè)試模式的誤差之和。這里共有15個(gè)測(cè)試模式(即上述的第三組項(xiàng)目)。因此要把表1中的的2、3、4列數(shù)字除以15,再求平均數(shù)M和標(biāo)準(zhǔn)差SD,得到結(jié)果在表2中。
表2 單個(gè)模式測(cè)試誤差的平均數(shù)和標(biāo)準(zhǔn)差
統(tǒng)計(jì)項(xiàng) θ a b c
M 0.0027 0.1379 0.1586 0.0045
SD 0.0009 0.0174 0.0227 0.0015
4.4 減少項(xiàng)目參數(shù)的測(cè)試誤差的實(shí)驗(yàn)
從表2的數(shù)據(jù)可以看出,上述方法對(duì)于θ的估計(jì)已經(jīng)達(dá)到了較好的精度,但對(duì)于a、b和c的估計(jì)誤差仍然比較大。于是再用增加訓(xùn)練模式的方法來(lái)試圖減少測(cè)試誤差。上述在訓(xùn)練第二組神經(jīng)網(wǎng)絡(luò)時(shí),是用“第一矩陣”中的每一列作為模式的輸入,該矩陣共有45列,相應(yīng)于第一組的45個(gè)項(xiàng)目,F(xiàn)在將這組項(xiàng)目擴(kuò)大,即增加到60個(gè),75個(gè),90個(gè)和105個(gè),這些項(xiàng)目的參數(shù)都是用蒙特卡羅方法產(chǎn)生的。然后,拿第一組25個(gè)被試的θ值和它們起反應(yīng),用產(chǎn)生的反應(yīng)矩陣和相應(yīng)的項(xiàng)目參數(shù)作為訓(xùn)練模式,對(duì)30個(gè)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,并重復(fù)上述步驟4和步驟5,得到在各種不同數(shù)量的訓(xùn)練模式條件下的a、b和c的單個(gè)模式測(cè)試誤差的平均數(shù)M和標(biāo)準(zhǔn)差SD,如表3所示。從表中數(shù)據(jù)可以看出,隨著訓(xùn)練項(xiàng)目數(shù)的增加,對(duì)項(xiàng)目參數(shù)a、b和c的測(cè)試誤差都有明顯降低,當(dāng)項(xiàng)目數(shù)達(dá)到105時(shí),基本上已經(jīng)可以接受參數(shù)估計(jì)的結(jié)果了。
附圖
從上面的討論可以看出,在該計(jì)算機(jī)模擬實(shí)驗(yàn)中,共有兩組被試,第一組被試是用于能力測(cè)試模式的,第二組被試是用于能力訓(xùn)練模式的;該實(shí)驗(yàn)中有三組項(xiàng)目,其中的第二組項(xiàng)目是第一組的一部分,第一組項(xiàng)目用于項(xiàng)目參數(shù)訓(xùn)練和能力測(cè)試模式的,第三組項(xiàng)目是用于項(xiàng)目參數(shù)測(cè)試模式的,第二組項(xiàng)目是用于能力訓(xùn)練模式的;該實(shí)驗(yàn)中有三個(gè)反應(yīng)矩陣,其中的第一矩陣又被分為左、右兩個(gè)部分,左部分是由被抽取出來(lái)的第二組項(xiàng)目產(chǎn)生的,右部分是由其余項(xiàng)目產(chǎn)生的,第二矩陣的“行”作為能力訓(xùn)練模式,第一矩陣的“行”作為能力測(cè)試模式,第一矩陣的“列”作為項(xiàng)目參數(shù)訓(xùn)練模式,第三矩陣的“列”作為項(xiàng)目參數(shù)測(cè)試模式。
4.5 實(shí)際測(cè)驗(yàn)中的被試能力和項(xiàng)目參數(shù)估計(jì)步驟小結(jié)
上述的實(shí)驗(yàn)是在計(jì)算機(jī)模擬的情況下了產(chǎn)生的各組被試能力和項(xiàng)目參數(shù),在實(shí)際的測(cè)驗(yàn)情況中,可以按照以下步驟來(lái)進(jìn)行測(cè)驗(yàn)編制以及被試能力和項(xiàng)目參數(shù)估計(jì):
(1)在已知項(xiàng)目參數(shù)的題庫(kù)中取出若干個(gè)項(xiàng)目(類似于上述模擬實(shí)驗(yàn)中的第二組項(xiàng)目,這些項(xiàng)目可以是二值記分的,它可以事先通過(guò)BILOG等估計(jì)得到),再加上自行編制的、未知參數(shù)的若干項(xiàng)目(類似于上述模擬實(shí)驗(yàn)中第三組項(xiàng)目),混合后組成實(shí)際的測(cè)驗(yàn)試卷。
(2)用這一試卷對(duì)一組真實(shí)的被試(類似于上述模擬實(shí)驗(yàn)中的第一組被試)進(jìn)行測(cè)試,得到一組實(shí)際的結(jié)果。
(3)用蒙特卡羅方法產(chǎn)生一組被試的能力值(類似于上述模擬實(shí)驗(yàn)中的第二組被試),令它和真實(shí)試卷中的已知項(xiàng)目參數(shù)的那部分項(xiàng)目(類似于上述模擬實(shí)驗(yàn)中的第二組項(xiàng)目)起反應(yīng),得到反應(yīng)矩陣(類似于上述模擬實(shí)驗(yàn)中的第二矩陣)。
(4)用這一矩陣和這組蒙特卡羅方法產(chǎn)生的被試能力值組成能力訓(xùn)練模式,對(duì)一組神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。
(5)用真實(shí)的測(cè)驗(yàn)結(jié)果矩陣的每一行作為一個(gè)模式的輸入部分,輸入上述經(jīng)過(guò)訓(xùn)練的神經(jīng)網(wǎng)絡(luò),其輸出就是真實(shí)被試的能力估計(jì)值。
(6)運(yùn)用蒙特卡羅方法產(chǎn)生一組項(xiàng)目參數(shù),根據(jù)上述的模擬實(shí)驗(yàn),大約要有100個(gè)項(xiàng)
目的參數(shù),令真實(shí)被試的能力估計(jì)值和它們起反應(yīng),得到一個(gè)反應(yīng)矩陣(類似于上述模擬實(shí)驗(yàn)中的第一矩陣右部分)。用這個(gè)矩陣中的每一列和相應(yīng)的蒙特卡羅方法產(chǎn)生的項(xiàng)目參數(shù)組成訓(xùn)練模式,對(duì)另一組神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,使之具有估計(jì)項(xiàng)目參數(shù)的功能。
(7)將這一經(jīng)過(guò)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)對(duì)真實(shí)測(cè)驗(yàn)中未知參數(shù)的那部分項(xiàng)目(類似于上述模擬實(shí)驗(yàn)中的第三組項(xiàng)目)進(jìn)行參數(shù)估計(jì),從而得到這些項(xiàng)目的參數(shù)估計(jì)值。
至此,就把實(shí)際的被試能力和項(xiàng)目參數(shù)估計(jì)出來(lái)了。對(duì)照上述模擬實(shí)驗(yàn)的圖1,其中的第一矩陣左部分和第三矩陣是由真實(shí)測(cè)驗(yàn)的數(shù)據(jù)產(chǎn)生的,第一矩陣的右部分和第二矩陣是用蒙特卡羅方法產(chǎn)生的。
5 討論
5.1 該方法的優(yōu)點(diǎn)
(1)提出了一種全新的IRT項(xiàng)目參數(shù)和被試能力的估計(jì)方法,以往的方法都是建立在統(tǒng)計(jì)基礎(chǔ)上的,而該方法則是建立在聯(lián)結(jié)主義理論(人工神經(jīng)網(wǎng)絡(luò))基礎(chǔ)上的。
(2)以往的方法多數(shù)只能對(duì)二值記分的IRT模型進(jìn)行參數(shù)估計(jì),本研究中的方法則可以對(duì)連續(xù)記分的IRT模型進(jìn)行參數(shù)估計(jì)。由于人工神經(jīng)網(wǎng)絡(luò)有很強(qiáng)的學(xué)習(xí)功能,因此從理論上講,它也可以用于等級(jí)記分和二值記分的IRT模型,當(dāng)然,這有待于進(jìn)一步的實(shí)驗(yàn)研究。
(3)本研究中用于估計(jì)被試能力的樣本只有25人,用于估計(jì)項(xiàng)目參數(shù)的樣本只有15個(gè)項(xiàng)目,都屬于比較小的樣本,這說(shuō)明該方法可以用于小樣本的情況,這是以往方法所不能解決的。雖然在對(duì)神經(jīng)網(wǎng)絡(luò)訓(xùn)練時(shí)可能要用到較多的訓(xùn)練模式,但這些模式是可以用蒙特卡羅方法產(chǎn)生的,并不要擴(kuò)大實(shí)際的測(cè)驗(yàn)樣本。
(4)在使用一般的統(tǒng)計(jì)方法處理小樣本的數(shù)據(jù)時(shí),確實(shí)存在著參數(shù)估計(jì)的可靠性問(wèn)題,但是本實(shí)驗(yàn)的研究表明,在運(yùn)用與統(tǒng)計(jì)方法完全不同的聯(lián)結(jié)主義(人工神經(jīng)網(wǎng)絡(luò))方法處理數(shù)據(jù)時(shí),就有可能克服這一困難。這是什么原因呢?在對(duì)人工神經(jīng)網(wǎng)絡(luò)理論進(jìn)行深入探討以后[15~17],可以發(fā)現(xiàn)神經(jīng)網(wǎng)絡(luò)在對(duì)IRT參數(shù)進(jìn)行估計(jì)時(shí),并不是一開(kāi)始就直接根據(jù)原始數(shù)據(jù)來(lái)估計(jì)參數(shù),而是先對(duì)一組神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,使它們首先具備了這方面的知識(shí),然后再用訓(xùn)練過(guò)的神經(jīng)網(wǎng)絡(luò)對(duì)IRT參數(shù)進(jìn)行估計(jì),這種參數(shù)估計(jì)的可靠性如何,并不取決于被估計(jì)的樣本的大小,而是取決于對(duì)這些神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練的樣本的數(shù)量、質(zhì)量以及神經(jīng)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)和算法。在這其中,訓(xùn)練模式是研究者運(yùn)用蒙特卡羅方法產(chǎn)生的,它本身并不是一個(gè)小樣本,而是一個(gè)比較大的樣本;產(chǎn)生這些數(shù)據(jù)的模型就是IRT模型本身,因此數(shù)據(jù)本身的質(zhì)量是有保證的。關(guān)于神經(jīng)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu),在大多數(shù)情況下是要通過(guò)預(yù)測(cè)和調(diào)整學(xué)習(xí)率等參數(shù)來(lái)確定隱含層的數(shù)量和其中每一層的神經(jīng)元的數(shù)量,但由于本研究采用的是級(jí)聯(lián)相關(guān)模型,它可以根據(jù)反傳誤差的大小自動(dòng)地調(diào)整網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)和聯(lián)結(jié)權(quán)重,因此可以自動(dòng)地建立優(yōu)化的網(wǎng)絡(luò)結(jié)構(gòu),不再需要考慮學(xué)習(xí)率等問(wèn)題;另外在人工神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過(guò)程中,本研究的程序設(shè)計(jì)也使得只有誤差達(dá)到預(yù)定的很小的數(shù)值時(shí),訓(xùn)練過(guò)程才停止,這就保證了被訓(xùn)練過(guò)的神經(jīng)網(wǎng)絡(luò)是較高質(zhì)量的。由此可見(jiàn),聯(lián)結(jié)主義(人工神經(jīng)網(wǎng)絡(luò))模型是采用了和一般統(tǒng)計(jì)技術(shù)完全不同的思路和方法,它對(duì)IRT參數(shù)估計(jì)的可靠性主要不是取決于被估計(jì)樣本的大小,而是依賴于經(jīng)過(guò)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)的質(zhì)量,因此我們只要采取一定的措施將神經(jīng)網(wǎng)絡(luò)訓(xùn)練好,就有可能對(duì)小樣本的IRT數(shù)據(jù)進(jìn)行可靠的參數(shù)估計(jì)。
5.2 需要進(jìn)一步研究的問(wèn)題
(1)首先是在編制測(cè)驗(yàn)時(shí),需要一部分已知項(xiàng)目參數(shù)的二值記分題目,這對(duì)于已經(jīng)建立題庫(kù)的學(xué)科來(lái)說(shuō)是可以做到的,但對(duì)于尚未建立題庫(kù)的學(xué)科,就無(wú)法運(yùn)用這一方法。雖然可以用BILOG等軟件對(duì)有關(guān)的二值記分項(xiàng)目進(jìn)行參數(shù)估計(jì),但如果沒(méi)有BILOG等軟件又該怎么辦呢?要解決這個(gè)問(wèn)題,需要構(gòu)造更加復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型,筆者目前正在構(gòu)造“基于知識(shí)的級(jí)連相關(guān)模型”,并試圖用它解決這一困難,實(shí)驗(yàn)結(jié)果將另文闡述。
(2)該方法要求實(shí)際的測(cè)驗(yàn)中有一部分作為錨題的項(xiàng)目是已知參數(shù)的,那么這一部分錨題至少應(yīng)該是多少項(xiàng)目呢?它們占整個(gè)測(cè)驗(yàn)的比例至少要達(dá)到多少呢?本實(shí)驗(yàn)表明若錨題數(shù)量為15,它們?cè)谡麄(gè)測(cè)驗(yàn)中所占比例為三分之一,就可獲得良好結(jié)果,那么少于15個(gè)項(xiàng)目行不行?低于三分之一的比例行不行?筆者也正在作進(jìn)一步的實(shí)驗(yàn)。
(3)本研究中用蒙特卡羅方法產(chǎn)生虛擬的被試能力和項(xiàng)目參數(shù),那么它們的分布應(yīng)該是什么形式為最好?人工神經(jīng)網(wǎng)絡(luò)的理論認(rèn)為是均勻分布為最好,因此在本研究中采用了均勻分布。但是在對(duì)實(shí)際數(shù)據(jù)的分析中,有些數(shù)據(jù)是由真實(shí)的被試和項(xiàng)目產(chǎn)生的,不可能保證他(它)們呈完全的均勻分布,那么這種偏離均勻分布的情況對(duì)于估計(jì)值的誤差有多大影響?另外,是否可以減少虛擬數(shù)據(jù)數(shù)量甚至取消虛擬數(shù)據(jù),而完全采用真實(shí)的數(shù)據(jù)?也需要進(jìn)一步探討。
雖然有待于進(jìn)一步研究的問(wèn)題還很多,但這一實(shí)驗(yàn)畢竟提出了一種新的、有一定應(yīng)用價(jià)值的方法。
【參考文獻(xiàn)】
[1] Hambleton R K.Item Response Theory:Principles and Appli-cations.Boston:Kluwer-Nijhoff Pub,1985.58~63
[2] Yu J Y.Item Response Theory and Its Application(in Chin-ese).Nanjing:Jiangsu Education Press,1992.79~84
。ㄓ嗉卧.項(xiàng)目反應(yīng)理論及其應(yīng)用.南京:江蘇教育出版社,1992.79~84)
[3] Baker F B.Item Response Theory:Parameter Estimation Tec-hniques.New York:M.Dekker,1992.66~71
[4] McLead P.Introduction to Connectionist Modeling of Cogn-itive Processes.New York:Oxford University Press,1998.256~261
[5] Mahwah N J,Erlbaum L L.Localist Co
nnectionist Approaches to Human
Cognition.New
York:Oxford University Press,1998,188~192
[6] Anderson,J.A.An Introduction to Neural Networks.Cambrid-ge:The MIT Press,1995,136~143.
[7] Yu J Y.Studying perceptual boundary effects with connec-tionist model(in Chinese).Acta Psychologica Sinica,2001,33(2):123~126
。ㄓ嗉卧.運(yùn)用聯(lián)結(jié)主義模型研究知覺(jué)邊界效應(yīng)問(wèn)題,心理學(xué)報(bào),2001,33(2):123~126)
[8] Haykin S S.Neural Networks:A Comprehensive Foundation.Upper Saddle
River,N.N.,Press Hall,1999.178~181
[9] Fahlman S E,Lebiere C.The Cascade-correlation learning architecture.In:Touretzky D S ed.Advances in Neural Informati-on Processing Systems.Los Altos,CA:Morgan Kaufmann,1990.524~532
[10] Samejima F.Homogeneous case of the continuous response
model.Psychometrika,1973,38(3):203~219
[11] Muller H.A Rasch model for continuous ratings.Psychmet-rika,1987,52(2):165~181
[12] Mellenbergh G J.A unidimensional latent trait model forcontinuous item responses.
Multivariate Behavioral Research,1994,29(3):223~236
[13] Qi S Q,Dai H Q.Ding S L.Modern Educational and Psychol-ogical Measurement(in Chinese).Nanchang:Jiangxi Education Pre-ss,1998.126~129
。ㄆ釙(shū)青,戴海崎,丁樹(shù)良.現(xiàn)代教育與心理測(cè)量學(xué),南昌:江西教育出版社,1998.126~129)
[14] Mislevy R J,Bock R D.Manual of BILOG 3.Scientific Soft-ware,Inc.1990.27~31
[15] Wang W.Artificial Neural Network Theory:Introduction a-nd Application(in Chinese).Beijing:Beijing Aviation and Space University Press,1995.36~41
。ㄍ鮽.人工神經(jīng)網(wǎng)絡(luò)原理——入門(mén)與應(yīng)用.北京:北京航空航天大學(xué)出版社,1995.26~41)
[16] Zhao L M,Hu H Y,Wei D H.Multilevel Forward Artificial Neural Network(in Chinese).Beijing:Huanghe Water Conservancy Press,1999.52~56
。ㄚw林明,胡浩云,魏德華等.多層前向人工神經(jīng)網(wǎng)絡(luò),
北京:黃河水利出版社,1999.52~56)
[17] Yu J Y.Modern Cognitive Psychology(in Chinese).Nanjing:Jiangsu Education Press,2001.87~98
。ㄓ嗉卧.當(dāng)代認(rèn)知心理學(xué).南京:江蘇教育出版社,2001.87~98)
【基于聯(lián)結(jié)主義的連續(xù)記分IRT模型的項(xiàng)目參數(shù)和被試能力估計(jì)】相關(guān)文章:
CIMS環(huán)境下基于特征的產(chǎn)品模型08-06
基于XML的三層C/S模型08-06
基于XML的三層C/S模型08-06
淺談基于VaR模型的證券投資組合風(fēng)險(xiǎn)分析08-05
基于混合推理的高血壓藥物推薦模型研究08-18
試從修辭的創(chuàng)新談如何培養(yǎng)學(xué)生的創(chuàng)新精神和實(shí)踐能力08-07
鄉(xiāng)村自治:皇權(quán)、族權(quán)和紳?rùn)?quán)的聯(lián)結(jié)08-11