- 相關(guān)推薦
基于聯(lián)結(jié)主義的連續(xù)記分IRT模型的項目參數(shù)和被試能力估計
與經(jīng)典測驗理論相比,項目反應(yīng)理論(簡稱IRT)由于具有參數(shù)不變性、能進(jìn)行計算機(jī)化自適應(yīng)測驗等優(yōu)點而受到歡迎,但是也存在著不少問題,首先是目前比較成熟的、得到廣泛應(yīng)用的IRT軟件,如BILOG、MicroCAT等,主要是運用極大似然法或貝葉斯方法進(jìn)行項目參數(shù)和被試能力估計,一般都只能處理二值記分的項目,也有少數(shù)軟件可以處理等級記分的項目,例如MULTILOG,但對于連續(xù)記分的項目還缺少估計方法和工具;其次是在運用BILOG、MicroCAT和MULTILOG等軟件時往往需要數(shù)百人的大樣本,而對于小樣本則缺少有效的估計方法,因此需要另尋途徑來解決這些問題。
2 聯(lián)結(jié)主義理論中的級連相關(guān)模型
聯(lián)結(jié)主義理論(或稱人工神經(jīng)網(wǎng)絡(luò))是近年來得到廣泛關(guān)注的認(rèn)知心理學(xué)理論,它一方面可以用來模擬人的認(rèn)知活動,探討人類的信息加工機(jī)制,另一方面可以作為一種工具來分析系統(tǒng)的輸入和輸出之間的關(guān)系,特別是當(dāng)系統(tǒng)的輸入和輸出之間難以用顯性的數(shù)學(xué)方程表示時,聯(lián)結(jié)主義模型就可以通過其本身的學(xué)習(xí)功能,在用一組已知的輸入和輸出數(shù)據(jù)對它進(jìn)行訓(xùn)練以后,就可以在一定程度上掌握了該系統(tǒng)內(nèi)部的輸入和輸出之間的關(guān)系,即建立了某種模型。如果我們再給這個經(jīng)過訓(xùn)練的網(wǎng)絡(luò)模型以新的輸入,那么它就可以給出相應(yīng)的輸出值。因此,人們可以利用聯(lián)結(jié)主義模型的這種性質(zhì)來進(jìn)行預(yù)測和參數(shù)估計等活動。
聯(lián)結(jié)主義模型通常由一個輸入層、一個輸出層和若干個隱含層組成,每一層中含有若干個結(jié)點,一個模型中所含的隱含層數(shù)目和各層所含結(jié)點數(shù)目,是由具體問題的性質(zhì)和復(fù)雜程度來確定的。各個結(jié)點之間的聯(lián)結(jié)具有一定的權(quán)重,它的大小反映了相鄰兩個結(jié)點之間相互影響的程度,在模型被訓(xùn)練的過程中,各結(jié)點間的權(quán)重得到了調(diào)整。
聯(lián)結(jié)主義模型通?梢苑譃殪o態(tài)型和動態(tài)型兩種,靜態(tài)型模型的拓?fù)浣Y(jié)構(gòu)是實驗者在一開始的時候就設(shè)計好的,它的訓(xùn)練過程就是調(diào)節(jié)各結(jié)點之間的權(quán)重。動態(tài)型模型的拓?fù)浣Y(jié)構(gòu)是在訓(xùn)練過程中不斷變化的,它能夠隨著訓(xùn)練的進(jìn)行,自動地加入新的隱含結(jié)點,同時也調(diào)整各結(jié)點間的聯(lián)結(jié)權(quán)重,這樣就可以更快地減少訓(xùn)練誤差。
級連相關(guān)模型是動態(tài)型聯(lián)結(jié)主義模型中的一種,它的計算精度較高,運算速度較快。在開始訓(xùn)練時,該模型只有輸入層和輸出層,處于最小拓?fù)浣Y(jié)構(gòu)。隨著訓(xùn)練過程的進(jìn)行,它能夠根據(jù)需要自動地逐個加入隱含結(jié)點。該模型的訓(xùn)練分為輸出和輸入兩個階段交替進(jìn)行,首先是輸出階段,在這一階段,模型對聯(lián)結(jié)隱含結(jié)點和輸出結(jié)點間的各權(quán)重進(jìn)行調(diào)整,直到誤差不再減少為止;然后轉(zhuǎn)至輸入階段,在這一階段,模型對于聯(lián)結(jié)輸入結(jié)點和候選隱含結(jié)點間的各個權(quán)重進(jìn)行調(diào)整,并從中選出其輸出變量和網(wǎng)絡(luò)的誤差變量間相關(guān)為最大的候選隱含結(jié)點,把它裝入網(wǎng)絡(luò),這樣使得每次裝入的新隱含結(jié)點都能最大程度地影響誤差的變化。然后再轉(zhuǎn)至輸出階段,這個過程不斷重復(fù),直到達(dá)到預(yù)定的訓(xùn)練精度。在本研究中,由于無法事先確定模型的拓?fù)浣Y(jié)構(gòu),以及為了較快地對模型進(jìn)行訓(xùn)練和達(dá)到較好的訓(xùn)練和測試效果,采用了級連相關(guān)模型作為研究的工具。
3 連續(xù)記分IRT模型
連續(xù)記分IRT模型是二值記分IRT模型的擴(kuò)展,即它的記分不是按照二值邏輯的全對或全錯的方式來進(jìn)行,而是根據(jù)被試答對項目的程度來進(jìn)行記分,如果全對該題目就得滿分。由于各題目的滿分值不一樣,有的是3分、5分、6分或更高的分?jǐn)?shù),為了統(tǒng)一起見,可以對它們進(jìn)行歸一化處理,全部轉(zhuǎn)化為0至1的值。這樣就可以和下面的三參數(shù)邏輯斯諦模型中的P(θ)相一致。Samejima、Muller和Mullenbergh等都對連續(xù)記分IRT模型進(jìn)行過研究,它和二值記分模型一樣,可以用正態(tài)卵形模型和邏輯斯諦模型表示。對于常用的三參數(shù)邏輯斯諦模型,它的表示式為:
P(θ)=c (1-c)exp(θ-b)]/{1 exp(θ-bi)]}
在該模型中,式中的ai、bi和ci分別為第i個項目的區(qū)分度、難度和猜測參數(shù),θ為某個被試的能力,P(θ)為該被試答對第i個項目的概率,它的值為0至1,這是一個連續(xù)的值。
雖然有些學(xué)者對于該模型進(jìn)行了一些研究,但是他們的研究還只是涉及該模型的性質(zhì)、信息函數(shù)的定義、參數(shù)不變性等方面,在具有實用意義的參數(shù)和被試能力估計方面還沒有成熟的結(jié)果。
為了對連續(xù)記分IRT模型的參數(shù)估計問題進(jìn)行研究,作者對目前常用的幾個IRT軟件的算法進(jìn)行分析,發(fā)現(xiàn)它們的共同特點都是運用統(tǒng)計的方法來進(jìn)行參數(shù)估計,都無法對小樣本情況下的IRT連續(xù)記分模型進(jìn)行參數(shù)估計,于是作者就決定另辟捷徑,在本研究中采用了和常用統(tǒng)計技術(shù)完全不同的聯(lián)結(jié)主義模型(人工神經(jīng)網(wǎng)絡(luò))方法。運用統(tǒng)計方法不能完全解決的問題,并不意味著用其它方法就不能解決,其關(guān)鍵問題是常用的統(tǒng)計參數(shù)估計方法大多是建立在線性模型的基礎(chǔ)上的,而被試的反應(yīng)和IRT中參數(shù)之間的關(guān)系是非線性的,因此在運用統(tǒng)計方法進(jìn)行參數(shù)估計時,要采用大樣本才能得到較好的結(jié)果。而人工神經(jīng)網(wǎng)絡(luò)的輸出和輸入之間的關(guān)系本身就是非線性的,特別值得一提的是,本研究把人工神經(jīng)網(wǎng)絡(luò)的激活函數(shù)設(shè)計為S型的Sigmoid函數(shù),它的表達(dá)式為
f(x)=exp(x)/
它和上述的三參數(shù)邏輯斯諦模型的表示式非常相似,仔細(xì)比較一下,就可以看出它實際上就是IRT模型在c=0,b=0,1.7a=1,θ=x時的特例,因此聯(lián)結(jié)主義模型(人工神經(jīng)網(wǎng)絡(luò))的這種輸出和輸入之間的非線性結(jié)構(gòu)就可以較好地處理IRT中相類似的數(shù)據(jù)關(guān)系。
4 計算機(jī)模擬實驗的設(shè)計和實施
該實驗的基本思想是:把一組被試對于一組項目的反應(yīng)矩陣作為級連相關(guān)模型(以下簡稱為神經(jīng)網(wǎng)絡(luò))的輸入,這組被試的能力θ或該組項目的參數(shù)a、b和c作為該模型的輸出,并且用這些輸入和對應(yīng)的輸出值對該神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,經(jīng)過訓(xùn)練的網(wǎng)絡(luò)就具備了估計θ,a,b或c的能力。當(dāng)輸入一組新的反應(yīng)矩陣時,該網(wǎng)絡(luò)就可以輸出所需的被試能力或項目參數(shù)估計值。本實驗是用計算機(jī)模擬方法來考察運用這種方法得到的估計值和真實值之間的誤差是否能夠達(dá)到相當(dāng)小的程度。
4.1 實驗步驟的設(shè)計
整個實驗分以下幾個步驟進(jìn)行:
(1)運用蒙特卡羅方法產(chǎn)生一組均勻分布的被試能力值θ,一組均勻分布的項目參數(shù)值(包括項目區(qū)分度a、項目難度b和項目猜測參數(shù)c)。被試能力值θ的分布范圍為,項目區(qū)分度a的分布范圍為,項目難度b的分布范圍為,項目猜測參數(shù)c的分布范圍為。
(2)根據(jù)項目反應(yīng)模型,讓各個模擬的被試回答各個模擬的項目,產(chǎn)生反應(yīng)矩陣。
(3)將該反應(yīng)矩陣作為神經(jīng)網(wǎng)絡(luò)訓(xùn)練模式的輸入部分,用所要學(xué)習(xí)的項目參數(shù)或被試能力作為訓(xùn)練模式的輸出部分。若要估計被試的能力,就把反應(yīng)矩陣中的每一行作為一個模式,因為它恰好是一個被試對于一組項目的反應(yīng);若要估計項目參數(shù),就把反應(yīng)矩陣中的每一列作為一個模式,因為它反映了每一個項目被解答的情況。
(4)用上述訓(xùn)練模式對一組神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,直至達(dá)到預(yù)定的精確度為止。在本研究中為了統(tǒng)計上的方便,對30個神經(jīng)網(wǎng)絡(luò)進(jìn)行了訓(xùn)練,預(yù)定的精確度為網(wǎng)絡(luò)的目標(biāo)值和實際輸出值之間的誤差小于0.001。
(5)用經(jīng)過訓(xùn)練的神經(jīng)網(wǎng)絡(luò)來估計被試能力和項目參數(shù)。在本研究中需要估計的被試能力和項目參數(shù)的真實值實際上是用蒙特卡羅方法產(chǎn)生的,因此可以計算出估計值(實際輸出值)和真實值的誤差,稱為測試誤差,并用下式表示:
附圖
式中,T為每個測試模式的每個輸出結(jié)點的目標(biāo)值。N為每個測試模式的每個輸出結(jié)點的實際輸出值。p是測試模式的數(shù)目,o是輸出結(jié)點的數(shù)目。根據(jù)測試誤差E的大小,可以看出經(jīng)過訓(xùn)練的神經(jīng)網(wǎng)絡(luò)是否真正可以對項目參數(shù)和被試能力進(jìn)行很好的估計。
4.2 預(yù)備實驗
由于在正式對神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練以前,對于要用什么樣的模式來訓(xùn)練沒有任何先驗的知識,為此先進(jìn)行預(yù)備實驗。和正式實驗的步驟一樣,首先運用蒙特卡羅方法產(chǎn)生25個被試對15個項目的反應(yīng)矩陣,用這一矩陣和相應(yīng)的被試能力或項目參數(shù)組成4組訓(xùn)練模式,分別用以估計θ,a,b和c。在對被試能力進(jìn)行估計時,將矩陣的行作為一組神經(jīng)網(wǎng)絡(luò)訓(xùn)練模式的輸入部分,因為矩陣的一行數(shù)據(jù)就代表了一個被試對所有項目的反應(yīng);相應(yīng)被試的θ值作為訓(xùn)練模式的輸出部分,因為它代表了被試的能力值。在對項目參數(shù)進(jìn)行估計時,將矩陣的列作為一組神經(jīng)網(wǎng)絡(luò)訓(xùn)練模式的輸入部分,因為矩陣的一列數(shù)據(jù)就代表了所有被試對一個項目的反應(yīng);相應(yīng)項目的a,b或c值作為訓(xùn)練模式的輸出部分,因為它代表了項目的參數(shù)值。就用這些訓(xùn)練模式分別對4組神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,這4組神經(jīng)網(wǎng)絡(luò)分別對應(yīng)于被試能力和項目的三個參數(shù),每組有30個網(wǎng)絡(luò)。然后,再用蒙特卡羅方法產(chǎn)生另外25個被試對另外15個項目的反應(yīng)矩陣,并用已經(jīng)訓(xùn)練過的網(wǎng)絡(luò)對這個反應(yīng)矩陣估計θ,a,b和c,記錄下測試誤差。其結(jié)果表明,雖然可以進(jìn)行被試能力和項目參數(shù)的估計,但誤差較大,無法達(dá)到實際應(yīng)用的精確度。根據(jù)神經(jīng)網(wǎng)絡(luò)訓(xùn)練的一般規(guī)律,估計出現(xiàn)這一情況的原因有兩條,一是訓(xùn)練模式太少,二是訓(xùn)練模式和測試模式之間沒有任何聯(lián)系,即沒有用“錨題”或“錨人”把它們聯(lián)系起來,改進(jìn)的方法可以是增加訓(xùn)練模式,或運用一定的“錨題”或“錨人”方法,在本研究中先用“錨題”的方法進(jìn)行試驗(具體方法在進(jìn)行正式實驗時詳述),試驗的效果很好,然后進(jìn)行下面的正式實驗。
4.3 正式實驗
(1)步驟1:產(chǎn)生訓(xùn)練矩陣和測試矩陣
運用蒙特卡羅方法產(chǎn)生25個被試(稱為第一組被試)對45個項目(稱為第一組項目)的反應(yīng)矩陣(稱為第一矩陣),這一矩陣在下面的實驗中將作為測試矩陣;從該45個項目中隨機(jī)取出15個項目(稱為第二組項目),再用蒙特卡羅方法產(chǎn)生另外25個被試(稱為第二組被試),令它們和上述隨機(jī)取出的第二組項目起反應(yīng),產(chǎn)生另一個反應(yīng)矩陣(稱為第二矩陣),用它作為訓(xùn)練模式的一部分,由此可見,訓(xùn)練矩陣和測試矩陣之間有15個項目作為“錨題”,如下面圖1所示。
附圖
圖1 被試、項目和反應(yīng)矩陣
圖1中的第三組項目和第三矩陣將在下面作解釋。
(2)步驟2:建立能力訓(xùn)練模式
用“第二矩陣”中的每一行作為一個模式的輸入,其相應(yīng)的25個第二組被試的能力值作為輸出,組成能力訓(xùn)練模式,對一組神經(jīng)網(wǎng)絡(luò)(共30個,稱為第一組神經(jīng)網(wǎng)絡(luò))進(jìn)行訓(xùn)練。
(3)步驟3:建立能力測試模式并進(jìn)行測試
將“第一矩陣”中的每一行作為一個模式的輸入,相應(yīng)的第一組被試的25個能力值作為輸出,組成能力測試模式,用上述經(jīng)過訓(xùn)練的第一組神經(jīng)網(wǎng)絡(luò)對其進(jìn)行測試。這時,實際上是神經(jīng)網(wǎng)絡(luò)對第一組被試的能力值進(jìn)行估計。然后,將估計值和真實值進(jìn)行比較,記錄下測試誤差,如表1左邊第1列所示,要注意的是,表中記錄的是30個網(wǎng)絡(luò)的測試誤差實際值,根據(jù)公式可見,它是所有輸出結(jié)點和所有測試模式的誤差總和。由于本研究中只有一個輸出結(jié)點,有25個測試模式(因為有25個被試),因此要將表中的測驗誤差實際值除以25,得到對單個測試模式的測試誤差,然后,再計算其平均數(shù)M和標(biāo)準(zhǔn)差SD,結(jié)果如表2所示,可以看出測試誤差是比較小的。由此可見,當(dāng)測試模式中有部分項目(本例中為15個項目)和訓(xùn)練模式相同時,經(jīng)過訓(xùn)練的神經(jīng)網(wǎng)絡(luò)可以對被試的θ進(jìn)行很好的估計。應(yīng)該指出的是,測試模式和訓(xùn)練模式中沒有被試是重復(fù)相同的,這說明經(jīng)過訓(xùn)練的神經(jīng)網(wǎng)絡(luò)確實可以對新的被試進(jìn)行能力估計。
表1 測試誤差
θ a b c
0.129 2.239 2.982 0.065
0.084 1.843 2.976 0.056
0.243 2.016 2.798 0.069
0.324 1.804 2.133 0.058
0.126 2.159 2.556 0.027
0.201 2.224 2.399 0.067
0.288 2.246 2.617 0.043
0.114 1.741 2.834 0.065
0.189 1.937 2.347 0.076
0.249 2.295 2.745 0.092
0.264 2.319 2.433 0.065
0.321 2.382 2.030 0.044
0.105 2.136 2.231 0.093
0.132 2.061 2.244 0.023
0.153 2.019 2.868 0.068
0.279 2.270 2.042 0.044
0.204 2.196 1.850 0.099
0.102 1.950 2.597 0.059
0.105 1.732 1.709 0.089
0.282 1.764 2.328 0.072
0.228 2.281 2.556 0.114
0.256 2.089 1.961 0.071
0.222 2.445 2.002 0.093
0.210 1.666 2.243 0.035
0.138 1.743 2.441 0.075
0.201 2.438 2.034 0.080
0.171 1.740 2.100 0.106
0.246 2.307 2.594 0.069
0.195 1.577 2.535 0.057
0.213 2.436 2.199 0.057
下一頁
【基于聯(lián)結(jié)主義的連續(xù)記分IRT模型的項目參數(shù)和被試能力估計】相關(guān)文章:
有關(guān)EMS的最優(yōu)線路參數(shù)估計模型03-01
基于最小二乘模型的Bayes參數(shù)辨識方法03-07
母體為指數(shù)分布的參數(shù)估計和檢驗03-07
基于HDMI的ESD保護(hù)二極管模型及參數(shù)優(yōu)化03-07
HF信道復(fù)包絡(luò)參數(shù)估計法原理11-22
數(shù)學(xué)畢業(yè)論文-母體為指數(shù)分布的參數(shù)估計和檢驗03-04
均勻分布的參數(shù)估計與假設(shè)檢驗問題05-14
基于改進(jìn)的Kalman濾波的雷達(dá)信號PRI估計03-07
基于項目管理能力的項目驅(qū)動型企業(yè)戰(zhàn)略風(fēng)險形成研究03-22
最新推薦
- TDM端局網(wǎng)絡(luò)接通率研究
- 大電流LED驅(qū)動器LTC3454
- 基于聯(lián)結(jié)主義的連續(xù)記分IRT模型的項目參數(shù)和被試能力估計
- ASP.Net中程序構(gòu)架與程序代碼的分離
- ASP
- LVDS技術(shù)及其在多信道高速數(shù)據(jù)傳輸中的應(yīng)用
- 淺析某中學(xué)校園網(wǎng)建設(shè)方案
- 醫(yī)院計算機(jī)網(wǎng)絡(luò)信息資源管理探析
- 基于參數(shù)模型的頻響函數(shù)估計方法
- 淺析網(wǎng)絡(luò)系統(tǒng)控制安全措施探究
- 職工能力評價
- 職業(yè)能力測驗
- 簡歷的語言能力
- 大學(xué)就業(yè)能力
- 能力與自我評價
- 簡歷語言能力
- 團(tuán)隊協(xié)作能力
- 韓語能力考試
- 職業(yè)能力測評
- 行政能力測驗