ロゴ画像

項目応答理論 (IRT)

 近年,項目応答理論 (もしくは項目反応理論) という言葉に触れることが増えてきています。項目応答理論 (Item Response Theory: IRT) はテスト理論の1つで,古典的テスト理論のあとに出てきた新しい理論です。異なるテスト間の得点 (能力値) を比較できる,コンピュータと相性が良い (Computer Based Testing: CBT, Cpmputer Adaptive Testing: CAT) などの特質があり注目されていますが,適切に運用するためには注意しなければならない点もあります。ここでは項目応答理論の概要について解説します。

合計得点の問題点

 項目応答理論について説明する前に,テスト得点として良く用いられる合計得点の問題点について,まず整理しておきます。

問題の難易度の影響を受ける

 テストの得点は多くの場合,正答した項目に対する配点を合計した合計得点として算出されます。また,テストに含まれる項目は,テスト実施前にセット (固定) されます。それゆえ,どのような項目をテストに含めるかによって,各受検者の合計得点は異なってきます。易しい問題が多ければ,多くの受検者が高得点になりますし,難しい問題が多ければ,多くの受検者が低得点になります。
 このように,合計得点を用いた場合は,テスト得点は受検者の能力と問題の難易度の両方の影響を受け,たとえ高得点でも,能力が高いのか問題が易しかったのか,区別できないという問題があります。

問題の配点の影響を受ける

 項目ごとに配点を変えると,配点の大きい項目に正答したか否かが,より合計得点に影響するようになります。難しい問題に大きい配点を与えているテストをよく見かけますが,難しい問題に正答できるのは能力の高い一部の受検者だけです。そうすると合計得点の分布は,能力の高い一部の受検者だけの得点が高くなり,他の多くの受検者の得点は低いところに押しとどめられるようになります。
 テストの目的が,ひと握りのエリートを選抜することだとしたら,この配点は有効ですが,多くの受検者の能力を適正に測ることが目的だとしたら,この配点は悪い配点となります。難しい問題の配点を高くして多くの受検者の能力を適正に測るには,部分点を付与するのが適切です。近年,思考力を問うなどと言って,完全正答のみを正答,それ以外をすべて誤答とする (複数) 選択式問題が見受けられますが,多くの受検者の能力を適正に評価するという観点からは,全くお勧めできません。半分は理解しているならそれを得点に反映したほうが,受検者の能力をより適正に測ることができます。
 一般に,受検者の能力をより精確に測定するには,配点を等しくした,易しい問題から難しい問題までを含む(中程度の問題をより多く含む),多数の項目でテストを構成するのが良いとされています。そのようにすれば,どの能力層の得点も押しとどめられることなく,広く分布するようになります。

テスト間の得点の相互比較ができない

 テストを構成する項目が事前に固定され,その固定された項目の難易度にテスト得点が影響されるとなると,異なるテスト間の得点を比較しても意味をなしません。テストに含まれる項目が異なるということは,違う物差しを用いているということです。難易度が異なるということは,目盛り設定が違うということです。なので,異なるテスト間の得点をそのまま比較することはできないのです。(等化・尺度化を行えば比較することができます。)
 たとえば,国語のテストと家庭科のテストの得点を比較しても,意味がありません。一見,得点の高い方が得意と思いがちですが,国語と家庭科を,身長(cm)と血圧(mmHg)に置き換えて考えてみたら,比較のしようがないことが分かるでしょう。
 同じ教科で,中間テストで60点,期末テストで80点だから成績が上がったという主張も意味をなしません。同じ教科 (物差し) だとしても,難易度 (目盛り設定) が異なるからです。中間が難しく期末が易しいテストだったら,成績は変わらないかもしれません。

偏差値

 合計得点の問題点を回避するものの1つとして偏差値があります。偏差値を用いると,各受検者の相対的位置を把握することができます。偏差値は以下の式で求められます。

  \( 偏差値 = \frac{得点 - 平均点}{標準偏差} \times 10 + 50 \)

 得点分布が正規分布だとした場合の,偏差値と平均 (μ) および標準偏差 (σ) との関係,また,一定の範囲に何パーセントの受検者がいるかを示した図を以下に示します。この図を見ると,偏差値50はちょうど真ん中 (50%),偏差値55は上位約30%,偏差値60は上位約16%,偏差値65は上位約7%のところに位置していることが分かります。(得点分布が正規分布でない場合は,このようにはなりません。) 偏差値
 偏差値により,自分は平均よりどれくらい離れた位置にいるのかを知ることができます。教科ごとに偏差値を計算すれば,各教科における相対的位置が分かるので,当該集団の中で,自分が上位にいる教科,下位にいる教科が分かります。また,中間と期末の偏差値を比較することにより,当該集団の中での位置の変化を知ることができます。

能力の変化を捉えるのに適さない

 偏差値を用いれば,得点の相互比較はある程度可能になります。しかし,そこには「当該集団の中で」という限定がつきます。ある個人が,全体的に能力の高い集団に入れば偏差値は低くなりますし,全体的に能力の低い集団に入れば偏差値は高くなります。偏差値は当該受検者の能力を反映する値ですが,受検者集団がどのような集団であるかによって,同じ個人でも値が変わってしまうのです。
 また,中間テストと期末テストの間で個人の能力が上昇していたとしても,集団全体の能力も同様に上昇していれば,中間と期末の偏差値は変わりません。偏差値は集団の中での相対的な位置を表す値なので,全体が上昇すれば,各個人の相対的位置は変わらないからです。これが,偏差値では児童生徒の伸びを捉えられないと批判される理由になります。

<先頭へ戻る> <テスト研究のページへ戻る>

項目応答理論とは

 項目応答理論 (Item Response Theory: IRT) は,合計得点の問題点を解決するために,項目の難易度などの項目特性と,各受検者の能力を分離して考え,共通尺度上でのテストの構築と実施を支えるテスト理論で,項目反応理論とも呼ばれます。

 項目応答理論でどのように得点を求めるかを簡単に説明すると次のようになります。まず,各項目の困難度や識別力などの項目特性と,受検者の能力から,各受検者がその項目に正答する確率を考えます。そして,各受検者の回答データがもっとも得られやすい能力の値を推定して,その受検者の得点とします。

 項目特性と受検者の能力が分離されているので,各受検者の能力値は項目に影響されません。つまり,同じ能力を測っているテストであれば,異なるテスト間の能力値 (得点) を比較することが可能ということになります。よって,年に複数回実施されるテストの得点を相互比較することもできますし,各受検者の能力の変化を捉えることもできるようになります。

<先頭へ戻る> <テスト研究のページへ戻る>

求められる要件

 上述したように項目応答理論は,合計得点を用いたテストの問題点を解決する有効な手法です。しかし,実際に用いるためには,いくつかの (厳しい) 要件を満たす必要があります。ここではそれらについて説明します。

大規模データが必要

 項目の困難度や識別力などを表す値 (項目特性値) を適切に推定するためには,非常に多くの受検者のデータを集めなければなりません。最低でも千人規模のデータが必要になります。また,各受検者の能力値を推定するためには相応の項目数が必要で,1回1回の試験で大規模なデータを収集する必要があります。

項目を非開示にしなければならない

 テスト実施時は,困難度や識別力などの項目特性値を推定する項目 (予備調査項目) と,受検者の能力値を推定する項目 (本試験項目) を混在させます。各項目がどちらのものかは受検者には知らせません。予備調査で項目特性値を推定した項目を,後日本試験項目として使用します。
 しかし,項目の困難度や識別力は,項目 (問題) を公開すると変化してしまいます。受験産業などが利用したり,過去問題集に掲載されたりして,受検者が対策を立ててしまうからです。それゆえ,項目応答理論を用いたテストでは,項目を非開示にしなければなりません。ですが,重要な (ハイステークスな) 試験になるほど,また受検者が多くなるほど,問題漏洩の可能性が高くなり,テストの実施体制そのものが脅かされるようになります。

項目プールの構築

 テストでは,能力の低層から高層まで,幅広い受検者の能力を適正に測定することが求められます。それゆえ,易しい項目から難しい項目まで,多量の項目をストックしておく必要があります。また,項目を繰り返し使用していると,項目の困難度や識別力が変化してしまうこもあります。その場合は,古い問題を破棄し,新しい問題と入れ替えます。
 テストを円滑かつ持続的に実施するには,どのような領域に,どのような項目特性を持った項目が,何問くらい蓄積されているか,前に使用したのはいつか,どの項目と内容が重なっているかなどの情報を管理することが必要で,そのために「項目プール」というものを構築します。試験の規模にもよりますが,数千~数万個の項目をストックしておく必要があります。

項目間に依存関係があってはいけない

 項目応答理論では,各受検者において,それぞれの項目に正答する (または誤答する) 確率は互いに独立であると仮定します。たとえば,前の問題の答えを使って次の問題を解く問題は,前の問題に誤答したら必然的に次の問題も誤答になってしまうので,要件を満たしません。前の問題につまずいても次の問題の正誤にはまったく影響しないという,項目間に依存関係のないテストの構成を,項目応答理論は念頭においています。専門的には「局所独立性の仮定」と言います。1つの題材に対して複数の問題を設定する大門形式の問題は,局所独立性が損なわれる場合がありますので注意が必要です。

基本的に多枝選択式問題

 項目応答理論を用いたテストの多くは,回答データとして2値データ (正答=1,それ以外= 0) を利用しています。多値データ (正答=2,部分正答=1,それ以外=0 など) を利用する項目応答理論もありますが,計算が複雑になり,さらに多くのデータが必要になります。それゆえ大抵の場合,項目応答理論を用いたテストは,データ収集や採点が容易かつ正確な,択一式の多枝選択式問題で構成されます。

<先頭へ戻る> <テスト研究のページへ戻る>

項目特性曲線

 項目応答理論では,各項目の困難度や識別力などの項目特性と,受検者の能力から,各受検者がその項目に正答する確率を考え,受検者の能力値 (得点) を推定します。ここではその仕組みについて,もう少し詳しく説明します。

項目特性関数

 ある能力 (たとえば数学) を測定する項目が3つあり,1つめは易しい項目,2つめは中程度の項目,3つめは難しい項目とします。ここで,横軸に受検者の能力,縦軸にその項目に正答する確率を示す図を考えたら,これら3項目の正答確率を表す図 (曲線) は,それぞれどのようなかたちになるでしょうか?
 おそらく,易しい項目は能力の低い受検者でも正答できますから,正答確率を表す曲線は下図の①のようになるでしょう (能力値が-2の受検者でも正答確率は0.5ある)。反対に,難しい項目は能力の高い受検者でもなかなか正答できませんから,正答確率を表す曲線は③のようになると考えられます (能力値が+2でも正答確率は0.5しかない)。中程度の項目の曲線は,①と③の間の②のようになります。
項目特性関数
 このように,受検者の能力値に項目の正答率を対応させる曲線を項目特性曲線と言い,その曲線を表現する関数を項目特性関数 (または項目応答関数) と言います。そして,この項目特性関数のかたちは,困難度や識別力など項目特性を表す値 (パラメタ) によって決まります。

困難度

 上の図の①~③の曲線は,問題の難しさによって位置が異なっています。困難度は項目特性曲線の位置を特定する値で,正答率が 0.5 (50%) になるところの能力値で表します。困難度の値は,項目①が -2,②が 0,③が +2 で,難しい問題ほど困難度の値は大きくなります。
 困難度は,項目分析における正答率に対応する指標ですが,正答率は値が大きいほど易しい項目であることを表すので注意が必要です。

識別力

 下図の項目④~⑥の項目特性曲線は,困難度は同じ値 (0) ですが,曲線の傾きが異なっています。項目④は能力値が0の近くで正答率が大きく変化しています。一方,項目⑥は,能力値の広い範囲で正答率はそれほど変化していません。このような,項目特性曲線の傾きに対応する項目特性を識別力と言います。識別力は,能力の低い受検者と能力の高い受検者を,どれくらい良く区別できるかを表す指標です。
識別力
 項目④は,能力値が0より小さい受検者と能力値が0より大きい受検者で,正答確率が大きく変わり,識別力の高い項目です。これに対し項目⑥は,能力の低い受検者と能力の高い受検者で正答率はそれほど大きく変わりませんから,識別力の低い項目です。
 項目応答理論において識別力は,正答確率が0.5 (50%) となるところの曲線の傾きに対応します。上の図の各項目の識別力の値は,項目④が +4,⑤が +1,⑥が +0.3 となっています。通常の項目では能力が高いほど正答確率は大きくなると考えられますから,一般に識別力は正の値になります。
 なお,項目分析において識別力は,D指標やI-T相関係数などで評価され,やはり能力の低い受検者と能力の高い受検者をどれくらい区別できるかを表します。

<先頭へ戻る> <テスト研究のページへ戻る>

能力値の推定

 上の項目①~③の3項目からなるテストがあるとします。これらの項目に対し,能力値が-2くらいの受検者は,①の項目には正答できても②,③の項目に正答できる確率は低いので,正誤パターンは (1,0,0) のようになると推察されます。一方,能力値が+3程度の受検者は,どの項目にも正答できそうですから,正誤パターンは (1,1,1) のようになりそうです。また,能力値が0近辺の受検者は,①に正答,③に誤答は予想できるとして,②に正答するか誤答するかは五分五分なので,正誤パターンとしては (1,1,0) や (1,0,0) などが考えられます。

 このように,困難度や識別力などの項目特性値が分かっている項目を使ってテストを行えば,それらの項目に対する回答パターンから各受検者の能力値を推定することができます。項目応答理論ではこの推定を,項目特性関数を用いて数学的に行います (実際の計算にはコンピュータを利用します)。

 項目応答理論では回答パターンを用いて能力値を推定するので,同じ正答数でも能力値が違ってきます。たとえば,項目④~⑥からなるテストに対する回答パターンが (1,0,0),(0,1,0),(0,0,1) となるとき,正答数得点はどれも1点ですが,能力値は+0.4,-0.5,-1.5と推定されます。項目①~③の場合は,どのパターンでも能力値は-1.0となります。項目①~③は識別力の値が同じなので,このような結果になります。

 なお,実際のテストにおいては,能力値は一定数を掛けたり足したリして,適当な大きさの値に変換されて報告されます。

<先頭へ戻る> <テスト研究のページへ戻る>

情報関数

項目情報関数

 項目①は能力値-2付近,②は0付近,③は+2付近の受検者を良く識別します。逆に考えると,項目①に正答するかしないかで能力値が-2より大きいか小さいか,②に正答するかしないかで能力値が0より大きいか小さいか,③に正答するかしないかで能力値が+2より大きいか小さいかを良く推定できることになります。つまり,項目①がもたらす情報量は能力値-2付近で大きく,同様に②は0付近,③は+2付近で情報量が大きくなるということです。
 ある項目に正答するかしないかで,その項目が能力値の推定にもたらす情報の量を関数で表したものを項目情報関数と言います。項目①~③,④~⑥の項目情報関数をグラフで表すと下図のようになります。
項目情報量
項目情報量
 これらの項目情報関数を見ると,項目情報量はその項目の困難度のところで最大になり,識別力が大きいほど情報量が大きくなることがわかります。
 情報量が大きいということは,それだけ能力値の推定が精確ということであり,反対に情報量が小さいということは,それだけ能力値の推定精度が低いことを意味します。

テスト情報関数

 1つのテストに含まれる項目の項目情報関数を積み上げたものをテスト情報関数と言います。項目①~③,④~⑥からなるテストのテスト情報関数はそれぞれ次のようになります。
項目情報量
項目情報量
 項目①~③からなるテストは,能力値が-2~+2あたりの受検者の能力を,概ね一定の推定精度でまんべんなく推定できるのに対し,項目④~⑥からなるテストは,能力値が-0.5~ +0.5あたりの受検者の能力は高い精度で推定できるものの,-1以下もしくは+1以上になると推定精度がとても低くなっていることがわかります。
 適応型テスト (Computer Adaptive Test: CAT) では,受検者ごとに,その受検者の能力値付近の項目を多く提示することによって,各受検者の能力値を高い精度で推定することができます。これに対し,項目を入れ替えられない固定型テストで,より多くの受検者の能力を適正に測定するためには,識別力が高く,困難度の低い (易しい) 項目から困難度の高い (難しい) 項目までを,一定の割合で含めることが必要になってきます。通常,中程度の項目を多め,難しい項目と易しい項目を少なめにします。

<先頭へ戻る> <テスト研究のページへ戻る>

等化・尺度化

等化・尺度化とは

 項目応答理論を用いれば異なるテスト間の能力値 (得点) を比較することも可能だと説明しました。テストに含まれる項目が異なるのにどうして能力値を比較できるのでしょうか?
 能力値の推定のところで説明したように,各受検者の能力値は,困難度や識別力などの項目特性が分かっている項目に対する回答パターンから推定されます。よって,項目の困難度や識別力が共通の尺度上に乗っていれば,そこから推定される能力値もその共通の尺度上で定義されることになり,たとえ項目が異なっていたとしても相互比較が可能になります。要は,項目の困難度や識別力の値を共通の尺度上に乗せればよいのです。その手続きとして,等化や尺度化があります。
 ひとことで言うと等化・尺度化は,複数のテストの得点を互いに比較可能にする共通の尺度を構成することです。同じ能力を測定する同等のテストを複数回実施した場合を等化,学力の経年変化を捉えるなど難易度や内容が異なってくる場合を (垂直) 尺度化と言います。

項目応答理論を用いなくても等化・尺度化はできる

 テスト得点の等化・尺度化は,項目応答理論を用いなくても可能です。等パーセンタイル法などの手法を用いて,たとえばテストAの50点はテストBの55点に相当するというように,異なるテスト間の得点を対応づけ,一方の得点を他方の得点に変換して相互比較を可能にすることができます。
 等パーセンタイル法用いて,テストAの得点をテストBの得点に変換する方法を1つ紹介します。下図のように,テストAとテストBの両方のテストに回答する受検者が一定数いるようにします。2つのテストはほぼ同時期に実施します。このようなデータ収集計画を共通受検者デザインと言います。
共通受検者デザイン
 共通受検者デザインにおいて両方のテストに回答した受検者のデータから,それぞれのテスト得点の累積度数曲線を作成します。この2つの累積度数曲線を比較し,テストAの得点 X の累積パーセントと同じ累積パーセントになるテストBの得点 B(X) を探せば,テストAの得点XをテストBの得点B(X)に変換することができます。
等パーセンタイル法
 そのようにして得られたテストAの得点とテストBの得点の対応関係を用いて,テストAしか受検しなかった受検者の得点をテストBの得点に変換すれば,テストAを受けた受検者とテストBを受けた受検者の得点を,テストB上の得点で相互比較することができるようになります。同じ原理で,テストBの得点をテストAの得点に変換し,テストA上の得点で相互比較することも可能です。
 なお,共通受検者デザインを用いる場合は,共通受検者の能力分布に偏りがないこと,低層から高層まで広く分布していることが求められます。等化・尺度化を適切に行うためには,やはり千名規模の共通受検者が必要になります。

項目応答理論を用いた等化・尺度化

 項目応答理論の適用が難しい場合には,等パーセンタイル法などを用いてテスト得点を等化・尺度化をすることは有効ですが,等化・尺度化するのは当該のテストについてのみとなり,テストが変われば等化・尺度化を1からからやり直す必要があります。一方,項目応答理論を利用した場合は,共通尺度上で各項目の困難度や識別力などの値を推定していれば,能力値をそのまま相互比較することが可能です。つまり,項目応答理論における等化・尺度化は,困難度や識別力の値を共通尺度に乗せることに相当します。
 困難度や識別力の値を共通尺度上で求める方法を1つ紹介します。下図のように,共通の項目を含むテストCとテストDを作成します。このようなデータ収集計画を共通項目デザインと言います。
共通項目デザイン
 共通項目の困難度や識別力の値を基準にして,テストCにのみ含まれる項目,テストDにのみ含まれる項目の困難度や識別力の値を求めれば,それらすべての項目の困難度や識別力の値を共通の尺度上に乗せることができます。
 このように項目応答理論を用いた等化・尺度化は,各項目の困難度や識別力が分かっていればスムーズですが,そのためには求められる要件のところで説明した厳しい条件を満たす必要があります。また,共通項目デザインを用いる場合は,共通項目の困難度や識別力に偏りがないこと,極端な外れ値が無いことが求められます。また,共通項目の数は,できれば30項目以上,短いテストでも20%以上は必要と言われることがあります。

<先頭へ戻る> <テスト研究のページへ戻る>