テストの作成
テストは,出題者(作成者)と受検者をつなぐコミュニケーションツールです。出題者の意図が正しく受検者に伝わらないと,テストで測りたいものを測れなくなります。
当該分野の専門家が作れば,簡単にテストができると考えている人も多くいますが,テストを作るということは,そんなに単純なものではありません。当該分野の知識や能力はもちろん必要ですが,テストを作成するための知識や技術も必要になります。
テストを作成する際には,さまざまな点に注意する必要があります。ここでは,より良いテストの作成に必要な知識や技能について説明します。
日本テスト学会で,テストの作成や分析に関する講習会を開催しました。その時の資料を以下のページから見ることができます。また,以下の文献も参考になります。
- 日本テスト学会 (2016). 講習会「データに基づくテスト分析とテスト作成,新しい時代のテスト ―教師力向上のためのヒント―」
- 石井秀宗 (2022). 測定と評価 高村和代・安藤史高・小平英志(編) 主体的に学ぶ発達と教育の心理学 ナカニシヤ出版 pp.102-112.
良いテストの要件
良いテストに求められることを一言でいうと,「テストを使ってなされることが適切であること」と言えます。そのためには,意図しているものを,できるだけ精確に測定し,結果を適切に解釈・運用することが必要となります。
テスト理論において,意図しているものを測定しているか,結果を適切に解釈・活用しているかということは,妥当性 (Validity) として議論されます。また,精確に測定しているかということは,信頼性 (Reliability) として捉えられます。
妥当性,信頼性のあるテストを実施するために必要と考えられることを以下に挙げます。
目的が明確であること
- テストで測りたい能力は何か
- その能力を測ることに意義はあるか
- 何を問えばその能力を測定できるか
- 測るべき能力に 含めるもの/含めないもの は何か
適切に作成されていること
- 測るべきものが測れるようになっているか
- 受検者集団に合ったテストになっているか
- テスト仕様書・テストブループリントを作成する
- 問題作成ガイドラインを活用する
- 声に出して読んでみる
- 忘れた頃に見直す
適切に実施されていること
- 測るべき能力以外の要素が得点に影響していないか
- テストの目的や評価方法を受検者が理解しているか
- 受検者が適切な応答をしているか
正しく採点されていること
- 採点基準が合理的なものになっているか
- 正答,誤答の根拠が明確に示されているか
- 採点者が採点基準を理解しているか
- 採点基準に従って採点されているか
適切に運用されていること
- 結果は理にかなったものになっているか
- 公平公正な解釈,運用をしているか
- テストの目的は達成されているか
- 拡大解釈,過度な一般化,目的外利用をしていないか
テストの分類
テストにはいくつかの種類があります。テストの目的によってそれらをおおまかに分類すると次表のようになります。
目的 | 実施形態 | 実施主体 | 実施規模 | 出題範囲 | フィード バック先 |
---|---|---|---|---|---|
確認 | 発問 | 教師 | クラス | トピック | 児童生徒学生 教師 |
学習 支援 |
小テスト | 教師 | クラス | トピック,単元 | 児童生徒学生 教師 |
成績 評価 |
定期テスト | 教師 | クラス 学校 |
当該期間の 学習内容 |
児童生徒学生 教師 |
資格 認定 |
資格試験 | 認定機関 | 受検者集団 | 資格取得に 必要な内容 |
受検者 |
相対 評価 |
模試 | 実施団体 | 受検者集団 | 学習内容全般 | 受検者 |
選抜 | 入試 | 学校,自治体 テスト機関 |
学校,自治体 | 学習内容全般 | 学校 受検者 |
教育 施策 |
調査 | 自治体,国 | 自治体,国 | 学習内容全般 | 自治体,国 |
確認のためのテストは,授業前の児童の理解度を把握すときなどに行うもので,発問に対する応答などで確認します。
学習支援のためのテストは,学生の理解度を確認する「診断的評価」や,学生の理解を促進する「形成的評価」などのかたちで実施されるテストです。目の前の児童生徒に合わせたテストを作成することで,より適切な支援が可能になります。
成績評価のためのテストは,児童生徒学生の習得度を確認する「総括的評価」において実施されるテストです。合格か不合格かを決める場合は資格試験,段階評定を行わう場合は相対評価の性質を持ちます。
資格認定試験は,何らかの領域において一定の能力を持っている(基準を満たしている)と認定できるかを判断するためのテストです。受検者集団や試験実施回によらず,基準は一定でなければなりません。また,受検者の能力を絶対的に評価しますので,合格者数に関する制限は原則ありません。
相対評価は,受検者集団における個々の受検者の相対的位置を把握するために実施されるテストです。入試の模擬試験などがこれに相当します。相対的位置をより適切に捉えるためには,得点は広く分布することが望まれます。
選抜試験は,入試で用いられます。受検者集団を上位(合格),下位(不合格)の2群に分割するのが目的であり,合否ラインが毎回一定である必要はありません。合否ラインを決めやすくするため,得点は広く分布することが望まれます。
教育施策のためのテストは,地域全体の教育の実施状況を確認したり,新しい教育施策を実施するための資料を収集するために行われます。
このように,ひと口にテストといっても,目的や形態はさまざまです。個々のテスト場面においては,目的に合った規模や内容のテストを実施する必要があります。1つのテストに複数の目的を担わせようとしても結局,中途半端なものになってしまいます。
問題形式
テストの問題形式の分類を下表に示します。
大分類 | 中分類 | 問題形式 |
---|---|---|
選択式 | 一枝評価式 | 真偽式 |
二値評価式 | ||
多枝選択式 | 択一式 | |
複数選択式 | ||
多枝利用式 | 組合せ式 | |
並べ替え式 | ||
構築式 | 記述式 | 穴埋め式 |
短答式 | ||
論述式 | ||
論文式 | ||
パフォーマンス式 | 口述 | |
実技・実演 | ||
作品 |
問題形式は,選択枝を用いる選択式と,受検者自身が解答を産出する構築式に大別されます。
選択式は,各選択枝の内容について評価する一枝評価式,複数の選択枝の中から条件にあてはまる選択枝を選ぶ多枝選択式,選択枝をいろいろな解答形式に用いる多枝利用式に分割されます。
一枝評価式には,各選択枝の真偽を問う真偽式や,各選択枝について二値評価を行う二値評価式があります。多枝選択式には,条件にあてはまるものを1つ選ぶ択一式や,あてはまるものを複数選ぶ複数選択式があります。項目応答理論を用いたテストでは通常,多枝選択式が利用されます。多枝利用式には,共通の選択枝群を複数の設問で利用する組合せ式や,条件にあてはまるように選択枝を並べ替える並べ替え式などがあります。
構築式は,記述による解答を行う記述式と,記述以外の方法で解答するパフォーマンス式に分割されます。
記述式には,空所にあてはまる単語や数値などを解答する穴埋め式,設問に対し単語や短文,数値などで簡潔に解答する短答式,数行程度の文または文章で解答する論述式,論理的でまとまりのある文章を作成する論文式などがあります。パフォーマンス式には,口頭で解答する口述,実際に演じたり演奏したりする実技・実演,成果物を提示する作品などがあります。
以下に,それぞれの問題形式の例を示します。また,テストにおいて良く用いられる選択式と記述式について,長所・短所を比較します。
<先頭へ戻る> <テスト研究のページへ戻る>
選択式
一枝評価式
真偽式
各選択枝の真偽を問う問題形式です。例
以下の各文について,正しければT,間違っていればFに○をつけなさい。
- 水銀は常温で固体である T F
- ヘリウムは常温で気体である T F
二値評価式
各選択枝について二値評価を行う問題形式です。「あてはまるものをすべて選べ」という設問は,受験者の不安を高めてしまうだけでなく,すべて選べたか否かの粗い評価しかできません。二値評価式を用いたほうが,受検者の能力を細やかに評価できるので,テスト得点の信頼性が高くなります。例
以下の各楽器について,金管楽器ならば○,金管楽器でなければ×をカッコ内に書きなさい。
- トランペット ( )
- フルート ( )
- ホルン ( )
- トロンボーン ( )
- サックス ( )
<先頭へ戻る> <テスト研究のページへ戻る>
多枝選択式
択一式
複数の選択肢の中から,条件にあてはまる選択枝を1つ選ぶ問題形式です。まぐれ当たりを減らすためとして,たくさんの選択枝を並べても,ほとんど効果はありません。多くの場合,選択率が高い有効な選択枝の数は,3枝程度です。例
次の英文の空所に最もよくあてはまる単語を,以下の選択枝の中から1つ選びなさい。
He ( ) baseball.
- have
- has
- like
- likes
複数選択式
複数の選択枝の中から,条件にあてはまる選択枝を複数選ぶ問題形式です。選ぶべき選択枝数を示す場合と示さない場合がありますが,選択枝数を示さないと,受検者の不安が高まり実力を発揮できなくなる場合があるので,なるべく選ぶべき選択枝数は示すようにします。例
次の文の空所に入れて意味の通る語を,以下の選択枝の中から2つ選びなさい。
もうだめかと思った。( ),何とか助かった。
- しかし
- そして
- だから
- でも
- ところで
<先頭へ戻る> <テスト研究のページへ戻る>
多枝利用式
組合せ式
共通の選択枝群を複数の設問で利用する問題形式です。選択枝の数は受検者が選択枝を一覧するのに困難を伴わない程度にします。あまり多くの選択枝があると,あてはまる選択枝を探すのに時間がかかってしまったり,出題ミスやマークミスの原因になります。例
次の文のそれぞれの空所にあてはまるものを,以下の選択枝の中から選びなさい。
平均値は度数分布の( )を表す指標の1つである。
標準偏差は度数分布の( )を表す指標の1つである。
- 位置
- 散らばり
- 歪み
- 裾の重さ
並べ替え式
条件に合うように選択枝を並べ替える問題形式です。例
以下の出来事を古い順に並べ替え,選択枝の記号で答えなさい。
- 世界恐慌
- 日清戦争
- 満州事変
- 明治維新
<先頭へ戻る> <テスト研究のページへ戻る>
構築式
記述式
穴埋め式
空所にあてはまる単語や数値などを解答する問題形式です。例
以下の各文の空所にあてはまる語句をそれぞれ答えなさい。
- 紫式部が書いた源氏物語は,世界最古の( )と考えられている。
- 親鸞は「( )なおもて往生をとぐ。いわんや( )をや」と説いた。
短答式
設問に対し単語や短文,数値などで簡潔に解答する問題形式です。例
オーストラリアの首都の都市名を答えなさい。
( )
論述式
数行程度の文または文章で解答する問題形式です。例
太平洋側に比べ,日本海側で冬期に降雪が多い理由を説明しなさい。
論文式
論理的でまとまりのある文章を作成する問題形式です。例
今日の世界に存在するさまざまな問題の中から,あなたが特に注目するものを1つ選び,その解決に向けた具体的な方策を提案しなさい。
<先頭へ戻る> <テスト研究のページへ戻る>
パフォーマンス式
口述
口頭で解答する問題形式です。通常,出題も口頭(音声)でなされます。多くの場合,解答の量は短答式や論述式と同程度です。例
暑い日に打ち水をすると周囲の気温が下がる理由を説明しなさい。
実技・実演
実際に演じたり演奏したりする問題形式です。例
課題曲と自由曲を1曲ずつ演奏してください。
作品
デッサンや設計図など,成果物を提示する問題形式です。例
「水と光」というテーマで油絵を描いてください。
<先頭へ戻る> <テスト研究のページへ戻る>
選択式と記述式の比較
テストで良く用いられる選択式と記述式について,それぞれの長所・短所を比較すると次のようになります。
選択式では,選択枝が解答のヒントになり,きちんと理解していなくても正答できてしまうことがありますが,記述式では選択枝が解答のヒントを与えるということがないので,きちんと理解していないと正答できません。
選択式は,提示された選択枝の選び方に必ず正解があるため,あて推量でも正答になることがあります(ただし,まぐれ当たりはそうそう続かないので,この問題は設問数を多くすることによりかなり解消できます)。一方,記述式では,あてずっぽうに書いた解答が正答であるということはまずありません(穴埋め式や短答式の場合は,適当に書いた答えが正しいこともあります)。
選択式では,問題設定に沿って選択枝を選ばなければならないため,思考過程が限定されることがありますが,記述式では,受検者の思考過程に沿って解答を書くことができます。
選択式では,選択枝があらかじめ用意されているため,受検者の記述力や表現力の評価が困難ですが,記述式では,受検者自身が文を生成するので,記述力・表現力を評価できます。
以上から,もし受検者の思考や記述力,表現力を「真の学力」と表現するなら,選択式は「真の能力」を反映しにくく,記述式は「真の能力」を反映しやすい問題形式であると言えます。

記述式では,問題数が少ないことから,1問あたりの配点が高くなり,いわゆるヤマの当たり外れの影響が大きくなります。これに対し選択式は,問題数が多いことから,1問あたりの配点が低くなり,ヤマの当たり外れの影響を小さく抑えられます。
記述式の解答の採点にあたっては,採点者の主観的が入ったり,評定がブレたりして,不正確になる可能性があるうえに,時間がかかりますが,選択式の解答の採点は,客観的,正確,短時間に行うことができます。
以上から,記述式の問題では公平性・公正性の確保が難しく,測定したい能力を適切に評価できない可能性があります。一方,選択式では,公平性・公正性を確保しやすいので,測定している能力については適切に評価できると言えます。
記述式問題を出題したら「真の能力」を評価できると考えられがちです。確かに,記述式問題のほうが受検者は「真の学力」を発揮できるかもしれません。しかし,それが適切に評価されるかどうかは別問題で,記述式の解答を公平・公正に評価することはとても難しいことです。問題形式を決める際には,テストの実施規模や目的なども考慮し,どの程度適切に評価できるかを考えて,形式を選択する必要があります。以下に,テストの実施規模を考慮したときの,選択式と記述式の使い分けについて示します。

一方,教室テストや定期テスト,個別大学の入試問題などの小・中規模なテストでは(入試は受検者が多いが,入試区分ごとの受検者はそれほど多くはない),どのような能力を測りたいかを考え,受検者集団に合わせ選択式と記述式を適度に使い分けるのが良いと言えます。
選択式,記述式,それぞれの強みを生かしたテストを作ることが肝要です。
<先頭へ戻る> <テスト研究のページへ戻る>
テスト仕様書
テストを適切に作成するためには,どのようなテストを作成するかという具体的なイメージを決めておく必要があります。テストの具体的な特性を「テストの仕様 (Test Specification)」と言い,それらをまとめたものをテスト仕様書と言います。例として「心理学統計法」の授業のテスト仕様書を以下に示します。
項目 | 設定内容 |
---|---|
テストの目的 | 学期末単位認定試験 |
対象者 | 学部2年生科目「心理学統計法」受講者 |
測定領域 | 「心理学統計法」で扱う以下の単元 記述統計,推測統計,テスト理論 |
能力(認知様式) | 知識:用語説明など 適用:統計量の算出など 応用:分析結果の解釈など |
解答形式 | 知識:短答式 適用・応用:論述式 |
所要時間 | 60分 |
項目数 | 20問(テストブループリント参照) |
実施方法 | 用具:紙筆式 形態:集団実施 |
必要機材 | とくになし |
採点のルール | 短答式問題は1問2点,正誤評価 論述式問題は1問4点,段階評価 文章構成力も評価する 誤字・脱字は減点しない 判読不能解答は無解答として扱う |
結果の利用法 | テスト得点と出席点を併せ,A+,A,B,C,C-,Fで成績評価 |
留意事項 | ノート・教科書等持ち込み不可 |
テスト仕様書には,①テストの目的,②対象者,③範囲 (単元・領域),④能力 (認知様式),⑤解答形式,⑥所要時間,⑦項目数,⑧実施方法,⑨必要機材,⑩採点のルール ⑪結果の利用法 などを書きます。
能力 (認知様式) は問題を解くのに必要な能力の種類で,従来は B.S.ブルームによる「知識」「理解」「応用」「分析」「総合」「評価」の6領域から選ぶのが主流でしたが,最近では「知識・記憶」「適用」「応用・問題解決」の3領域に分けて考えることも多くなっています。
テスト仕様書は,実際に記述することが重要で,何となく頭の中で考えたり,口頭で言ってみるだけではいけません。文書化することにより曖昧さをなくし,テストの仕様をはっきりさせることが肝要です。これは,テストの妥当性を確保するためにも重要なプロセスとなります。それゆえ,テスト仕様書自体が適切に作成されているかについての検討も必要になります。
<先頭へ戻る> <テスト研究のページへ戻る>
テストブループリント
テストブループリント (テストの青写真) は「テストの仕様」と同じ意味で用いられることもありますが,各測定領域に対する問題数の配分またはその配分表を意味します。定期テストなどでは,当該学期に扱った内容を満遍なく測定する必要があります。そのためには,単元,能力,問題数の関係を適切に調整することが必要で,テストブループリントはそれを目に見えるかたちでテスト作成者に提示します。
「心理学統計法」の授業のテストブループリントの例を以下に示します。
単元 | 能力 (認知様式) | 小計 | ||
---|---|---|---|---|
知識・記憶 | 適用 | 応用・問題解決 | ||
記述統計 | 4 | 1 | 1 | 6 |
推測統計 | 4 | 2 | 2 | 8 |
テスト理論 | 3 | 1 | 2 | 6 |
小計 | 11 | 4 | 5 | 20 |
テストブループリントでは,測定領域および能力タイプごとに,問題数を設定します。測定すべき内容,テスト時間,全体のボリュームなどを考慮して,最適な配分になるように設定します。
それゆえ,テストブループリントで定めた配分は安易に変更すべきではありません。実際にテスト問題を作ってみたら,ある種の問題は作り易かった,逆に別の種の問題は作り難かったということがあったとしても,そのテストで測るべき能力を適切に測るためには,最適に考えたブループリント通りに問題数を設定することが望まれます。
逆に言えば,テストを作成する前に,問題数の配分も含めテストの仕様について検討を重ね,十分吟味してからテスト問題を作成する必要があるということです。何となくテスト問題を作りはじめ,途中途中で修正を加えるという方法では,良いテストは作れません。
<先頭へ戻る> <テスト研究のページへ戻る>