信頼性と妥当性について|構成概念はどのように測定していくのか



Sponsored Links

信頼性と妥当性

パーソナリティの測定用具を開発するときには、信頼性と妥当性という2つの側面を検討することが重要視されます。

「信頼性の検討」とは、測定用具が安定して測りたいものを測ることができているかを明らかにすることです。そして「妥当性の検討」とは、本当に測りたいものを測っていると言えるのかを明らかにすることです。

このあたりの話を分かりやすく説明するために、「漫才を審査する審査員グループ」というものを考えてみようと思います。「その漫才が面白いかどうか」は、もちろん個人によって異なります。しかしときには、審査員が採点をして優勝者を決めることも行われます。そういったテレビ番組を思い浮かべてください。

なお、この審査員グループは5人で構成されているとします。そして、それぞれの審査員は0点から10点までの合計50点満点で審査を行うことにしましょう。

ではこの例から、どのようなことを考えていくことができるのでしょうか。

信頼性

漫才審査の信頼性

第1の例です。

漫才コンビAと漫才コンビBが舞台に登場し、それぞれが芸を披露しました。5人の審査員の得点はコンビAに対して35点、コンビBに対して25点がつけられ、コンビAのほうが次の予選に勝ち進むことになりました。

数力月後、勝ち進んだコンビAと敗者復活で勝ち残ったコソビBが再び対決することになりました。披露されたネタも同じもので、お客さんの盛り上がり具合も前回と同じ程度でした。ところが、5人の審査員の審査結果は、コンビAに対して26点、コンビBに対して36点がつけられたのです。

また数力月後、同じコンビAとコンビBが別の大会に出場してきました。舞台でのネタも同じもの、会場の盛り上がりも同程度で、審査員も同じ5人です。しかし今度の審査結果は、コンビAが23点,コンビBが15点というものでした。

 

このように、同じ漫才コンビの同じ内容のネタに対して評価を行っているにかかわらず、その時々によって評価がばらばらでは、「この審査員たちの評価をあまり信用することができない」と感じるのではないでしょうか。お客さんの盛り上がり具合も同じ程度であればなおさら、「この審査員たちは何を見ているんだ口とテレビの前で文句を言ってしまいそうです。

 

第2の例です。

漫才コソビAが芸を披露しました。そしてその芸を見て、5名の審査員が採点を行いました。すると、5人中2人が「9点」、3人は「3点」で合計が27点となりました。次に漫才コンビBが芸を披露し、5名の審査員が採点を行ったところ、1名が「1点」、3名が「5点」で1名が「10点」の合計26点でした。このあと、何組かが舞台に登場してきたのですが、5名の審査員の得点はいつも評価がばらばらで、まったく一貫しません。

このように、つねに大きく採点が分かれてしまう場合にも、「この審査員たちは大丈夫だろうか?」と不安を抱いてしまいます。複数の漫才師が登場してくるのですから、そこには上手い漫才師から下手な漫才師まで、あるいは非常にウヶるネタからまったくウヶないネタまで、何らかの「力の差」というものかあるはずです。しかし、一人一人の審査員の得点がばらばらでまったく一貫しない状況では、何を見ているのか分からないと言わざるを得ません。

信頼性とは

質問紙尺度の信頼性を検討する一つの方法に、時間的な安定性を検討することがあります。これを再検査信頼性と言います。

先ほどの審査員の第1の例は、この再検査信頼性が十分ではないために、「審査員の評価が信用できない」と感じたのです。同じ漫才コンビについて何度か評価を行ったときに、比較的得点が高いコンビは時間を経てもある程度得点が高い傾向に、得点が低いコンビは時間を経てもある程度得点が低い傾向にあることを確かめるのが、この作業に相当します。

もちろん、その日の出来不出来はあるでしょうし、繰り返し出場することで実力が向上することもあるでしょう。しかし、同じコンビの同じ芸、しかも同じ程度会場が盛り上がった芸を見ているにもかかわらず、何度かその芸を見るたびに評価があまりにも上がったり下がったりするのでは、その審査員たちが何を審査しているのかが分からなくなってしまいます。したがって、このような場合は「この審査員グループの審査結果は信頼性が高いとは言えない」と判断することになるのです。

また、先ほどの審査員の第2の例は、内的整合性(内的一貫性)と呼ばれる信頼性の例になります。これは、ある構成概念を測定する複数の指標がある程度一致した変動をするかどうか、言い換えると構成概念以外の「その他」の要素の影響が大きくないかどうかを検討することに相当します。

もしも、審査員Aが「漫才師の容姿」、審査員Bが「漫才師の年齢」、審査員Cが「笑顔の回数」といったように、審査員それぞれが漫才以外の要素を大きく評価してしまっているようであれば、審査結果の得点は審査員によってばらばらなものになってしまうでしょう。

もしも5人の審査員が本当に漫才コンビの「漫才の実力(あるいはそれに近いもの)」を評価しているのであれば、5人の評価はある程度一致してくるはずです。もちろん審査員によって多少の好みの違いがあり、得点は上下するでしょう。しかし、やはり下手なコンビには総じて低い得点が、上手いコンビには総じて高い得点がつけられることになるはずです。

したがって、審査員によって審査結果がバラバラなのであれば、「この審査員グループの審査結果は信頼性が高いとは言えない」ということになるのです。

実際の質問紙尺度の作成において、再検査信頼性は、数週間から数力月間隔で同じ調査対象者に同じ質問紙を実施し、相関係数を算出することで検討されます。

また,内的整合性(内的一貫性)は、尺度に含まれる一つ一つの項目と全体得点との相関を検討すること(項目‐尺度間相関とかI-T相関と呼ばれます)、
偶数番号の項目の合計得点と奇数番号の合計得点の間の相関を検討すること(折半法と呼ばれます)、そしてα係数(アルファ係数)という指標を算出することなどによって検討されます。

研究などで具体的な作業を行ってみないと,これらがどのようなものか実感できないかもしれませんが、質問紙尺度を作成するときには、このような作業を行うのだということを覚えておいてもらいたいと思います。

妥当性

漫才審査の妥当性

ここからは信頼性ではなく、審査の「妥当性」というものに焦点を当ててみたいと思います。

ではまず第1の観点です。

この5人の審査員は、どんな人々なのでしょうか。漫才の採点を行っていますので、もともと漫才師で、今もお笑いの仕事に携わっている人たちであれば、審査結果にも納得がいくかもしれません。しかし、もしもこの中に、お笑いの仕事の経験もなく、ふだんお笑いの舞台やテレビ番組を見ることもない、とくにお笑いに興味があるわけでもない……といった審査員が複数混ざっていたらどうでしょうか。

いくら得点を合計するとはいえ、やはり審査結果は妥当なものとは言えなくなりそうです。もしかすると、「そういう人を笑わせることこそが真の実力なのだ」と考える人がいるかもしれません。しかし、そういう大が観客として芸を見ている場合と、審査員として評価をする場合とでは見方が変わってしまいそうです(たとえば、審査をするときに些細な失敗を過剰に見積もってしまう、よくテレビに出る漫才コソビを高く評価してしまうなど)。

また、もしもそのような素人が審査をする場合には、「かっこいいから」「笑顔がかわいいから」など、本来評価すべきポイントとは違う部分で判断してしまうかもしれません。さらに言えば、そのような人物に審査された場合、審査の対象者である漫才コンビが結果に納得できるのか、という問題も生じてきそうです。

 

次に第2の観点です。

漫才を採点する、という以上は、その採点結果が会場のお客さんの盛り上がり具合と、ある程度は一致する必要があると考えることができます。まったく会場が盛り上がらなかった漫才が高い得点で、爆笑に包まれた漫才が低い得点という結果では、その審査の妥当性が疑われてもしかたがないと言えるのではないでしょうか。

また、この審査によって優勝した漫才コンビが、その後ちゃんと芸能界の第一線で活躍しているかどうか、という観点も重要です。優勝したのに他の番組では笑いをとることができず、トーク番組でもそれほど面白さを発揮できず、1年後にはコンビを解散し、芸能界からもいなくなってしまった……、という審査を行っていたのであれば、この審査の妥当性が疑われてもしかたがないと言えます。

 

そして第3の観点です。

審査のプロセスでは、何組も漫才師が登場し、何度も審査を繰り返し、結果を得点で示していきます。それが全体として、誰が見てもたしかにそれなりに納得できるものになっていれば、やはり審査の妥当性はある程度確保されることになるでしょう。

またたとえば、その審査員グループの審査が、ある漫才コンビの体調のよいときと体調の悪いときの芸の差や、観客も分からないようなミスといった微妙な差を、しっかり反映するようであれば(たとえば、審査の得点だけでなく、審査員のコメントを聞いたときに「ああ、それでその得点をつけたのか」と納得できるようであれば)、この審査者グループの審査の妥当性の評価
は上がることになるでしょう。

妥当性とは

さて,漫才の審査の妥当性について,3つの例を挙げてみました。
第1の例は,「内容的妥当性」と呼ばれるものの例に相当します。これは,測りたいものをちゃんと過不足なく測っているか、あるいは専門家が測定された内容の過不足のなさをちゃんと判断しているか、という検討を行うことです。

漫才の審査であっても、審査してほしいポイントというものがあるはずです。そこをあまり外さずに審査できているかどうかが、内容的妥当性に相当するのです。

内容的妥当性は、到達度を測る検査を思い浮かべると分かりやすいでしょう。

たとえば、パーソナリティ心理学の授業を15回行った後で、テストを実施するとします。もしもそのテスト問題が、第8回目の余談で述べられたもの「だけ」だったとしたらどうでしょうか。そのテストはパーソナリティ心理学の内容のテストとして、とても内容的に妥当だとは言えないことになります(学生の多くは文句を言うことでしょう)。授業を行って、学生がどの程度理解できたのかという到達度を測定しようとするのであれば,学期全体の授業からおおむね過不足なく問題を用意するのがよりよいやり方だと考えられます。

 

第2の例は、「基準関連妥当性」と呼ばれるものに相当します。これは、ある方法で測定されたものと、それ以外の方法によって測定されたもの(これを外部基準といいます)との関連を検討することです。

会場でウケた漫才のネタはやはりより高い評価になり、受けなかった漫才のネタはやはりより低い評価になるというのが、漫才の審査と外部基準(お客さんの盛り上がり)との関連に相当します。

別の例ではたとえば、新しく開発された健康診断の結果と、医者の診断結果の関連を検討することを挙げることができます。医者の診断は、開発された健康診断とは別の方法ですので、外部基準になります。

したがって、この関連を検討することは、健康診断結果の基準関連妥当性を検討することにあたります。

この基準関連妥当性はさらに、併存的妥当性と予測的妥当性という2つの内容に分かれます。

併存的妥当性は、外部基準が測定とほぼ同時に得られている場合です。先ほどの例で言えば、会場の盛り上がり具合と審査結果が関連しているかどうかに相当します。会場の盛り上がりと審査はほぼ同時に生じますので,併存的妥当性に相当します。

予測的妥当性は、外部基準が後で得られる場合です。優勝したコンビがちゃんと活躍しているかどうかは、審査結果を示した後に分かることですので、予測的妥当性を検討することに相当するのです。

 

第3の例は、「構成概念妥当性」と呼ばれるものに相当します。これは、本来測定されるべき「構成概念」から考えられることが実際に生じているかを検討することです。

もしも漫才の審査者グループが、本当に漫才コンビの「漫才の実力」を審査しているのであれば、本当に実力のあるコンビとそうではないコンビの差や、コンビの調子の良し悪しといった微妙な差を反映した審査結果を出すことができるのではないでしょうか。

このように、「本当にこれを測っていたらこうなるはずだ」という予測を立てて、実際にそのような結果が得られるかどうかを検討していくことが、構成概念妥当性の検討ということになります。

さて、とはいっても、構成概念妥当性というものはやや曖昧です。実は、妥当性を検討すること自体が、構成概念妥当性を検討することにほかならないと考えることもできるのです。

ここまで説明してきたように、直接測定することのできない構成概念を、何とか上手く測定しようと試みているのがパーソナリティを測定することなのですから、その妥当性を検討することは、まさに構成概念妥当性を検討することに相当すると考えることもできるわけです。

妥当性に関しても、実際に研究を行ったり実習の授業などで作業を行ったりしてみないと、作業の実感がわかないのではないかと思います。しかし、信頼性のところで述べたのと同様に、質問紙尺度を作成する際には、このような妥当性の検討を行っているのだということを覚えておいてもらえればよいのではないかと思います。

Sponsored Links

信頼性と妥当性の注意点

先ほどの漫才審査員グループの例でみたように、そもそも安定した,信頼性のある審査をしていないと、その審査の妥当性を問う以前の問題になってしまいます。

これは、乗るたびに違う数字が表示される体重計があったとしたら、それが体重を量っているのかどうか以前の問題になる、というのと同じことです。

パーソナリティを測定する、質問紙尺度の信頼性と妥当性の問題についても同様で、妥当性を検討するためには、まずはある程度の信頼性を確保しておく必要があるのです。実際に、新たなパーソナリティ尺度を開発する研究において、まずは信頼性を検討し、そのあとで妥当性を検討するプロセスを経ることが多いと言えます。

また、信頼性についても妥当性についても、「完全な信頼性」や「完全な妥当性」というものがあるわけではないので注意してほしいと思います。なぜなら、構成概念という目に見えない、直接触れることのできない概念を、問接的な方法で測定しようと試みているからです。その回答にはかならず環境・状況その他さまざまな要因が混入してきてしまいます。

そして、その影響をできるだけ少なくしようと工夫することはできますが、その影響をゼロにすることは不可能なのです。ですから、信頼性と妥当性が検討されている質問紙尺度や心理検査、知能検査で測定を行ったとしても、その結果はつねに「完全」ではありません。

もしもみなさんが、これらの尺度や検査を使用する立場になったときには(たとえば、学校の先生や企業の人事担当者など)、信頼性と妥当性についてぜひ注目してほしいと思います。

具体的には、市販されている検査や研究に使用されている尺度であれば、書籍や論文の形で信頼性と妥当性が報告されているはずですので、ぜひその内容をチェックしてほしいと思います。

日常生活の中で構成概念を見つけてみよう

ここまで、パーソナリティが構成概念であり、直接観察・測定することができないこと、そのために信頼性や妥当性を考える必要があることを説明してきました。

日頃何気なく使用しているパーソナリティに関する用語は、使っているときにそのつもりがなくてもじつは構成概念なのです。

じつは他にも、普段の生活の中や仕事、趣味の世界などで、構成概念(や、そのように考えることが可能なもの)を測ろうと試みる機会や測られた結果に触れる機会というのは、意外とたくさんあります。

たとえば、みなさんの子どもが学校からテスト結果や成績の通知表をもってきたとき、そこに記載されているのは、「学力」という構成概念を間接的に測定した結果です。学業成績も入試の成績も、通知表の結果も、「学力そのもの」ではなく、学力とその他の要因がともに反映したものになっているのです。

またたとえば、「野球の上手さ」や「サッカーの上手さ」を評価するときでも同じです。野球やサッカーの上手さそのものを直接的に測定することはできず、ボールの扱いや足の速さ、チームメイトとのやりとりや練習への取り組み方など、多くの観点から間接的に評価せざるを得ないのです。

足の速さやボールの扱いの上手さは、野球やサッカーが上手いことの一つの反映ではありますが、それらだけで野球やサッカーの上手さが決まるわけではありません。

他には、たとえば「歌唱力」はどうでしょうか。得点が出るカラオケで高得点を出すことは、本当の意味で「歌が上手い」ことと同じだとみなしてよいのでしょうか。本当の意味での「歌唱力」は、直接測ることのできない構成概念であり、カラオケの高得点はあくまでもその一つの指標にすぎないと考えた方がよいのではないでしょうか。