尺度水準とは何か?使える代表値を決める大事な概念![統計学/確率入門]
本サイトでは、数学分野の内容を基礎から分かりやすくシミュレーターを用いて解説しています!このベースを用いて、以後「統計学/確率」の分野の内容を同様にシミュレーターを作って解説していきたいと思います!
今回は、今まで説明してきた代表値「平均値」、「中央値」、「最頻値」ですが、使用できる条件が決まっています。
考えている統計/データがどういった性質のものかを考えて、代表値を使う必要があるんですね!そのためには今考えている統計の「尺度」がどのタイプなのかを考えることが重要です。
以下、その「尺度水準」について説明していきます!(*^^*)
目次
尺度水準とは何か?
尺度水準とは、統計/調査/データを考えるその評価基軸がどんなものかを表すものです。統計といっても様々なものがあります。
今までは「テストの点数の例」で説明してきましたが、統計というのは別に数値でなくても良いのです!ですので、「出身県」の分布であったり、「好きな食べ物」のアンケート調査ももちろん統計になります。こういったデータの種類やデータ数値の特性を表すのが、尺度水準です。
また、数値で表せるといっても、「質量」「成績評価」などではその性質が実は違うんです。この違いを理解して、適した代表値を使うことが重要なのです!
尺度水準の4つのパターン!
それでは、上記で説明した尺度水準、具体的にどんなものがあるか4つのパターンを説明していきます!
この4つの違いを理解するので重要なのが、「順序」「間隔」「比率」といいう条件です。以下説明する4つの尺度は、この条件を満たす満たさないがそれぞれ違うんです。この条件の説明も含めて、以下説明していきますm(_ _)m
1. 比率尺度
最初に紹介するのが「比率尺度」です。これは一番強い条件を満たすものです。
例えば「重さ」「長さ」などがこの比率尺度に当てはまります。比率尺度は「順序」「間隔」「比率」の全てを満たします。以下、長さを例にして説明します。
「間隔」 2cmと3cmの差(1cm)は、3cmと4cmの差と等しいと言える
「比率」 4cmは2cmの2倍長いと言える
このように、2つの長さに対して順序性があり、2つの長さの差を等しく評価でき、2つの長さの比率を定義できるものが「比率尺度」になります。つまり、数値項目として四則演算なんでもできる項目ということです。
このように聞くと当たり前に思えるかもですが、、、以下説明する3つの尺度はこの条件を満たさないんです。
2. 間隔尺度
次に紹介するのが「間隔尺度」です。これは比率尺度のように「順序」「間隔」の条件は満たすけど、「比率」の条件は満たさないものを言います。
例を上げると「西暦」「摂氏温度」のようなもの。例えば10度と比べて、20度になると2倍暑くなるわけではありません。「20-10=10度」という差には意味があるけど、「20/10=2」の比率は意味をなさない統計項目のものが「間隔尺度」になります。
西暦もそうですね。間隔/差には意味があるけど、比率をとっても何の意味もなしません。ですので、比率尺度と比べると、1つ条件が落ちるわけです。
3. 順序尺度
次に紹介するのが「順序尺度」です。これは、「数値的な項目で順序は考えられるけど、その数値の間隔に特に意味がないもの」です。
例えば「震度」「マラソン大会の順位」「将棋の段位」「成績の5段階評価」などがあてはまります。将棋の段位で考えると、2段より3段のほうが凄いし、4段のほうがより凄いと言えます。しかし、2段と3段の差と、3段と4段の差は全く違います。つまり、順位や段位などで順位付けはできるけど、その数の差に意味がないものがこの順序尺度になります。
後述しますが、順序尺度は「平均値」をとっても意味をなしません。2段を二人、4段を二人集めてきたら平均して3段!とはいかないのです><
4. 名義尺度
最後に紹介するのは「名義尺度」です。これは数値でない項目データのことです。
例えば、「出身県」「好きな食べ物」「好きな科目」「血液型」といったようなものです。こういった統計では「宮城県」「徳島県」といったように、現れる項目が数値でなく名義(名前)になるのが特徴です。
名義尺度は、数値的な条件を全く満たさない尺度です。「順序」「間隔」「比率」どれも定義出来ません!数値ではないので、比率/間隔もないし、それぞれの項目に順序性もありません><
名目上は数値が割りあたっていても、その数値がただの名前でしかない場合はこの「名義尺度」になりますので注意して下さい!例えば「出席番号」「部屋番号」といったものは、その数に「順序」「間隔」「比率」的な意味はなく、ただ番号を割り振っただけのものですよね。この場合は名義尺度になります!
比率尺度が一番条件が多く、名義尺度が一番条件がゆるい
上記で説明してきた4つの尺度を、「順序」「間隔」「比率」が定義できるかという観点でまとめると、以下のようになります!
順序 | 間隔 | 比率 | |
---|---|---|---|
1.比率尺度 | ○ | ○ | ○ |
2.間隔尺度 | ○ | ○ | |
3.順序尺度 | ○ | ||
4.名義尺度 |
つまり、上に行くほど条件が厳しくなり、下にいくほど条件が緩くなっています。どの条件も満たさないもの(そもそも数値として扱えないもの)が「4.名義尺度」になるわけです。
さて、このような4つの尺度ですが、その満たす条件によってどの代表値が使えるかが変わってくるんです!
尺度水準の種類で、使える代表値が変わってくる!
ここまでで説明したとおり、4つの尺度で「順序」「間隔」「比率」が定義できるかが変わってきます。そして、この条件で「最頻値」「中央値」「平均値」どの代表値が使えるかが決まってきます!
各尺度と使える代表値の関係は以下の通りになります。
最頻値 | 中央値 | 平均値 | |
---|---|---|---|
比率尺度 | ○ | ○ | ○ |
間隔尺度 | ○ | ○ | ○ |
順序尺度 | ○ | ○ | |
名義尺度 | ○ |
これは、満たす条件を考えると分かります。
まず「平均値」については「間隔」の条件を満たす必要があります。各数値の差異が等しく評価できないと、平均を出しても意味をなさないからです。ですので「間隔」の条件を満たす「比率尺度」「間隔尺度」だけで平均値を用いる事ができます(順序尺度の2段と4段の平均は3段といっても、違和感が生じる)
次に「中央値」。これは順序性を満たせば使えます。間隔は等しくなくても、上から順に並べることができれば「中央」は定義できるからです。ですので、順序性を満たす「比率尺度」「間隔尺度」「順序尺度」で使用できます。
最後に「最頻値」。これはどんな場合でも使うことが出来ます。項目が定義できれば、それぞれカウントができるはずで。順序性も何もなくても、カウントさえできれば「最頻値」は決定できますよね!ですので、名義尺度でも何でも「最頻値」は使えます!
考えるデータがどの尺度か判定し、どの代表値が使えるか考えることが大事です。
まとめ:尺度を意識して、使える代表値を選ぼう!
今回は尺度水準について説明しました。統計調査を考える時に、どういった項目のデータを集めようとしているのか考えるのが重要です。
それは、「数値であるか、それとも数値でないものか」という観点も重要ですし、上記で説明した「順序」「間隔」「比率」という観点でチェックするのが重要です。
どの尺度水準かがわかれば、使える代表値も決まってきます。逆にこういった考察をしないと、「部屋番号の中央値」「段位の平均値」をとるといったようなおかしな値を計算することになってしまいます。
ですので、まずは何の統計を調べるか考えて、使える代表値をキチンと決めることが重要なんですね><
- 対象データがどの性質を満たすかによって、尺度が変わる
- どの尺度か判定し、どの統計値が使えるか判断することが重要
⇒「平均/分散等の代表値」カテゴリ記事一覧
その他関連カテゴリ