平均値って?

統計数学で一番基本なものといえば「平均値」です。単純に「平均値」といっても実は奥が深いのです。一般に使われている平均と言えば「算術平均(相加平均)」ですが、それ以外にもいろいろなものがあります。詳しくはWikipediaをみてもらえばいいと思います(WikiPededia「平均」より)。いろいろな平均を出す方法があるのですが、それぞれで意味があって、平均を出す方法が作られています。

平均というものをひとことで言い表すと、データの中央の値という意味になります。実際にはひとことで言い表すのは難しいのですが。

分析する時に平均値はよく使われます。計算も簡単ですし、目安として使われていますので、誰でも知っている統計数学なのでよく使われていますけど、実は平均値の計算には限界があります。例えば次に2人の国語、数学、理科、社会、英語のテストの結果があります。平均点は2人とも70点なんですが、この2人は同じ学力なのでしょうか?

 国語数学理科社会英語平均
鈴木657572687070
佐藤509095556070

2人の学力が同じとは言えないと思います。例えば、鈴木さんはそれぞれの科目で差がない人になりますが、佐藤さんは理系の科目が強く、文系科目が弱いと思えると思います。平均値からではその部分が判断できないのです。こういう部分が平均値の限界です。

統計数学の問題

統計数学というものには、おおきくわけて2つの方向性があります。1つは「数学」という学問領域としての統計数学の方向と、1つは統計数学を使ってなにかをするという方向になります。後者の方は統計数学は道具です。

ここでは、学問領域としての統計数学ではなく、道具としての統計数学を語って行こうと思います。

さて、一概に統計数学と言ってもいろいろあります。なぜいろいろあるのかというと、出来ることが違うからいろいろあるのです。例えば、包丁でも菜切り包丁、出刃包丁とかあって、それぞれの用途にしたがって使うと料理がおいしく出来上がります。つまり、材料に合った道具を使うことで正しく材料を扱うことが出来るようになります。それと同じで統計数学もそれに合った材料、扱い方というのがあります。逆に言えば、材料にあっていない統計数学を使ったり、扱い方を間違えると全く違い結果になってしまいます。

統計数学が何に使われるかというと、統計数学はデータ分析に使われます。ここでのデータ分析は社会調査とか、実験結果とか、何でもいいのですが、データがあって、それの結果を分析して、なんか結論を導くために使用します。例えば、平均値を求めたり、中央値を求めたり、偏差値を求めたりして、そのデータの傾向を探したりします。

最近、コンピュータの発達で統計数学がツール化されて、データを入力しさえすれば、結果を簡単に出すことが出来ます。ツールをつかって分析を行うことそのものは問題は無いのですが、使用した統計分析どういう意味を持つのかを全く知らないで使うと問題が起きます。どういうことなのか?

統計数学ではデータを入力すると結果が出力されます。ただ、統計数学ではそのデータがどういう意味を持つものなのかはわからないので、結果が正しいか、間違っているかを判断はしません。正しいのであれば問題が無いのですが、間違っていた場合は問題が起きることになります。間違えないようにするためには使っている統計数学に間違いが無いかを確認する必要があります。例えば、使っている統計数学がそのデータに適したものなのかを確認しないといけません。これは統計数学をしらないと出来ません。別に統計数学を学問領域で知る必要は無いですが、どういう道具で、どういう結果が得られるのかくらいは理解しておかないと問題があります。

ツールを使っているので、計算違いが起きるということがないのであれば、間違うわけが無いじゃないかと思うと思いますが、問題になるのはツールを使うその前の段階での問題です。使う道具が間違っていれば、その結果が間違ってしまうということです。それはツールでは判断してくれません。出刃包丁でも野菜を切れますが、きれいに切れるかどうかはわかりません。出刃包丁を使うか、菜切り包丁を使うかは使う人が判断することになります。

統計数学の場合、その部分はシビアで、道具は正しく使わないと、正しい結果を導くことが出来ません。その部分が統計数学の面倒なところです。ただ、数学の論理的な部分を理解しないかぎり使えないというのは無理があると思いますが、間違えないように統計数学の使用方法は知っていた方がいいと思います。

数字の一人歩きという言葉もあり、間違った結果が出た場合、それが一人歩きして酷い目に遭うということがよくあります。そういう意味でも注意が必要です。