ビックデータが当たり前になった現在社会では、いかにデータを分析するのか?
いかに数字をベースに課題解決を行うのか?
そのようなスキルが非常に重要になってきており、今後もますます重要視されるスキルの一つでしょう!(転職で有利w)
統計学です。
そんなデータ分析スキルの土台となるのが
そんな統計学を学ぶ第一歩として、統計学とはいったい何なのか?
記述統計・推測統計との違いは何なのか?
そのような疑問に答えていきたいと思います!
Contents
統計学とは?
そもそも統計学とはいったい何なのか?その解説からしていきましょう!
- データの特長を数値化する
- あるグループからばらつきのあるデータを採取しその性質を調べる
- データを調べた結果を基に推測する
主にこの様な特長があるのが統計学です。
ただデータを集めて眺めるだけではなく、いかにそのデータを分析し、数値を基に特長を掴むことが重要です。
また、分析したデータから次はどうなるのか?推測をおこなったりもします。
統計学を学ぶ上で重要なこと
これから統計学を学ぼうという方にまずお伝えしたいことがあります。それは、、
単語や記号をちゃんと覚える
これだけです。
これをしっかり行うだけで、統計学への理解度が一気に深まります。
初学者の方の躓きポイントとして圧倒的に多いのが数式が理解できない。
単語の意味が良く分からない!この様な意見が圧倒的に多いです。
確かに「t検定」、「カイ二乗検定」、「相関係数」など今まで聞いた事がない単語がいっぱい出てきます。
数式でも、下記の様な初めてみる記号が出てくるかもしれません。
\(\displaystyle \sum_{i=1}^\infty x_i = x_1+x_2+x_3+ \cdots\)
こういった新出のものに対して逃げたくなる気持ちも分かりますが、しっかりと理解する事が大切です。
最初は難しく受け取ってしまいがちですが、理解してしまえばなんてことはないです。
上記のΣ記号もx1~x∞まで全てを足す(総和)を表しているだけです。
あせらずに一個ずつ覚えていきましょう。
記述統計とは?
では話を戻しまして、記述統計とは何なのか?その解説からしていきましょう!
まず、簡単に一言で言ってしまうと、
データを分析することにより、性質・特長を解釈すること
これに尽きます。
要は手元にあるデータを分析することで、そのデータの持つ特長や性質を明確にし、分かりやすくする事です。
記述統計の分析とは具体的に何をする?
「データを分析」と言っても何も難しい事をするわけではなく、日頃皆さんが触れているものも非常に多いです。
- 平均値や分散
- 相関関係
- データを基に表やグラフを作る
この様な物が記述統計です。
皆さんが学生の時に経験した定期テストの平均点であったり、ビジネスマンには必須の売上データのグラフ化など、データを分かりやすくする作業が記述統計です。
例えば、あなたの身長が180cmだったとして、その数値だけだと身長が高い方なのか低い方なのか?の判断もままならないですよね?
そこで全国平均を170cmと出す事により、あなたの身長を平均と比べる事ができ、あなたは高身長と結論づける事ができますね。
推測統計とは?
記述統計の後に出来た学問として推測統計があります。
これが一体何なのか?簡単にいうと、、
標本データを使って、母集団の特性を推測すること
これが推測統計です。
さきほどの身長の例をもう一度借りると、しょうじき全国平均を出す為に全国民の身長を測るのは難しい事は理解できると思います。
ですので、一部のデータ(標本)を使って、全国の平均身長(母集団)を推測するのです。
さまざまな場で活躍する推測統計
身長以外でも推測統計は様々な場で活躍します。
- 選挙速報の結果推定
- 視聴率調査
- 平均年収
この様に、母集団全体を調査するのは現実的では無いことって多いですよね?
そんな時に標本データから母集団を推測するのに使うのです。
推測統計にはさらに推定と仮説検定がある
さらに推測統計を深堀りしていくと、推定と仮説検定の二つに分ける事ができます。
その中でも推定には更に点推定・区間推定の区分分けがされているのです。
推定とは?
推定とはその名の通り、標本から母集団を推定する事です。
例えばアンケート調査で年収を調べた際に、その標本データから母集団の平均年収を推測するのが推定です。そして、点推定と区間推定の違いですが、
- 点推定:平均年収は500万だ!と点で推定すること
- 区間推定:平均年収はおおよそ480万~520万の間だ!と区間で推定すること
この様な違いがあります。
仮説検定
そして仮説検定とは読んで字の如く、まず仮説を立てそれが正しいのか検定することです。
例えば、あるECサイトの施策でいつもはPV(ページの閲覧数)が1000あったらCV(コンバージョン:成約)が100くらいだったのが、新しい施策を行ったら110に増えた!
この様な事例で、この20回増えたというのが施策の効果なのか?それともただのブレだったのかを調べることです。
流れの例としては、
- 仮説を立てる:「新施策に効果は無かった」
- 有意水準を決める:「起こる確率が5%以下なら仮説を棄却する」
- 検証する(p値を求める):「7.6%だった」
- 結論づける:「仮説を棄却できなかったので新施策に効果があったとは言えない」
この様な流れで検定します。
上記の場合ですと、新施策に効果はないという仮説のもと、有意水準を5%と決めています。
そしてp値をもとめるのですが、この際に多少の計算を行います。(実際はpythonやエクセルで計算する事が多いです。)
そして、その計算したp値を基に、結論づけるわけです。
特に今回の場合はp値が0.0764588909319731となるため、約7.6%の確率で起こる事象である事が分かります。
そして自分で決めた有意水準を満たす事が出来なかった為に、今回の新施策は統計的に効果があるとは言えないのです。
記述統計・推測統計まとめ
この様に、記述統計と推測統計では目的が大きく違います。
簡単に言うと下記の様な違いがあります。
- 記述統計はデータを基に特性の理解をすること。
- 推測統計では標本を基に母集団を推測すること。
まずはこの違いを意識して、統計学の理解を更に深めていきましょう!