統計検定を受験する!仕事でデータ分析してると回帰分析が大事って聞くけどどういう物なの?今回はそんな疑問に答えます!
- 単回帰分析って何?
- 統計検定受けるけど単回帰分析が苦手!
- 仕事で単回帰分析って使えるの?
この様な疑問にお答えいたします。
今回は初学者向けに単回帰分析のポイントを優しく解説します。なるべく難しい記号などを使わず、まずは単回帰分析がどんな物か、どのような仕事のシーンで使えるのか?を解説していきます。
単回帰分析とは
簡単に単回帰分析を説明すると、1つの目的変数(y)を1つの説明変数(x)で予測するものです。その2変量の関係性を切片と傾きを使い、「y=β₀+β₁x」という式で表したものです。
この時、β₀は切片を表し、β₁は傾きを表しています。
これだけ聞いても良く意味がわからないですよね、、、
まず用語の意味を理解しましょう!
例としてあるラーメンチェーン店で、売上と席数が関係しているのか?(相関関係)
席数が多ければ売り上げも上がる?1席増えたらどれくらい影響するの?
それを調べるシチュエーションを想像してください。
この時に、まず下記の言葉の意味を理解しましょう。
- 説明変数=席数
- 目的変数=売上
この様に、説明変数とは何かの原因となっている変数の事で、この場合はラーメン屋の売上の原因の席数の事です。
また目的変数は説明変数の影響を受けた結果の事で、席数の結果作られた売上の事です。
つまり売り上げを予測できる
上記の事から、説明変数の影響度が分かれば目的変数の値を予測する事が可能なのです。
つまり、ラーメン屋の席数が分かればそのお店の売上予測が出来るのが単回帰分析なのです。
これは画期的ですね~新店を出す際に事前に席数から売上予測がたてられれば、事業計画も立てやすいですね!
単回帰分析をやってみよう
では実際にラーメンチェーン店の例を基に、単回帰分析をやってみましょう!A~F店における席数と売上げのデータが下記の様になっています。
※ここに出てくるデータは全て架空の数字です。
店舗名 | 席数 | 売上(万円) |
A店 | 10 | 930 |
B店 | 15 | 950 |
C店 | 22 | 980 |
D店 | 20 | 950 |
E店 | 8 | 850 |
F店 | 30 | 1200 |
単回帰分析の結果
このデータを基に、エクセルで単回帰分析を行った結果がコチラです。
データが集まっていればやり方も非常に簡単で、2~3分で終わります。
回帰統計 | |
重相関 R | 0.902701 |
重決定 R2 | 0.814868 |
補正 R2 | 0.768585 |
標準誤差 | 56.72924 |
観測数 | 6 |
分散分析表
自由度 | 変動 | 分散 | 観測された分散比 | 有意 F | |
回帰 | 1 | 56660.51 | 56660.51 | 17.60624 | 0.01374 |
残差 | 4 | 12872.83 | 3218.207 | ||
合計 | 5 | 69533.33 |
係数 | 標準誤差 | t | P-値 | |
切片 | 749.2449 | 58.94065 | 12.71185 | 0.000221 |
席数 | 12.99553 | 3.097139 | 4.195979 | 0.01374 |
う~ん、これだけ見ても何を表しているのか良く分かりませんね~、、
単回帰分析表の見方
では上記の結果がどの様な事を表しているのか、具体的に見ていきましょう!
まずは全ての項目を理解しなくてもポイントを抑えるだけで、この結果がどの様な意味を表しているのかが分かります。
まずは以下の4つのポイントをチェックしましょう!
- 重決定 R2
- 有意F
- P値
- t値
重決定 R2
重決定 R2 | 0.814868 |
R2は「決定係数」や「寄与率」と呼ばれるもので、回帰分析の結果得られた回帰式が目的変数の値変動をどの程度説明出来ているかを表しています。
値としては0~1の間をとり、1に近いほど回帰式の精度が高いことを表しています。
単回帰分析ではまずR2の値を確認する事が大切です。0.3以下の精度の低い回帰式を分析に用いても良い結果は得られませんからね!
上記の場合は0.81と高い精度を表しています。
有意F
自由度 | 変動 | 分散 | 観測された分散比 | 有意 F | |
回帰 | 1 | 56660.51 | 56660.51 | 17.60624 | 0.01374 |
有意Fは導かれた回帰式が統計的に意味があるのか?を表しています。
一般的には有意Fの値が0.05未満であれば、有用な回帰式が得られたと判断します。
上記の場合は0.013<0.05ですので、有用な回帰式だと判断できます。
P値
係数 | 標準誤差 | t | P-値 | |
切片 | 749.2449 | 58.94065 | 12.71185 | 0.000221 |
席数 | 12.99553 | 3.097139 | 4.195979 | 0.01374 |
P値は説明変数(席数)が目的変数(売上)に対して関係があるかを表す指標です。
一般的には0.05未満であれば、関係性があると判断できます。
上記の場合は0.01374の為、関係性有りと判断できます。
t値
t値は説明変数が目的変数に与える影響の大きさを表しています。
値が2未満の場合には、統計的に説明変数は目的変数に影響を与えないと判断します。
絶対値が大きいほど、影響が強い事を表します。
上記の場合は4.195979ですので、説明変数(席数)の影響が強いと判断します。
結論
この様な結果から、今回の席数を説明変数とおいた回帰分析では、回帰式の精度・統計的な意味・説明変数の影響度がどれも高い事を示しています。
つまり、今回の結果は席数が増えれば売上もあがるんだなって事が分かればオッケーです。
単回帰分析から売上予測しよう
更に単回帰分析に一歩踏み込みましょう!
上の章までで、席数が売上に影響を与える事は分かりましたね?
単回帰分析が凄いのは影響の有無を調べるだけでは無く、導きだされた結果から売上を予測する事が出来る点なのです。
回帰式
一番始めに「y=β₀+β₁x」という式が出てきたのを覚えているでしょうか?
ちなみにβ₀は切片を表し、β₁は傾きを表しています。(2回目)
この式に、先ほど求めた結果を代入する事が出来るのです。
係数 | 標準誤差 | t | P-値 | |
切片 | 749.2449 | 58.94065 | 12.71185 | 0.000221 |
席数 | 12.99553 | 3.097139 | 4.195979 | 0.01374 |
- β₀(切片)のは切片の係数を代入
- β₁(傾き)には説明変数(席数)の係数を代入
そうすると
y=β₀+β₁x → y(売上)=749.2449+12.99553x(席数)
という式になります。
例えば、席数が40の新店舗を作りたいと思った時にxに40を代入する事で売上予測を出す事が出来るのです。
y(売上)=749.2449+12.99553×40
y=1269.0661
つまり、40席の新店を作った場合には約1269万円の売上が見込める結果になったのです。
う~ん分かりやすいですね!
ちなみに、β₁=12.99553という事は、席数が1席増える毎に約13万円売上が増える事を意味しています。(小数点以下四捨五入)
単回帰分析の注意点
途中の式などは全てすっ飛ばして要所要所だけの説明に絞りましたので、各係数の値やP値の求め方などの説明は今回は省きました。
それでも単回帰分析がどの様なものか、触りだけでもつかめたのではないでしょうか?
感の鋭い方ならここまでの説明を見てある疑問を持つと思います。それは、
席数だけで売上予測をして大丈夫なの?立地とかメニューの数とかも売上に関わってくるんじゃないの?
この様に、席数だけで売上を考えるのはちょっと短絡的だと感じる方もいるかも知れません!
実はその考えは正解です。
そんな時は重回帰分析
そう、単回帰分析ではあくまでも説明変数が1個だけの分析なのです。
実際のビジネスの場合では、様々な要因(説明変数)があり、それが目的変数にどの様に関係しているのか調べるシーンも多いですよね?
そんな、説明変数が複数の場合の分析には単回帰分析では無く、重回帰分析を使う事で分析出来るのです。