最近何かとよく聞くデータサイエンス!
テレビのコメンテーターでも、データサイエティストが出てきたり、大学でもデータサイティスト学部を作るところが増えています。
そんな、今話題のデータサイエンス!
実態はどんなことをしているのかいまいち分からないことも多いです。
しかし、結論から言ってしまうと、データサイエンスは全ビジネスマンに必須の知識と言っていいでしょう。
この記事では、
- データサイエンスとは何なのか?
- なぜデータサイエンスが全ビジネスマンに必要なのか?
この点について、現役のデータサイエンティストが解説します。
データサイエンスとはなにか?
データサイエンスとは、データから有益な知見を得ようとする学問分野です。
データからと言うのが重要で、人の主観を排除して、データの結果から特長をつかんだり、実験の結果を解釈します。
例えば、平均値や中央値を求めるのも立派なデータサイエンスです。
6歳の男の子の平均身長を求めることが出来れば、それに合わせて洋服のサイズを展開していくことが出来ますよね?
データサイエンスでは、統計学、機械学習、プログラミングなどの手法を用いて、データの分析や解析を行います。
データサイエンスの定義
データサイエンスの定義は、以下のようにいわれています。
統計学やIT、数学、経営学などさまざまな研究分野から成り立つ学問であり、複数の研究分野の知識をもとに、企業の業務システムやインターネット、アンケートなどで集約したさまざまなデータに潜む知見や価値を明らかにし、社会課題や経営課題の解決に役立てます。
データサイエンスは全ビジネスマンに必要
データサイエンスの詳細説明に入る前にこれだけは言わせてください。
データサイエンスは全ビジネスマンに必須の知識です。
多かれ少なかれ、データサイエンスの知識は必要になってきますし、これを知っているだけで、より成果を上げることが出来るケースなど本当にたくさんあります。
なぜ必要なのか?
ではいったいなぜ必要なのでしょうか?
その理由を簡単に説明します。
それは、
データに必ず触れるからです。
ビジネスをする以上、データに触れないというわけにはいきません。
日々の売り上げを紙面で管理しているだけでも大事なデータです。
活用の道は大いにあります。
もちろん、業界によって得られるデータは違います。
例えば、
- 不動産:価格データ、間取りのデータ
- 小売業:販売本数のデータ、顧客データ、商品データ
- web業界:アクセスログ、コンバージョンレート
- 飲食:売上、原価率、回転率
ほんの一部ではありますが、業界によって様々なデータを取得することができますし、それを活用すれば、もっと業績を伸ばせる余地があることは容易に想像できますよね?
ビジネスシーンでの活用事例
より具体的に、ビジネでの活用シーンを見ていきましょう。
私が今までに行ったデータサイエンスの一部です。
webマーケティングの活用事例
例えば、あなたの部下のAさんがweb広告のバナーをAからBに変えました。
今まではサイトに訪れた人の中で、1000人中50人が買っていってくれましたが、新しバナーにした結果、1000人中60人が買っていきました。
Aさんは「見てください!今までのバナーよりも10人も増えています。やっぱり効果があったんです。」と言ってきました。
果たして本当に効果があったのでしょうか?
あなただったらこの結果に対してどのように評価しますか?
データサイエンスではこういった場合、統計的に有意差があるかを見ます。
本当に効果があったのか?それともただの誤差で、たまたま10人増えただけなのか?
それをはっきりさせます。
今回の結果をまとめると、↓になります。
訪問者 | 購入者 | 購入率 | |
バナーA | 1000人 | 50人 | 5% |
バナーB | 1000人 | 60人 | 6% |
この結果から判断するにはp値を求める必要があります。
詳しい説明は省きますが、このp値が0.05以下でしたら、統計的に有意差があると判断され、バナーBにしたことによって購入者が増えたと結論付けることができます。
この0.05というのは、起こる確率が5%以下なので、それは偶然ではなく効果があったからだと判断する基準のことです。
このp値は色々なツールを使った求めることができます。
特に簡単なのはpythonで、↓のコードで求められます。
1 2 |
from statsmodels.stats.proportion import proportions_ztest proportions_ztest([50, 60], [1000, 1000], alternative='smaller') |
この結果、p値は「0.16334162562060273」という結果になりました。
p値が0.05以下ではないために、バナーをBにした効果あったとは言えない結果になりました。
このように、データサイエンスでは本当に効果があったのか?それともただの偶然なのか?それを統計的に判断することが出来るのです。
ちなみに今回使ったのは、比率差の検定です。
ちなみにpython×データサイエンスを学びたい方は下記の講座をどうぞ!

小売業での活用事例
例えば、あなたはスーパーの仕入れ担当です。
時期は7月、来週から一気に気温が上がることが天気予報にて告げられています。
気温が上がるとアイスの売上が上がることが予想されるので、仕入れを増やしたいとします。
では実際にどれくらい増やせば良いのでしょうか?
先週は140個売れているから、ちょっと足して160個位発注すれば良いのでしょうか?
こんな時は、過去の気温とアイスの販売個数のデータがあれば、回帰分析を使うことで予測することが出来ます。
回帰分析の詳しい説明は省きますが、過去のデータから回帰直線を求めた図が↓です。

この表の見方としては、
- X軸が気温で、Y軸がアイスの売上(個)を表している
- 青の丸い点が、過去の気温毎のアイスの売れた個数。
- 赤い直線が回帰直線で、過去のデータを基に気温毎の売れ個数を予測している直線
です。
つまり、この図を使えば、気温が32度になった場合のアイスの売上を予測することが出来るのです。

だいたい、240個とちょっとですね。
この予測値を使って仕入れを行えば、ただの勘で仕入れ数を決めるよりは精度が高くなります。
また、今回のように気温だけで売上を予測するのではなく、
- 客数の推移
- お店全体の売上
- アイスの陳列場所
- アイスのチラシ記載回数
- 時系列データ
など、様々なデータを追加して予測すると、さらに精度を上げる事ができます。
このように、データサイエンスを学べば学ぶほど、ビジネスシーンでも効果的に活用できるのです。
データサイエンスに必要なスキル
そんなデータサイエンティストに必要なスキルとして重要なのが、以下の3つと良く言われます。
- データサイエンス力
- データエンジニア力
- ビジネス知識
ですが、私の意見としてはこれに「コミュニケーション力」をプラスした、4つのスキルが重要だと思っています。
それぞれを深堀りしましょう。
あくまで、今回のスコープは全ビジネスマンに必要なデータサイエンス力です。
機械学習などをゴリゴリやるデータサイエンティストとは条件が違う点に注意してください。
データサイエンス力
データサイエンス力を具体的に言うと、
- 基礎数学
- 統計学
- グラフの見方
このような知識が必要です。
まずは、最低限の数学の力が必要ですが、高校レベルの数学で十分です。
それよりも統計学の方が重要です。
上で紹介したような、比率差の検定や回帰分析、相関係数や分散分析など、実際のビジネスシーンでもバンバン活躍します。
統計学は今までに学んでいないという人も多いので、これから勉強したいって方に非常におすすめの学問です。
またグラフや表からデータの傾向をつかみ取る力も必要です。


例えば、↑の2つの散布図からどのような傾向があるかが理解できる力です。
ちなみに1つ目は数学と英語に正の相関が見られます。
つまり、数学の点数が良い人ほど、英語の点数も良いという結果です。
2つ目は逆で、負の相関です。
数学の点数が良い人ほど、英語の点数が悪いという結果になっています。
このように、ビジネスシーンでも必ず表やグラフは出てきます。
そこからどのような傾向があるのかを読み取る力は重要です。
データエンジニア力
データエンジニア力というと、
- pythonやRでのプログラミング力
- データベースの知識
- SQLで必要な情報を抽出
- エクセルで分析と可視化
この様なことが挙げられます。
データサイエンス力で統計学が非常に重要といった話しをしましたね。
その統計を行うのに、膨大な計算が必要になってきます。
現場ではデータが何万件もあるというのはざらですので、手計算をしていたら平均値を出すだけでも大変です。
そんなときに、エクセルでも良いので、各種ツールの使い方を知っていれば、一瞬で計算することができます。
しかも、手計算によるミスも無くせるので一石二鳥です。
エクセルでも一通りの統計検定手法や、グラフの可視化を行うことが出来るので、まずはエクセルから始めてみるのも有りだと思います。
また、最低限のデータベースの知識も必要です。
使いたいたデータは、どんどんデータベースに貯められていくので、そこから適切に取り出したり、テーブルを結合したりするのに、データベースの知識・SQLのスキルが必要になってくるでしょう。
ビジネス知識
データサイエンスを行う上で、一番大事なのがビジネス課題を把握することです。
その企業にとって、売上を上げる事が目的なのか?営業利益を上げる事が目的なのか?
その違いでも、必要になってくるデータや、分析手法が変わってきます。
また、売上を上げる事が目的だった場合に、どのようなデータを使ったら良いのか?
その判断をするために、業界のドメイン知識も必要に重要になってきます。
さきほどの気温とアイスの売れ方のように、気温によって売上が変化したり、アパレルでは卒業・入学シーズンにフォーマルな服が売れたりと、様々な要因によって売上に変化をもたらします。
このような要因のことを、機械学習では特長量と言います。
この特長量を見つけるのにドメイン知識が無ければ見つける事ができません。
このような理由から、データサイエンスにビジネス知識は欠かせません。
コミュニケーション
最後にコミュニケーション能力も必要です。
悲しいかな、日本の企業ではデータサイエンス・統計学を理解している人は大企業でも少ないです。
そのため、せっかく統計的手法による分析で、意味のある結果を出したとしても、それをそのまま伝えても理解されない事が多いです。
「p値が0.012でしたので帰無仮説が棄却されました!」と言っても全くもって理解されません。
それを誰でも理解できるように説明するスキルも必要になってきますし、データサイエンスはチームで行う事がほとんどです。
そのため、チーム内外を問わず、良好な関係を築いていくためにも、コミュニケーション能力が重要なのです。
Work illustrations by Storyset