データサイエンティストになりたい学生の方や、社会人からデータサイエンティストへの転職を考えている方々。
勉強したいけどおススメの本無い?って方も多いでしょう。
そんな方のために今回の講座では、
データサイエンスを学ぶ上で初心者におすすめの本を紹介します!
データサイエンティストに必要な知識下記のように幅広いです。
- 統計学や微積・線形代数
- python
- 機械学習
- ビジネス知識
そのため、私自身も過去に何百冊もの本を読んできました。
その中でも特におススメの本、またはデータサイエンティスト仲間内でも人気の本を紹介します。
また、中には「今の時代学習するんだったら動画やQiita、ブログで十分じゃない?」と思う人も多いかもしれません。
確かにpythonやプログラミングの基礎を学ぶのであればyoutubeなどの動画で十分かもしれません。
しかし、統計学や機械学習まで学ぶとなると本での学習は必須だと思います。
- 順序立てて体系的に学習していくことが必要で、本だと学びやすい
- 専門的な学問なので専門家が責任を持って書いた書籍の方が信頼性が高い
- 基礎が数学であり数式の導出をちゃんと記載しているのは書籍であるから
- パッと振り返りがしやすい
このような理由から今の時代も本での学習が重要だと思います。
AI・データ分析プロジェクトの全て
まずはデータサイエンスの実務や業界についてサクッと勉強したいって方はコチラの本がおススメです。
コチラの本は本文にも記載してありますが、未経験者やジュニアデータサイエンティスト向けの内容となっています。
もちろんシニアの方にとっても学び直しという意味では意味のある本だと思います。
データ分析業界の概要からキャリアビルディングに関して、はたまた実務からリスクマネジメントに関するまでと幅広い内容を網羅しています。
「ある程度データ分析手法は学んだけど実際にはどのように分析しているのか分からない」とお悩みの方にうってつけの本となっています。
ですので、逆に言えば全体を俯瞰するための本です。細部に関してより詳しく知りたいって方には別の専門書が必要になってくるでしょう。
統計学が分かる
データサイエンスの基礎である統計学を学ぶのにおススメなのが「統計学がわかる(ファーストブック)」です。
特に統計学を学ぶのが初めてって人におススメです。
統計学初心者は基礎を理解するのもけっこう大変ですよね?
いきなり数式が出てきて、専門用語もバンバン出てくるような本だと理解できずすぐに諦めてしまうってことになりかねません。
そういった方にこそこの本が非常におススメです。
統計学の基礎をハンバーガー店を題材に会話形式で解説していくので非常に理解しやすい内容になっています。
ただ理解しやすい本という事は網羅している範囲が狭いという事でもあります。(ここら辺はトレードオフですからね、しょうがないです。)
こちらの本も全ての範囲を網羅しているわけではなく、重要な回帰分析などに関しては網羅していません。
ですので、2冊目に以下の本もおススメします。
コチラも1冊目と同じく理解しやすい内容になっています。
微積分+線形代数入門
続いてはガラッと変わって、微積と線形代数の本です。
しかも非常に新しい本です。
データサイエンス、特に機械学習・深層学習をやっていくにはその基礎とし て微積と線形代数の知識が必要です。
ですので、微積・線形代数も本でしっかりと学んで欲しいです。
学生の時に使っていた参考書などがあるのでしたらそれでも良いと思います。
しかしコチラの書籍はただ微積・線形代数の基礎を学ぶだけでなく、データ分析でどのように使われるのか?
その背景の所もしっかりと解説している本ですのでよりデータサイエンティストにおススメの本となっています。
Python実践データ分析 100本ノック
続いてpythonです。データ分析をするならpythonの知識は必要ですからね~しっかりと押さえておきましょう。
また私のブログを見ている人はある程度pythonの基礎を学んできた方だと思います。
でも「基礎は学んだけど実践で使えるのイマイチ不安」そんな方も多いと思います。
まさにそんな方におススメなのがこの本です。
実際に問題を解くのが一番の理解になりますからね!知識を得たとしても、実際に使えないと意味がありません。
問題集系の本も1冊は押さえておきましょう!
コチラの本の内容としてもストーリーに沿って進んでいくので実践形式で学んでいくことが出来ると思います。
リーダブルコード
データサイエンティストというよりは、プログラマー全員の必読書と言われるこちらの本も一度は目を通しておきたいですね!
特にデータサイエンティストは一人だけで実務を行うといった事は少ないです。
そのため、自信の書いたコードは動けば良いといったわけにはいきません。
人に読まれる際の読みやすさも重要になってきます。
特に人によって変数名の付け方がバラバラだったりすると、チーム内での認識齟齬が起こる確率がグッと上がってしまいます。
そうならないためにもコードの書き方のお作法を学んでおきましょう!
仕事ではじめる機械学習
機械学習を学ぶには有名なこちらの本がおススメです。
概念的な説明が多くなりがちな機械学習の中でも、よりビジネス課題への落とし込みがしてあり、より実践的に学ぶことができます。
データの取得からアウトプットまでと網羅的に学べる内容になっているのも素晴らしいですね。
また、データサイエンティスト初学者にありがちな「機械学習ありきで分析を行う」状態に喝を入れています。
どうしても機械学習自体が目的となってしまっており、なんとか機械学習を使って課題解決をしようとしてしまう事も多いです。
しかし、本書では「機械学習を使わなくてよい方法を考えよう」というメッセージが込められており、機械学習のモデル構築までが必要ではない課題に対してバッサリと切り捨てているのが良いですね!
Kaggleで勝つデータ分析の技術
データサイエンスの基礎を一通り学んだあとは、実践形式で学習していくためにもkaggleに挑戦したいところです。
いつまでも基礎を勉強してても頭打ちになりますからね、早く応用に挑むのが大事です。
そもそもKaggleが何なのかという所から解説します。
kaggleは企業から提供されたデータをもとに機械学習モデルを作成し、参加者の中で誰が一番精度の高いモデルを作れるかを競います。
参加自体はアカウントを作成すれば誰でも参加することができ、上位入賞者には賞金やメダルが授与されます。
賞金は数百万出ることもざらで、過去には3憶出る事もありました。
まぁ獲得できるのは本当にtopの中のtopのサイエンティストなので、目指すのは現実的ではないでしょう。
その分メダルを目指すのは非常に重要で、メダルの取得状況によってkaggleでは5つのランクに分けられます。
詳細は割愛しますが、最上位のGrandmasterやmasterランクになるとただ嬉しいだけではありません。
転職活動において大きなアドバンテージとなるでしょう。
自信のポートフォリオとして大きな力を発揮する事ができます。
とまぁ、大きな事をか語ってしまいましが別にメダルを目指さなければいけないわけではありません。
kaggleに取り組む事で、実務に非常に近い学習をすることが出来るのが大きな利点です。
そして今回おススメする「Kaggleで勝つデータ分析の技術」ですが、このなにが良いのかと言うと、
- kaggleコンペに参加してから最後までの一連の流れが分かる
- 勝つためのナレッジが豊富
- kaggleだけでなく実務でも使える内容
このようなメリットがある本です。
実務でデータ分析に取り組む際も横にそっと置いておくと安心感のある本でしょう。
ただその分内容は難しめです。
データサイエンスの基礎を学んだうえで取り掛からないと理解するのは難しいでしょう。
また、この本のスコープはあくまでテーブルデータのみです。
画像データや音声、自然言語などはスコープ外ですので注意しましょう。