【python】データ分析のためのpandasの使い方③：データフレームのフィルタリング

今回はpandasチュートリアルの三回目になっています。

前回のがまだという方は↓の記事を参照ください。

【python】データ分析のための「pandas」チュートリアル②：データフレームの中を見よう！

今回はデータフレームのフィルタリング操作を学んでいきましょう！！

全てサンプルコードを記載してあります。各々のpythonの環境で実際に手を動かしながら読み進めていってください。サクッとやりたい方は、google colaboratoryが簡単でおすすめです。

Contents

pandasでフィルタリングとは？
データフレームのフィルタリング方法
not演算子でフィルタリングも出来る
まとめ

pandasでフィルタリングとは？

Pythonでデータ分析をする際に、データフレームをフィルタリングすることはよくあります。特定の条件に合致する行のみを取り出すことで、分析に必要なデータだけを抽出できます。具体的には、

指定したカラムの値が3以上の物を抽出
文字列列から、特定の文字列を含む行を抽出
複数の条件で抽出

このように、あなたが条件を指定して、それに沿ったデータだけを抽出する事が出来るのです。

データフレームのフィルタリング方法

では実際にやり方を見ていきましょう。データフレームをフィルタリングするために、pandasでは[]演算子を使用します。具体的には、以下のように条件を指定することで、条件に合致する行だけを抽出できます。

df[条件式]

複数条件での指定

また、条件を複数指定する場合は、&（AND）や|（OR）を使用して条件を結合します。以下に例を示します。

df[(条件式1) & (条件式2)] df[(条件式1) | (条件式2)]

エクセルで使った事がある人も多いと思いますが簡単に説明します。

ANDの場合、両方の条件にあてはまる場合のみTrueとなります。 ORの場合は、どちらかの条件にあてはまればTrueになります。

データの準備

ではまずデータセットの準備をしましょう。前回までと同じくirisデータを使いましょう。

import pandas as pd
import seaborn as sns


# irisファイルを読み込む
df = sns.load_dataset('iris')

import pandas as pd

import seaborn as sns

# irisファイルを読み込む

df = sns.load_dataset('iris')

これでデータフレームが作成されました！ここまでの流れは大丈夫ですね？

実際にフィルタリングしてみよう

ではさっそくフィルタリングしてみましょう。 petal_lengthが4より大きい行だけを抽出してみましょう。以下のようにフィルタリングを行います。

# 4より大きい行だけ抽出
df[df["petal_length"] > 4]

1 2	# 4より大きい行だけ抽出 df[df["petal_length"] > 4]

この結果は↓の画像の様になり、petal_lengthカラムが4より大きいレコードになりました。

ちなみに4以上や、4より小さい値を抽出したい時は下記のように書きます。

# 4以上を抽出
df[df["petal_length"] >= 4]
# 4未満を抽出
df[df["petal_length"] < 4]

# 4以上を抽出

df[df["petal_length"] >= 4]

# 4未満を抽出

df[df["petal_length"] < 4]

このように、条件式を書いてデータフレームの中に挿入するだけで、指定した条件を満たす行を抽出することができます。

ANDとORを使った抽出

条件によっては複数の列を参照する必要がある場合もありますね。

その場合は、&（AND）や|（OR）を使用して条件を結合しましょう。まずはANDです。

# dfから"sepal_length"が7以上かつ"petal_length"が6以下の行を抽出する
df[(df["sepal_length"] >= 7) & (df["petal_length"] <= 6)]

1 2	# dfから"sepal_length"が7以上かつ"petal_length"が6以下の行を抽出する df[(df["sepal_length"] >= 7) & (df["petal_length"] <= 6)]

これで↓のように”sepal_length”が7以上かつ”petal_length”が6以下の行を抽出できました。

続いてORの使い方を見ていきましょう。この場合は|（パイプ）を使います。

# dfから"sepal_length"が7以上かつ"petal_length"が6以下の行を抽出する
df[(df["sepal_length"] >= 7) | (df["petal_length"] >= 6)]

1 2	# dfから"sepal_length"が7以上かつ"petal_length"が6以下の行を抽出する df[(df["sepal_length"] >= 7) \| (df["petal_length"] >= 6)]

これですと、”sepal_length”が7以上か”petal_length”が6以下の行を抽出することが出来ます。

query()を使ってANDも出来る

pandasでは、query()メソッドを使って条件式を文字列で指定することもできます。

df.query('sepal_length >= 7 and petal_length >= 6')

1	df.query('sepal_length >= 7 and petal_length >= 6')

これですと、上の画像と同じ結果となります。どちらを使っても大丈夫ですが、個人的にはquery()を使う事はあまりないです。

文字列で指定

もちろん数値だけでなく文字列でも指定する事ができます。

今回の場合ですと、speciesが文字列のカテゴリーになっていますね。こういったカテゴリーカラムで、特定のカテゴリーだけ抽出したいって事がおおいですね。 virginicaのレコードだけ抽出してみましょう。

# virginicaだけを抽出
df[df["species"] == 'virginica']

1 2	# virginicaだけを抽出 df[df["species"] == 'virginica']

簡単ですね、イコールの場合は==と2つ並ぶ点に注意してください。

isin()を使ってOR条件でフィルタリングする

pandasでは、isin()メソッドを使っても複数の値に一致する行を抽出することができます。たとえば、species列がvirginicaまたはversicolorである行を抽出するには以下のようにします。

df[df['species'].isin(['virginica', 'versicolor'])]

1	df[df['species'].isin(['virginica', 'versicolor'])]

()や[]の括り方が難しいですね～！関数には()でデータフレームに[]というイメージでいきましょう。

not演算子でフィルタリングも出来る

not演算子を使用することで、条件式を満たさないデータを抽出できます。

not演算子は、~（チルダ）を用いて表現します。

この書き方も良く使いますね～。カテゴリーカラムなどで、あるカテゴリー以外を抽出したい時とかに楽です。書き方は↓を見てください。~を入れる場所が少し難しいですね。

# setosa以外を抽出
df[~(df['species'] == 'setosa')]

1 2	# setosa以外を抽出 df[~(df['species'] == 'setosa')]

文字型だけでなく、もちろん数値型にも使えます。

# sepal_lengthが5以下を抽出
df[~(df['sepal_length'] > 5)]

1 2	# sepal_lengthが5以下を抽出 df[~(df['sepal_length'] > 5)]

こうする事で、sepal_lengthが5以下のものだけ抽出できます。 (この場合わざわざ’~’を付けなくても’>’を'<‘にすれば良いだけですが、、)

まとめ

いかがでしたでしょうか？

データフレームのフィルタリング方法をマルっと紹介しました。

今回教えた事を組み合わせれば、自由自在にデータフレームをフィルタリングできます。

これが出来ればデータ分析の第一歩という感じですね！

pandas python データサイエンスデータサイエンティスト統計

【python】データ分析のためのpandasの使い方③：データフレームのフィルタリング

pandasでフィルタリングとは？

データフレームのフィルタリング方法

複数条件での指定

データの準備

実際にフィルタリングしてみよう

ANDとORを使った抽出

query()を使ってANDも出来る

文字列で指定

isin()を使ってOR条件でフィルタリングする

not演算子でフィルタリングも出来る

まとめ

最近の投稿

最近のコメント

アーカイブ

カテゴリー

pandasでフィルタリングとは？

データフレームのフィルタリング方法

複数条件での指定

データの準備

実際にフィルタリングしてみよう

ANDとORを使った抽出

query()を使ってANDも出来る

文字列で指定

isin()を使ってOR条件でフィルタリングする

not演算子でフィルタリングも出来る

まとめ

【matplotlib入門②】plt.plotでタイトル・ラベル・目盛りの設定

【python】データ分析のためのpandasの使い方⑧：mergeとconcat

【matplotlib入門④】scatterで散布図を描画する！

【python】データ分析のためのpandasの使い方④：統計量の求め方

PythonとRどちらがデータ分析に向いている？【結論pythonです】

【python】データ分析のためのpandasの使い方②：データフレームの中を見よう！

【matplotlib入門③】複数のグラフを並べて表示する！

【python】データ分析のためのpandasの使い方⑥：NaNについて！

【matplotlib入門①】plt.plotで折れ線グラフを描画するやり方

【最新版】pandasチートシートでデータ分析の効率アップ！使い方を徹底解説

最近の投稿

最近のコメント

アーカイブ

カテゴリー