Jupyter notebook(Python3)を使ってみようを使ってみようと思っても慣れていないうちは、どうしても処理に躓いてしまうものです。
例えば、pandasにて基本的な統計量である分散を求めるにはどのように処理するといいのか理解していますか。
ここでは、jupyternotebookにおけるPandas機能を用いて列や行ごとの分散を計算する方法について確認していきます。
Pandasにて分散(列や行ごと)を計算する方法【pythonにおけるvar関数の活用】
まずは以下のようなcsvデータをpandasにて読み込み、データフレームに取り込んでみます。
ここで、pythonにて列ごとの分散を計算するためには、var関数を使用するといいです。
サンプルコードは以下の通りです。
import pandas as pd
df = pd.read_csv(“C:/sample/sample3.csv”, encoding=”SHIFT_JIS”)
df.var()
これだけで、列ごとの分散がpythonにて計算されました。
なお、数値でなく英語や記号の列は分散が出力されないことも理解しておくといいです。
Pandasにて特定の列の分散を求める方法【列指定などの範囲や条件の指定】
さらには、すべての列を分散を計算するではなく、特定の列の分散を求めていきましょう。
特定の1列のみを指定する際は、dfの後に直接列指定したい列のヘッダー名を記載して、var関数で処理するといいです。
import pandas as pd
df = pd.read_csv(“C:/sample/sample3.csv”, encoding=”SHIFT_JIS”)
df[“quantitiy].sum()
Pandasにて特定の複数列の分散を計算する方法【var関数】
なお、複数列を指定した上での分散を求めるには、csvなどを読み込む際に予めその列を指定、データフレームに取り込んだ上で各列の合計を求めるといいです。
import pandas as pd
df = pd.read_csv(“C:/sample/sample3.csv”, encoding=”SHIFT_JIS”,usecols=[“quantitiy”,”cost”])
df.var()
Pandasにて行方向(横方向)の分散を計算する方法【pythonにおけるdataframe(データフレーム)】
今度はpandasにて列方向ではなく行方向の分散の計算も行っていきましょう。
行方向を指定するにはコード中にaxis=1をいれるといいです。
import pandas as pd
df = pd.read_csv(“C:/sample/sample3.csv”, encoding=”SHIFT_JIS”)
df.var(axis=1)
まとめ Pandasでの分散の計算方法【列や行ごと(python)】
ここではpythonのpandas機能において、列や行のごとの分散を求める方法について解説しました。
基本的にはvar関数を使用するとよく、適宜特定の列を指定したり、行方向に切り替えたりと処理するコードを足していくといいです。
各種対処方法を理解して、pythonにおけるpandas機能の使い方をマスターしていきましょう。
コメント