Jupyter notebook(Python3)を使ってみようと思っても慣れていないうちは、どうしても処理に躓いてしまうものです。
例えば、Pythonのpandas機能にて欠損値(NaN)に対し得t線形補間をしたい場合がありますが、この場合にどう処理すればいいのか理解していますか。
ここでは、このpandasにて欠損値(NaN)の形補間をinterpolate関数にて実行する方法について解説していきます。
Python(Pandas)にて線形補間をする方法(欠損値:NaN)
それでは以下のサンプルデータを用いてPython(Pandas)にて欠損値:NaNを線形補間をする方法について解説していきます。
csvデータ内に欠損値(NaN)があり、これをpandasで読み込ませると以下のような状況になります。
このNaNの部分を線形補間にて補っていきましょう。
Pythonにて線形補間する場合には、interpolate関数を使用するといいです。
の1行を加えるだけで線形補間(内挿)が完了となるのです。
一連の流れをまとめたサンプルコードとは以下の通りです。
import os
os.chdir(“C://sample”)
df = pd.read_csv(“sample.csv”,encoding=”shift jis”)
df.interpolate()
という流れですね。
import pandas as pd
→pandasインポート
import os
os.chdir(“C://sample”)
→sampleフォルダ(線形補間対象のcsvがあるディレクトリ)に移動
df = pd.read_csv(“sample.csv”,encoding=”shift jis”)
→線形補間用csvの読み込み
df.interpolate()
→線形補間実行
という流れですね。
線形補間する方向を指定できる(内挿か外挿か)
なおpythonにて線形補間する場合の方向を指定することもできます。
具体的には
・元の数値と数値の間を埋めるもの(内挿)
・元の数値で挟まれていない部分を埋めるもの(外挿)
かその両方かを指定できます。
デフォルトでは両方になっており、この線形補間を行う場合がほとんとといえるでしょう。
なお内挿のみにしたい場合では、
と処理するといいです。
内挿のみの線形補間の実行結果は以下の通り。
同様に外挿のみ(最後の数値で埋めて理宇だけ)は以下のコードを使いましょう。
Python(Pandas)にて線形補間(外挿)を行う方法(欠損値:NaN)
なおpythonにて線形補間時に内挿ではなく外挿したい場合もあるでしょう。
実はpandasでの外挿の線形補間は単純に最後の数値で埋めるだけでの処理になってしまうため、別のライバルりを活用する必要が出てきます。
詳しくは以下で解説していきますので、参考にしてみてください
※
まとめPython(Pandas)のinterpolate関数で線形補間をする方法(欠損値:NaN)【内装外装】
ここでは、Python(Pandas)のinterpolate関数で線形補間をする方法(欠損値:NaN)について解説しました。
基本的には
df.interpolate()
と処理するだけでNaNの線形補間が実行されます。
Pandas(Python)での各種処理方法に慣れ、より効率的なデータ解析を行っていきましょう。
コメント