Jupyter notebook(Python3)を使ってみようと思っても慣れていないうちは、どうしても処理に躓いてしまうものです。
例えば、PythonのPandasライブラリを用いてcsvの読み込みを行うにはどう処理すればいいのか理解していますか。
ここではこのpandasのcsvの読み込みする(read_csv)際の方法である「行指定や列指定をする方法」「パスの指定方法」「日本語を含む場合など文字化けする場合の処理(utf-8はNG)」「ヘッダー周りの操作」「インデックス(index)周りの操作」などの操作全般をついてまとめていきます。
Pandasにてcsvを読み込む際の基本【read_csv】
Python(Pandas)にてcsvを読み込む際の基本のコードは以下の通りです。read_csv機能を用います。
df = pd.read_csv(“sample.csv”)
df
Pandasにてcsvを読み込む基本コードの意味は以下の通りです。
import pandas as pd
→Pandasをpdという名前でインポート
df = pd.read_csv(“sample.csv”)
→pd(pandas)にてsample.csvを読み込み
df
→dfの表示
といった流れです。
上がcsv読み込みの基本形ですが、さまざまな引数を加えることによって、より自由にcsvを読み込みデータ加工できるようになります。
各方法を以下で紹介していきますね。
Pyhotn(Pandas)にてcsvの読み込み時に行指定・列指定を行う方法
なおPython(Pandas)にてcsvを読み込む際には、特定の行や列を指定したい時もあるでしょう。
この行指定や列指定を行いcsvを読み込み方法については以下で詳しく解説しているため、参考にしてみてくださいね。
Pyhotn(Pandas)にてcsvの読み込み時にパスを指定する方法
Pandasにてcsvを読み込もうとしても「そのcsvファイルが存在しない」とエラーになることもあります。
このような場合にはそのcsvファイルがあるパスを指定することが大切です。
具体的なパスを指定したcsvの読み込み方法は以下で詳細に解説しているため、参考にしてみてください。
Pandasにてcsvを読み込む際に日本語を含む時はutf-8の文字コードはNG
上のように基本形にてPandasでcsvを読み込んでいく場合、その文字コードのデフォルトutf-8となっています(encodingで指定しないとこのまま)。
元のcsvファイルに日本語を含む場合などはこのutf-8のままにしておくと文字化けが起こってしまいます。
そこで別の文字コードのShift Jisやcp932をencodingで指定する必要があり、以下で詳細に解説しています。
Pandasにてcsvを読み込む際のヘッダー周りの操作【header】
元のcsvの形によってはヘッダー(header:ラベル)があるものやないものがあります。
よってpythonでcsvを読み込む際には適宜ヘッダー周りの読み込み方を工夫する必要があることがわかるでしょう。
ヘッダーがある場合はそのまま読み込んだり、ないものはヘッダーを追加して読み込ませたり。あるいはヘッダー名を変更しつつcsvを読み込んだり・・
これらのpandasでのcsvの読み込み時のヘッダー周りの操作は以下で解説していますので、参考にしてみてくださいね。
Pandasにてcsvを読み込む際のインデックス周りの操作【index】
Pythonにてcsvを読み込む際にはヘッダーと同様にインデックス列(index)の読み込みも重要です。
いわゆるxyグラフにおけるxに相当する部分がこのインデックス(index)とイメージしておくといいですね。pandasにてcsvを読み込む際にはこのインデックスの指定が必須です。
以下にてインデックス列をうまく指定しcsvを読み込む方法について解説していますので、参考にしてみてください。数値のみでなく、日付データのcsvをそのまま日付のインデックスとして読み込む方法も解説しています。
※
まとめ Pandasのread_csvにてcsvの読み込み方法のまとめ
ここではPythonのPandasにてcsvを読みこむ方法全般について解説しました。
・行指定や列指定をする方法
・パスの指定方法
・日本語を含む場合など文字化けする場合の処理(utf-8はNG)
・ヘッダー周りの操作
・インデックス(index)周りの操作
などcsv読み込み時に重要な操作オプションがあるため、この機会に覚えておくといいです。
pythonでの各種操作になれ、日々の業務を効率化させていきましょう。
コメント