この記事では、Pythonで文字コードの変換(utf8やcp932やshift-jis)する方法【csvやxlsxファイルを例に】について解説していきます。
ポイントとしては`encode`と`decode`メソッド、`pandas`ライブラリ、そして`openpyxl`ライブラリを使用することです。
なお、下記の解説では完全な初心者でもわかりやすいように、あえて変数名を少々変わった名称にしています。
そのため、あなた自身がご活用の際には、ここを適切なものに変更してご活用ください。それでは詳しく見ていきましょう!
pythonで文字コードの変換(utf8からcp932に)する方法【csvファイルを例に、別ファイルで保存】
それではまず、utf8からcp932に文字コードを変換する方法について解説していきます。
jupyter notebookなどの各開発環境を開いて、以下コードをコピペしましょう。
import pandas as pd
# CSVファイルを読み込む(UTF-8として)
df = pd.read_csv('nyuuryoku.csv', encoding='utf-8')
# CSVファイルを別の文字コード(CP932)で保存
df.to_csv('shutsuryoku.csv', encoding='cp932', index=False)
このコードでは、まず`pandas`ライブラリを使用してUTF-8形式のCSVファイルを読み込みます。
その後、読み込んだデータをCP932形式で新しいファイルに保存しています。
この方法で、異なる文字コード間でのファイル変換が可能になります。
【使用関数名】
– `pd.read_csv`
– `df.to_csv`
pythonで文字コードの変換(s-jisからutf-8に)する方法【xlsxファイルを例に、別ファイルで保存】
続いては、s-jisからutf-8に文字コードを変換する方法について解説していきます。
jupyter notebookなどの各開発環境を開いて、以下コードをコピペしましょう。
import openpyxl
import pandas as pd
# XLSXファイルを読み込む(Shift_JISとして)
df = pd.read_excel('nyuuryoku.xlsx', engine='openpyxl')
# データフレームをUTF-8形式のCSVファイルとして保存
df.to_csv('shutsuryoku.csv', encoding='utf-8', index=False)
ここでは、`pandas`と`openpyxl`ライブラリを用いて、Shift_JIS形式のXLSXファイルを読み込み、UTF-8形式のCSVファイルとして保存しています。Excelファイルの文字コード変換には、`pandas`の`read_excel`メソッドと`to_csv`メソッドが非常に便利です。
【使用関数名】
– `pd.read_excel`
– `df.to_csv`
まとめ
コメント