Download free for 30 days
Sign in
Upload
Language (EN)
Support
Business
Mobile
Social Media
Marketing
Technology
Art & Photos
Career
Design
Education
Presentations & Public Speaking
Government & Nonprofit
Healthcare
Internet
Law
Leadership & Management
Automotive
Engineering
Software
Recruiting & HR
Retail
Sales
Services
Science
Small Business & Entrepreneurship
Food
Environment
Economy & Finance
Data & Analytics
Investor Relations
Sports
Spiritual
News & Politics
Travel
Self Improvement
Real Estate
Entertainment & Humor
Health & Medicine
Devices & Hardware
Lifestyle
Change Language
Language
English
Español
Português
Français
Deutsche
Cancel
Save
EN
Uploaded by
Katsuhiro Morishita
PDF, PPTX
3,305 views
Pandas利用上のエラーとその対策
Pythonの便利ライブラリの一つであるpandasを使っているうちに出てくる文字コード由来のエラーとその対策についてまとめました 。
Engineering
◦
Read more
1
Save
Share
Embed
Embed presentation
Download
Download as PDF, PPTX
1
/ 14
2
/ 14
3
/ 14
4
/ 14
5
/ 14
6
/ 14
7
/ 14
8
/ 14
9
/ 14
10
/ 14
11
/ 14
12
/ 14
13
/ 14
14
/ 14
More Related Content
PDF
LinuxでZFSを使ってみた
by
nvsofts
PDF
数ページの卒業論文作成のためのwordの使い方
by
Katsuhiro Morishita
PDF
Pythonのパッケージ管理ツールの話@2020
by
Katsuhiro Morishita
PDF
オトナのpandas勉強会(資料)
by
Katsuhiro Morishita
PDF
SIgfox触ってみた in IoTLT in 熊本市 vol.3
by
Katsuhiro Morishita
PDF
Google Colaboratoryの使い方
by
Katsuhiro Morishita
PDF
Excelでのグラフの作成方法re
by
Katsuhiro Morishita
PDF
Pythonのmain関数
by
Katsuhiro Morishita
LinuxでZFSを使ってみた
by
nvsofts
数ページの卒業論文作成のためのwordの使い方
by
Katsuhiro Morishita
Pythonのパッケージ管理ツールの話@2020
by
Katsuhiro Morishita
オトナのpandas勉強会(資料)
by
Katsuhiro Morishita
SIgfox触ってみた in IoTLT in 熊本市 vol.3
by
Katsuhiro Morishita
Google Colaboratoryの使い方
by
Katsuhiro Morishita
Excelでのグラフの作成方法re
by
Katsuhiro Morishita
Pythonのmain関数
by
Katsuhiro Morishita
More from Katsuhiro Morishita
PDF
Pythonスクリプトの実行方法@2018
by
Katsuhiro Morishita
PDF
機械学習と主成分分析
by
Katsuhiro Morishita
PDF
Pythonで始めた数値計算の授業@わんくま勉強会2018-04
by
Katsuhiro Morishita
PDF
マークシート読み込みプログラムを作ってみた@2018-04-04
by
Katsuhiro Morishita
PDF
オトナの画像認識 2018年3月21日実施
by
Katsuhiro Morishita
PDF
LoRa-WANで河川水位を計測してみた@IoTLT@熊本市 vol.001
by
Katsuhiro Morishita
PDF
シリーズML-08 ニューラルネットワークを用いた識別・分類ーシングルラベルー
by
Katsuhiro Morishita
PDF
シリーズML-07 ニューラルネットワークによる非線形回帰
by
Katsuhiro Morishita
PDF
シリーズML-06 ニューラルネットワークによる線形回帰
by
Katsuhiro Morishita
PDF
シリーズML-05 ニューラルネットワーク
by
Katsuhiro Morishita
PDF
シリーズML-03 ランダムフォレストによる自動識別
by
Katsuhiro Morishita
PDF
シリーズML-01 機械学習の概要
by
Katsuhiro Morishita
PDF
Pythonによる、デジタル通信のための ビタビ符号化・復号ライブラリの作成
by
Katsuhiro Morishita
PDF
機械学習(仮)in Mobile conference 2017
by
Katsuhiro Morishita
PDF
VBAとPythonで始める数値計算教育
by
Katsuhiro Morishita
PDF
海洋調査用ブイの水深制御のためのPID制御パラメータの求め方
by
Katsuhiro Morishita
PDF
中心極限定理
by
Katsuhiro Morishita
PDF
VBAにおける配列の データ構造と行列
by
Katsuhiro Morishita
PDF
オトナのプログラミング勉強会 オトナのDeep Learning 2016-11
by
Katsuhiro Morishita
PDF
VBAで数値計算 編集後記
by
Katsuhiro Morishita
Pythonスクリプトの実行方法@2018
by
Katsuhiro Morishita
機械学習と主成分分析
by
Katsuhiro Morishita
Pythonで始めた数値計算の授業@わんくま勉強会2018-04
by
Katsuhiro Morishita
マークシート読み込みプログラムを作ってみた@2018-04-04
by
Katsuhiro Morishita
オトナの画像認識 2018年3月21日実施
by
Katsuhiro Morishita
LoRa-WANで河川水位を計測してみた@IoTLT@熊本市 vol.001
by
Katsuhiro Morishita
シリーズML-08 ニューラルネットワークを用いた識別・分類ーシングルラベルー
by
Katsuhiro Morishita
シリーズML-07 ニューラルネットワークによる非線形回帰
by
Katsuhiro Morishita
シリーズML-06 ニューラルネットワークによる線形回帰
by
Katsuhiro Morishita
シリーズML-05 ニューラルネットワーク
by
Katsuhiro Morishita
シリーズML-03 ランダムフォレストによる自動識別
by
Katsuhiro Morishita
シリーズML-01 機械学習の概要
by
Katsuhiro Morishita
Pythonによる、デジタル通信のための ビタビ符号化・復号ライブラリの作成
by
Katsuhiro Morishita
機械学習(仮)in Mobile conference 2017
by
Katsuhiro Morishita
VBAとPythonで始める数値計算教育
by
Katsuhiro Morishita
海洋調査用ブイの水深制御のためのPID制御パラメータの求め方
by
Katsuhiro Morishita
中心極限定理
by
Katsuhiro Morishita
VBAにおける配列の データ構造と行列
by
Katsuhiro Morishita
オトナのプログラミング勉強会 オトナのDeep Learning 2016-11
by
Katsuhiro Morishita
VBAで数値計算 編集後記
by
Katsuhiro Morishita
Pandas利用上のエラーとその対策
1.
pandas利用上のエラーと その対策 ver. 1.1 主に文字列のエラーを扱います。 厳密には異なる部分もあると思いますが、鉞を投げないで下さい。 なお、特に断りがなければ、Windows
10, Office 2016の環境です。 2017-07-19 森下功啓
2.
更新履歴 • 2017-07-11 ver.
1.0 公開開始 • 2017-07-19 ver. 1.1 解決策を追加
3.
PCにおける日本語の処理 ~日本語の辛い現実~
4.
コンピュータの中の日本語 • 文字をコンピュータで扱うには文字コードセットが利用される • 数値と文字を紐づけることで文字を表示している •
ASCIIコードが有名 • 日本語は、Windowsではshift-jisが使われている • Macや他のOSではUTF-8が標準的 • 影響はファイルの中身だけでなく、ファイル名にも及ぶ
5.
UTF-8とShift-jis 同じ文面でも、文字コードが異なると数値の配列が変わる。 Sublime textで編集した日本 語を含むテキストファイル (UTF-8) ↑のファイルをFCCheckerを 使って文字コードをShift-jis に変換したテキストファイル ( Shift-jis
) Stirling(バイナリエディタ)で閲覧したテキストファイル Stirling(バイナリエディタ)で閲覧したテキストファイル
6.
ソフトウェアとデフォルトの文字コード • ソフトウェアによって、標準的な文字コードが異なる • Sublime
textはUTF-8が標準 • WindowsのExcelは、csvを作成するときはShift-jisが標準 Win Excelを使って作った csvファイル( Shift-jis ) Sublime textでは 文字化け Sublime textを使って作った csvファイル(UTF-8) Excelでは 文字化け
7.
ExcelにUTF-8のcsvファイルを読み込ませる • Sublime textで作ったテキストファイルはBOM無のUTF-8 •
BOMは文字コードを区別する3byteのバイナリデータ • Win版ExcelはBOM付きUTF-8を読み込むことができる KanjiTranslatorなどを使って BOM付きに変換する Excelでファイルを開いても 文字化けしていない Sublime textを使って作った csvファイル(UTF-8)
8.
Pythonのpandasを使っている ときのエラーと対処方法
9.
以降のスライドでは、右のよう なプログラムで起きるエラーと 対策を示します なお、右のプログラムは、読み 込むファイルが英名かつ文字 コードがasciiまたはUTF-8で あればほぼ正常に動作します
10.
症状:下記のエラーメッセージが出る 原因:ファイル名に日本語が入っている 解決策:csvファイル名に日本語を使うのを止める *pandasでもExcelファイル(xlsx)から読み込む場合は ファイル名に日本語を含んでいても良い
11.
Excelを使って列名を日本語にしてみた @Win10 Sublime textでは文字化けしている とあるデータ 列名が英語である。 症状:‘utf-8’ codec
can‘t decode byte・・・略 ↓utf-8のcodecがデータをデコード できなかったと訴えています。 実行してみると
12.
原因:ファイル内のテキストに日本語が入っている。正確には、UTF-8以外の文 字コードがファイルに含まれている。 解決策:テキストに日本語を使うのを止めるか、文字コードをUTF-8とする。 Sublime textで編集して日本語を入力 読み込めたことをprintを使って確認した。 print(data)の結果、正常に読めたことが分かる。 少なくとも、読み込み時点でエラーは出ない
13.
前のページで解決しないとき 原因:文字コードをUTF-8に変換しても、pandasの処理できないデータが混 じってしまうことが在る。 解決策:下記のプログラムを使って、Pythonの処理できる文字のみを保存した ファイルを作成する。 Download: https://gist.github.com/Katsuhiro Morishita/aa0869b8564f869dc56 b57386f551fa4
14.
症状:下記のエラーメッセージが出る。「入力にNaN(非値)を含ん でおり、云々(float32型で表現できない)」とのこと。 原因:値の入っていないレ コードがある 解決策:値を補間(他の値 から予想するか、平均値で 埋める)するか、レコード ごと削除する 欠損をExcelでちまちま消 してもいいが、、、 欠損のあるレコードを削除するために、dropna()を使う
Download