SlideShare a Scribd company logo
機械にやさしい
データ作りのコツ
出典:統計表における機械判読可能なデータ 作成に関する表記方法(総務省)
https://www.soumu.go.jp/main_content/000723626.pdf
1つのセルには1データ 結合はやめよう
1セルにデータが複数あると、
後で利用しにくいから控える。
複数のセルを結合するのも、
使いにくい原因になります。
数値と 文字列は分ける 不要な空白/改行はN G
数値と文字は混ぜるな危険。
文字列として認識されます。
スペースや改行は、正しく
データが読み取れない原因に。
桁区切りのため
空白を含んでいる
空白を除いた
状態
スペースで体裁を
整えている
スペースを解除
した状態
改行で体裁を
整えている
改行を解除した
状態
項目名はそのままに オブジェクトは使わない
項目名が省略されると機械が
自動で判読できなくなります。
オブジェクトは扱いにくいため、
セル入力を基本としましょう。
オブジェクトを使用している
オブジェクトを削除した状態
同じ名称を空白で省略
省略せずに入力した状態
1シート1テーブル データを分断しない
扱いやすいように1シートに
表は1つ。複数ある時は分割。
不必要な表の分離は機械判読を
阻害します。
1シートに複数の表を掲載
1つの表を1シートに分割
データが分断
空白列を削除した状態
表を折り返し

More Related Content

What's hot

Sliced Wasserstein距離と生成モデル
Sliced Wasserstein距離と生成モデルSliced Wasserstein距離と生成モデル
Sliced Wasserstein距離と生成モデル
ohken
 
Math in Machine Learning / PCA and SVD with Applications
Math in Machine Learning / PCA and SVD with ApplicationsMath in Machine Learning / PCA and SVD with Applications
Math in Machine Learning / PCA and SVD with Applications
Kenji Hiranabe
 
機械学習で嘘をつく話
機械学習で嘘をつく話機械学習で嘘をつく話
機械学習で嘘をつく話
Satoshi Hara
 
2. BigQuery ML を用いた時系列データの解析 (ARIMA model)
2. BigQuery ML を用いた時系列データの解析 (ARIMA model)2. BigQuery ML を用いた時系列データの解析 (ARIMA model)
2. BigQuery ML を用いた時系列データの解析 (ARIMA model)
幸太朗 岩澤
 
For MANABIYA
For MANABIYAFor MANABIYA
For MANABIYA
ssuserafaae8
 
DLLab 異常検知ナイト 資料 20180214
DLLab 異常検知ナイト 資料 20180214DLLab 異常検知ナイト 資料 20180214
DLLab 異常検知ナイト 資料 20180214
Kosuke Nakago
 
メルペイの与信モデリングにおける特徴量の品質向上の施策
メルペイの与信モデリングにおける特徴量の品質向上の施策メルペイの与信モデリングにおける特徴量の品質向上の施策
メルペイの与信モデリングにおける特徴量の品質向上の施策
Mai Nakagawa
 
リクルートが実践で学んできた“セルフBI”推進に求められる3つの要素
リクルートが実践で学んできた“セルフBI”推進に求められる3つの要素リクルートが実践で学んできた“セルフBI”推進に求められる3つの要素
リクルートが実践で学んできた“セルフBI”推進に求められる3つの要素
Recruit Technologies
 
なぜ統計学がビジネスの 意思決定において大事なのか?
なぜ統計学がビジネスの 意思決定において大事なのか?なぜ統計学がビジネスの 意思決定において大事なのか?
なぜ統計学がビジネスの 意思決定において大事なのか?
Takashi J OZAKI
 
Devsumi 2018summer
Devsumi 2018summerDevsumi 2018summer
Devsumi 2018summer
Harada Kei
 
DXのための内製化のススメ
DXのための内製化のススメDXのための内製化のススメ
DXのための内製化のススメ
Daiyu Hatakeyama
 
シリーズML-07 ニューラルネットワークによる非線形回帰
シリーズML-07 ニューラルネットワークによる非線形回帰シリーズML-07 ニューラルネットワークによる非線形回帰
シリーズML-07 ニューラルネットワークによる非線形回帰
Katsuhiro Morishita
 
『機械学習による故障予測・異常検知 事例紹介とデータ分析プロジェクト推進ポイント』
『機械学習による故障予測・異常検知 事例紹介とデータ分析プロジェクト推進ポイント』『機械学習による故障予測・異常検知 事例紹介とデータ分析プロジェクト推進ポイント』
『機械学習による故障予測・異常検知 事例紹介とデータ分析プロジェクト推進ポイント』
The Japan DataScientist Society
 
異常の定義と推定
異常の定義と推定異常の定義と推定
異常の定義と推定
Satoshi Hara
 
XGBoostからNGBoostまで
XGBoostからNGBoostまでXGBoostからNGBoostまで
XGBoostからNGBoostまで
Tomoki Yoshida
 
Fisher線形判別分析とFisher Weight Maps
Fisher線形判別分析とFisher Weight MapsFisher線形判別分析とFisher Weight Maps
Fisher線形判別分析とFisher Weight Maps
Takao Yamanaka
 
オセロゲームにおける強化学習を用いたゲーム戦略の獲得
オセロゲームにおける強化学習を用いたゲーム戦略の獲得オセロゲームにおける強化学習を用いたゲーム戦略の獲得
オセロゲームにおける強化学習を用いたゲーム戦略の獲得
Ko Shira
 
【RSJ2021】LiDAR SLAMにおける高信頼なループ閉合の実装について
【RSJ2021】LiDAR SLAMにおける高信頼なループ閉合の実装について【RSJ2021】LiDAR SLAMにおける高信頼なループ閉合の実装について
【RSJ2021】LiDAR SLAMにおける高信頼なループ閉合の実装について
MobileRoboticsResear
 
はじめてのパターン認識 第8章 サポートベクトルマシン
はじめてのパターン認識 第8章 サポートベクトルマシンはじめてのパターン認識 第8章 サポートベクトルマシン
はじめてのパターン認識 第8章 サポートベクトルマシンMotoya Wakiyama
 
機械学習デザインパターンおよび機械学習システムの品質保証の取り組み
機械学習デザインパターンおよび機械学習システムの品質保証の取り組み機械学習デザインパターンおよび機械学習システムの品質保証の取り組み
機械学習デザインパターンおよび機械学習システムの品質保証の取り組み
Hironori Washizaki
 

What's hot (20)

Sliced Wasserstein距離と生成モデル
Sliced Wasserstein距離と生成モデルSliced Wasserstein距離と生成モデル
Sliced Wasserstein距離と生成モデル
 
Math in Machine Learning / PCA and SVD with Applications
Math in Machine Learning / PCA and SVD with ApplicationsMath in Machine Learning / PCA and SVD with Applications
Math in Machine Learning / PCA and SVD with Applications
 
機械学習で嘘をつく話
機械学習で嘘をつく話機械学習で嘘をつく話
機械学習で嘘をつく話
 
2. BigQuery ML を用いた時系列データの解析 (ARIMA model)
2. BigQuery ML を用いた時系列データの解析 (ARIMA model)2. BigQuery ML を用いた時系列データの解析 (ARIMA model)
2. BigQuery ML を用いた時系列データの解析 (ARIMA model)
 
For MANABIYA
For MANABIYAFor MANABIYA
For MANABIYA
 
DLLab 異常検知ナイト 資料 20180214
DLLab 異常検知ナイト 資料 20180214DLLab 異常検知ナイト 資料 20180214
DLLab 異常検知ナイト 資料 20180214
 
メルペイの与信モデリングにおける特徴量の品質向上の施策
メルペイの与信モデリングにおける特徴量の品質向上の施策メルペイの与信モデリングにおける特徴量の品質向上の施策
メルペイの与信モデリングにおける特徴量の品質向上の施策
 
リクルートが実践で学んできた“セルフBI”推進に求められる3つの要素
リクルートが実践で学んできた“セルフBI”推進に求められる3つの要素リクルートが実践で学んできた“セルフBI”推進に求められる3つの要素
リクルートが実践で学んできた“セルフBI”推進に求められる3つの要素
 
なぜ統計学がビジネスの 意思決定において大事なのか?
なぜ統計学がビジネスの 意思決定において大事なのか?なぜ統計学がビジネスの 意思決定において大事なのか?
なぜ統計学がビジネスの 意思決定において大事なのか?
 
Devsumi 2018summer
Devsumi 2018summerDevsumi 2018summer
Devsumi 2018summer
 
DXのための内製化のススメ
DXのための内製化のススメDXのための内製化のススメ
DXのための内製化のススメ
 
シリーズML-07 ニューラルネットワークによる非線形回帰
シリーズML-07 ニューラルネットワークによる非線形回帰シリーズML-07 ニューラルネットワークによる非線形回帰
シリーズML-07 ニューラルネットワークによる非線形回帰
 
『機械学習による故障予測・異常検知 事例紹介とデータ分析プロジェクト推進ポイント』
『機械学習による故障予測・異常検知 事例紹介とデータ分析プロジェクト推進ポイント』『機械学習による故障予測・異常検知 事例紹介とデータ分析プロジェクト推進ポイント』
『機械学習による故障予測・異常検知 事例紹介とデータ分析プロジェクト推進ポイント』
 
異常の定義と推定
異常の定義と推定異常の定義と推定
異常の定義と推定
 
XGBoostからNGBoostまで
XGBoostからNGBoostまでXGBoostからNGBoostまで
XGBoostからNGBoostまで
 
Fisher線形判別分析とFisher Weight Maps
Fisher線形判別分析とFisher Weight MapsFisher線形判別分析とFisher Weight Maps
Fisher線形判別分析とFisher Weight Maps
 
オセロゲームにおける強化学習を用いたゲーム戦略の獲得
オセロゲームにおける強化学習を用いたゲーム戦略の獲得オセロゲームにおける強化学習を用いたゲーム戦略の獲得
オセロゲームにおける強化学習を用いたゲーム戦略の獲得
 
【RSJ2021】LiDAR SLAMにおける高信頼なループ閉合の実装について
【RSJ2021】LiDAR SLAMにおける高信頼なループ閉合の実装について【RSJ2021】LiDAR SLAMにおける高信頼なループ閉合の実装について
【RSJ2021】LiDAR SLAMにおける高信頼なループ閉合の実装について
 
はじめてのパターン認識 第8章 サポートベクトルマシン
はじめてのパターン認識 第8章 サポートベクトルマシンはじめてのパターン認識 第8章 サポートベクトルマシン
はじめてのパターン認識 第8章 サポートベクトルマシン
 
機械学習デザインパターンおよび機械学習システムの品質保証の取り組み
機械学習デザインパターンおよび機械学習システムの品質保証の取り組み機械学習デザインパターンおよび機械学習システムの品質保証の取り組み
機械学習デザインパターンおよび機械学習システムの品質保証の取り組み
 

Tips for creating machine friendly data