SlideShare a Scribd company logo
1 of 25
Download to read offline
標本レコード修正のための
OpenRefineガイド(ド基礎編)
https://openrefine.org/
乱雑なデータを扱うための
オープンソースの強力なツール
東京都立大学
GBIF日本ノードJBIF
大澤 剛士
2020/7/24
この資料の内容
この資料は2020/7/21-24にかけて行われた
GBIF BIFA (Biodiversity Information Fund for Asia)
Data Mobilization Workshop for Asia 2020の内容を
元に大澤が作製したものです(GBIF許可済み)。
OpenRefineには色々な機能がありますが、
ワークショップ内で紹介された
標本等のデータを扱う上で有用な使い方の
エッセンスのみを紹介します。
なお、ExcelやRで標本レコードのクリーニング経験が
ある人の利用を想定しているため、背景情報等は
全く出てきません。
この資料の目的
OpenRefineを使って(主に)標本レコードの
ミスや表記ゆれを修正し、データの質を上げる
GBIFで公開
研究用の解析
エラーやミスを修正
(データ掃除)
エラーやミスのある
生データ
OpenRefineとは
https://openrefine.org/
文字化けとかスペルミスとか
入力ミスを修正するのに超便利
定番のExcelやRより効率的
・ オープンソースのデータ成型ツール
・ Javaで動くマルチプラットフォーム(OS非依存)
・ スタンドアロンで使えるが、API経由で外部データを
取り込んだり照合したり色々できる
OpenRefineの導入
https://openrefine.org/
・ githubからβ版や過去版をダウンロード(プロ向け)
https://github.com/OpenRefine/OpenRefine/releases/tag/3.4-beta2
・ OpenRefineのページからダウンロード
・ zipを解凍し、exeファイルをクリック
(Java JREがない場合は導入。その場合は誘導してくれる)
・ webブラウザ上で開かれる
(winの場合コマンドプロンプトが何かごちゃごちゃやるが問題ない)
初期画面とデータの取り込み
ブラウザ上で動作する(画面はfirefox)
成型したいデータを選択する
(csv, tsv, xls, xlsx, rdf, JSON,xml等、
基本一般的なデータ形式全てに対応)
ファイル認識と文字コード
日本語入りだと化けがち
(文字)コードに注意
原則UTF-8にしておく
←ここで文字コード、ファイル形式を指定
ファイル認識と文字コード
文字コードをUTF-8にする
日本語も読めるように
なりました。
プロジェクト作成
レコードをちゃんと読めていたら
プロジェクト名(任意。デフォはファイル名)
を入力したら Create Projectをクリック
これが基本画面
プロジェクト画面
プロジェクト名
プレビューさせるレコード数は適宜変更できる
合計レコード数
名寄せ
SpecificEpithetの名寄せをしてみます
扱いたいフィールド横の▼を押し、
Facet -> Text facet
このフィールドのデータ項目一覧、
各項目のレコード数が表示されました
続いて、Clusterを押します
名寄せ
名寄せ
めっちゃ似てるよって項目が出てきます。
このケースは、スペルは同じですが、
下段はアタマに半角スぺ-スがあるみたいです
そこで、上段に揃えることにします
左のMerge?にチェックを入れます
Merge Selected & Re-Clusterを押します
名寄せ
無事マージされました
エラーつぶし(一括)
次はmunicipalityのミススぺルや
文字化けを修正します
扱いたいフィールド横の▼を押し、
Facet -> Text facet
エラーつぶし(一括)
選択フィールドのレコード集計が
表示されました。不要なら上のspeficicEpithetの
ボックスは消してしまってください。
文字化けで?が多数入っています。
試しに?yama(Mt.)を選択してみます
エラーつぶし(一括)
?yama(Mt.)を含むレコードが表示されました
エラーつぶし(一括)
エラーつぶし(一括)
この状態でカーソルを合わせると
右に edit が出てきます。それをクリックします。
そうするとこのように修正画面になります。
これを修正してApplyを押すと、12レコード全て
同様に修正されます
Undo / Redo
修正作業内容は記憶されているので、
しくったらUndo(戻す)、Redo(もう一回実施)できます
作業を途中でやめる
同じPCで作業を行う場合は、このURLをメモして
OpenRefine立ち上げ後にブラウザに入力すれば
作業再開できます
別PCで作業を継続したい場合はプロジェクトを
Exportする必要があります(次ページ)
エクスポート
作業結果を出力します
基本画面にある
Exportボタンを押します
エクスポート
作業結果を出力します
色々な形式で出力できるので、
扱いやすい形式で出力できます。
←プロジェクトを他PCに
持って行きたいときはコレ
ファイル出力するフィールドを
選ぶこともできる(次ページ)
エクスポート
出力する形式やフィールドを
カスタマイズできます
まとめ
・標本データの成型に役立つデータ成型ツール
・ 基本機能のみ紹介。まだまだ色々できる
例えば文字エラーや名寄せだけでなく
数字の飛び値やデジットミス等も探せる
・たぶんExcelやRより圧倒的に楽で早い
・色々役立つ機能があると思うので、見つけたら
シェアしてください

More Related Content

What's hot

BigQueryを始めてみよう - Google Analytics データを活用する
BigQueryを始めてみよう - Google Analytics データを活用するBigQueryを始めてみよう - Google Analytics データを活用する
BigQueryを始めてみよう - Google Analytics データを活用するGoogle Cloud Platform - Japan
 
ナレッジグラフ/LOD利用技術の入門(後編)
ナレッジグラフ/LOD利用技術の入門(後編)ナレッジグラフ/LOD利用技術の入門(後編)
ナレッジグラフ/LOD利用技術の入門(後編)KnowledgeGraph
 
PlaySQLAlchemy: SQLAlchemy入門
PlaySQLAlchemy: SQLAlchemy入門PlaySQLAlchemy: SQLAlchemy入門
PlaySQLAlchemy: SQLAlchemy入門泰 増田
 
ナレッジグラフ推論チャレンジ2020最終審査
ナレッジグラフ推論チャレンジ2020最終審査ナレッジグラフ推論チャレンジ2020最終審査
ナレッジグラフ推論チャレンジ2020最終審査Takanori Ugai
 
大規模グラフデータ処理
大規模グラフデータ処理大規模グラフデータ処理
大規模グラフデータ処理maruyama097
 
オープンデータをLOD化するデータソン in 高槻
オープンデータをLOD化するデータソン in 高槻オープンデータをLOD化するデータソン in 高槻
オープンデータをLOD化するデータソン in 高槻Kouji Kozaki
 
Presto on YARNの導入・運用
Presto on YARNの導入・運用Presto on YARNの導入・運用
Presto on YARNの導入・運用cyberagent
 
SQLアンチパターン - 開発者を待ち受ける25の落とし穴
SQLアンチパターン - 開発者を待ち受ける25の落とし穴SQLアンチパターン - 開発者を待ち受ける25の落とし穴
SQLアンチパターン - 開発者を待ち受ける25の落とし穴Takuto Wada
 
ナレッジグラフ入門
ナレッジグラフ入門ナレッジグラフ入門
ナレッジグラフ入門KnowledgeGraph
 
Linked Dataとオントロジーによるセマンティック技術の実際
Linked Dataとオントロジーによるセマンティック技術の実際Linked Dataとオントロジーによるセマンティック技術の実際
Linked Dataとオントロジーによるセマンティック技術の実際Kouji Kozaki
 
backlogsでもCI/CDする夢を見る
backlogsでもCI/CDする夢を見るbacklogsでもCI/CDする夢を見る
backlogsでもCI/CDする夢を見るTakeru Maehara
 
データ基盤の従来~最新の考え方とSynapse Analyticsでの実現
データ基盤の従来~最新の考え方とSynapse Analyticsでの実現データ基盤の従来~最新の考え方とSynapse Analyticsでの実現
データ基盤の従来~最新の考え方とSynapse Analyticsでの実現Ryoma Nagata
 
汎用Web API“SPARQL”でオープンデータ検索
汎用Web API“SPARQL”でオープンデータ検索汎用Web API“SPARQL”でオープンデータ検索
汎用Web API“SPARQL”でオープンデータ検索uedayou
 
Linked Open Data(LOD)の基本的な使い方
Linked Open Data(LOD)の基本的な使い方Linked Open Data(LOD)の基本的な使い方
Linked Open Data(LOD)の基本的な使い方Kouji Kozaki
 
ストリーム処理におけるApache Avroの活用について(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05)
ストリーム処理におけるApache Avroの活用について(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05)ストリーム処理におけるApache Avroの活用について(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05)
ストリーム処理におけるApache Avroの活用について(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05)NTT DATA Technology & Innovation
 
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some PreliminaryDeep Learning JP
 
Azure Antenna はじめての Azure Data Lake
Azure Antenna はじめての Azure Data LakeAzure Antenna はじめての Azure Data Lake
Azure Antenna はじめての Azure Data LakeHideo Takagi
 
爆速クエリエンジン”Presto”を使いたくなる話
爆速クエリエンジン”Presto”を使いたくなる話爆速クエリエンジン”Presto”を使いたくなる話
爆速クエリエンジン”Presto”を使いたくなる話Kentaro Yoshida
 
MySQL 8.0で強化されたGIS機能のご紹介と周辺ツールとの連携について
MySQL 8.0で強化されたGIS機能のご紹介と周辺ツールとの連携についてMySQL 8.0で強化されたGIS機能のご紹介と周辺ツールとの連携について
MySQL 8.0で強化されたGIS機能のご紹介と周辺ツールとの連携についてyoyamasaki
 

What's hot (20)

Linked Data (再)入門
Linked Data (再)入門Linked Data (再)入門
Linked Data (再)入門
 
BigQueryを始めてみよう - Google Analytics データを活用する
BigQueryを始めてみよう - Google Analytics データを活用するBigQueryを始めてみよう - Google Analytics データを活用する
BigQueryを始めてみよう - Google Analytics データを活用する
 
ナレッジグラフ/LOD利用技術の入門(後編)
ナレッジグラフ/LOD利用技術の入門(後編)ナレッジグラフ/LOD利用技術の入門(後編)
ナレッジグラフ/LOD利用技術の入門(後編)
 
PlaySQLAlchemy: SQLAlchemy入門
PlaySQLAlchemy: SQLAlchemy入門PlaySQLAlchemy: SQLAlchemy入門
PlaySQLAlchemy: SQLAlchemy入門
 
ナレッジグラフ推論チャレンジ2020最終審査
ナレッジグラフ推論チャレンジ2020最終審査ナレッジグラフ推論チャレンジ2020最終審査
ナレッジグラフ推論チャレンジ2020最終審査
 
大規模グラフデータ処理
大規模グラフデータ処理大規模グラフデータ処理
大規模グラフデータ処理
 
オープンデータをLOD化するデータソン in 高槻
オープンデータをLOD化するデータソン in 高槻オープンデータをLOD化するデータソン in 高槻
オープンデータをLOD化するデータソン in 高槻
 
Presto on YARNの導入・運用
Presto on YARNの導入・運用Presto on YARNの導入・運用
Presto on YARNの導入・運用
 
SQLアンチパターン - 開発者を待ち受ける25の落とし穴
SQLアンチパターン - 開発者を待ち受ける25の落とし穴SQLアンチパターン - 開発者を待ち受ける25の落とし穴
SQLアンチパターン - 開発者を待ち受ける25の落とし穴
 
ナレッジグラフ入門
ナレッジグラフ入門ナレッジグラフ入門
ナレッジグラフ入門
 
Linked Dataとオントロジーによるセマンティック技術の実際
Linked Dataとオントロジーによるセマンティック技術の実際Linked Dataとオントロジーによるセマンティック技術の実際
Linked Dataとオントロジーによるセマンティック技術の実際
 
backlogsでもCI/CDする夢を見る
backlogsでもCI/CDする夢を見るbacklogsでもCI/CDする夢を見る
backlogsでもCI/CDする夢を見る
 
データ基盤の従来~最新の考え方とSynapse Analyticsでの実現
データ基盤の従来~最新の考え方とSynapse Analyticsでの実現データ基盤の従来~最新の考え方とSynapse Analyticsでの実現
データ基盤の従来~最新の考え方とSynapse Analyticsでの実現
 
汎用Web API“SPARQL”でオープンデータ検索
汎用Web API“SPARQL”でオープンデータ検索汎用Web API“SPARQL”でオープンデータ検索
汎用Web API“SPARQL”でオープンデータ検索
 
Linked Open Data(LOD)の基本的な使い方
Linked Open Data(LOD)の基本的な使い方Linked Open Data(LOD)の基本的な使い方
Linked Open Data(LOD)の基本的な使い方
 
ストリーム処理におけるApache Avroの活用について(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05)
ストリーム処理におけるApache Avroの活用について(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05)ストリーム処理におけるApache Avroの活用について(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05)
ストリーム処理におけるApache Avroの活用について(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05)
 
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
 
Azure Antenna はじめての Azure Data Lake
Azure Antenna はじめての Azure Data LakeAzure Antenna はじめての Azure Data Lake
Azure Antenna はじめての Azure Data Lake
 
爆速クエリエンジン”Presto”を使いたくなる話
爆速クエリエンジン”Presto”を使いたくなる話爆速クエリエンジン”Presto”を使いたくなる話
爆速クエリエンジン”Presto”を使いたくなる話
 
MySQL 8.0で強化されたGIS機能のご紹介と周辺ツールとの連携について
MySQL 8.0で強化されたGIS機能のご紹介と周辺ツールとの連携についてMySQL 8.0で強化されたGIS機能のご紹介と周辺ツールとの連携について
MySQL 8.0で強化されたGIS機能のご紹介と周辺ツールとの連携について
 

More from arosawa

2023/2/22推進費2G-2201オンラインシンポジウム
2023/2/22推進費2G-2201オンラインシンポジウム2023/2/22推進費2G-2201オンラインシンポジウム
2023/2/22推進費2G-2201オンラインシンポジウムarosawa
 
クビアカツヤカミキリの 分布拡大予測シミュレーション
クビアカツヤカミキリの分布拡大予測シミュレーションクビアカツヤカミキリの分布拡大予測シミュレーション
クビアカツヤカミキリの 分布拡大予測シミュレーションarosawa
 
ESJ69 S26 生物多様性情報学の目指すもの
ESJ69 S26 生物多様性情報学の目指すものESJ69 S26 生物多様性情報学の目指すもの
ESJ69 S26 生物多様性情報学の目指すものarosawa
 
20210922応用生態工学会データベース自由集会
20210922応用生態工学会データベース自由集会20210922応用生態工学会データベース自由集会
20210922応用生態工学会データベース自由集会arosawa
 
20210903横国セミナー(水田Eco-DRR)
20210903横国セミナー(水田Eco-DRR)20210903横国セミナー(水田Eco-DRR)
20210903横国セミナー(水田Eco-DRR)arosawa
 
2021/3/19 ESJ68シンポジウムS12
2021/3/19 ESJ68シンポジウムS122021/3/19 ESJ68シンポジウムS12
2021/3/19 ESJ68シンポジウムS12arosawa
 
20201125バイオロギング研究会ワークショップ【オープンデータ】
20201125バイオロギング研究会ワークショップ【オープンデータ】20201125バイオロギング研究会ワークショップ【オープンデータ】
20201125バイオロギング研究会ワークショップ【オープンデータ】arosawa
 
20201003生物多様性情報を使い倒す~GBIF入門~
20201003生物多様性情報を使い倒す~GBIF入門~20201003生物多様性情報を使い倒す~GBIF入門~
20201003生物多様性情報を使い倒す~GBIF入門~arosawa
 
20200925兵庫県大土居研セミナー
20200925兵庫県大土居研セミナー20200925兵庫県大土居研セミナー
20200925兵庫県大土居研セミナーarosawa
 
20200918京大生態研セミナー
20200918京大生態研セミナー20200918京大生態研セミナー
20200918京大生態研セミナーarosawa
 
20191113国環研琵琶湖分室セミナー
20191113国環研琵琶湖分室セミナー20191113国環研琵琶湖分室セミナー
20191113国環研琵琶湖分室セミナーarosawa
 
人が繋ぐ研究と実践
人が繋ぐ研究と実践人が繋ぐ研究と実践
人が繋ぐ研究と実践arosawa
 
アカスジカスミカメの分布拡大メカニズム
アカスジカスミカメの分布拡大メカニズムアカスジカスミカメの分布拡大メカニズム
アカスジカスミカメの分布拡大メカニズムarosawa
 
20181021 gi sg
20181021 gi sg20181021 gi sg
20181021 gi sgarosawa
 
Joss2018osawa
Joss2018osawaJoss2018osawa
Joss2018osawaarosawa
 
Csvならいいのか?
Csvならいいのか?Csvならいいのか?
Csvならいいのか?arosawa
 
生物多様性情報の標準データフォーマットDarwin Core Archiveと生態学データに適合させる拡張形式"Sample-based Data"
生物多様性情報の標準データフォーマットDarwin Core Archiveと生態学データに適合させる拡張形式"Sample-based Data"生物多様性情報の標準データフォーマットDarwin Core Archiveと生態学データに適合させる拡張形式"Sample-based Data"
生物多様性情報の標準データフォーマットDarwin Core Archiveと生態学データに適合させる拡張形式"Sample-based Data"arosawa
 
環境科学の研究者から見たオープンデータの利点と現状
環境科学の研究者から見たオープンデータの利点と現状環境科学の研究者から見たオープンデータの利点と現状
環境科学の研究者から見たオープンデータの利点と現状arosawa
 
2016/12/21NISTEPホライズン・セミナースライド
2016/12/21NISTEPホライズン・セミナースライド2016/12/21NISTEPホライズン・セミナースライド
2016/12/21NISTEPホライズン・セミナースライドarosawa
 
20160610
2016061020160610
20160610arosawa
 

More from arosawa (20)

2023/2/22推進費2G-2201オンラインシンポジウム
2023/2/22推進費2G-2201オンラインシンポジウム2023/2/22推進費2G-2201オンラインシンポジウム
2023/2/22推進費2G-2201オンラインシンポジウム
 
クビアカツヤカミキリの 分布拡大予測シミュレーション
クビアカツヤカミキリの分布拡大予測シミュレーションクビアカツヤカミキリの分布拡大予測シミュレーション
クビアカツヤカミキリの 分布拡大予測シミュレーション
 
ESJ69 S26 生物多様性情報学の目指すもの
ESJ69 S26 生物多様性情報学の目指すものESJ69 S26 生物多様性情報学の目指すもの
ESJ69 S26 生物多様性情報学の目指すもの
 
20210922応用生態工学会データベース自由集会
20210922応用生態工学会データベース自由集会20210922応用生態工学会データベース自由集会
20210922応用生態工学会データベース自由集会
 
20210903横国セミナー(水田Eco-DRR)
20210903横国セミナー(水田Eco-DRR)20210903横国セミナー(水田Eco-DRR)
20210903横国セミナー(水田Eco-DRR)
 
2021/3/19 ESJ68シンポジウムS12
2021/3/19 ESJ68シンポジウムS122021/3/19 ESJ68シンポジウムS12
2021/3/19 ESJ68シンポジウムS12
 
20201125バイオロギング研究会ワークショップ【オープンデータ】
20201125バイオロギング研究会ワークショップ【オープンデータ】20201125バイオロギング研究会ワークショップ【オープンデータ】
20201125バイオロギング研究会ワークショップ【オープンデータ】
 
20201003生物多様性情報を使い倒す~GBIF入門~
20201003生物多様性情報を使い倒す~GBIF入門~20201003生物多様性情報を使い倒す~GBIF入門~
20201003生物多様性情報を使い倒す~GBIF入門~
 
20200925兵庫県大土居研セミナー
20200925兵庫県大土居研セミナー20200925兵庫県大土居研セミナー
20200925兵庫県大土居研セミナー
 
20200918京大生態研セミナー
20200918京大生態研セミナー20200918京大生態研セミナー
20200918京大生態研セミナー
 
20191113国環研琵琶湖分室セミナー
20191113国環研琵琶湖分室セミナー20191113国環研琵琶湖分室セミナー
20191113国環研琵琶湖分室セミナー
 
人が繋ぐ研究と実践
人が繋ぐ研究と実践人が繋ぐ研究と実践
人が繋ぐ研究と実践
 
アカスジカスミカメの分布拡大メカニズム
アカスジカスミカメの分布拡大メカニズムアカスジカスミカメの分布拡大メカニズム
アカスジカスミカメの分布拡大メカニズム
 
20181021 gi sg
20181021 gi sg20181021 gi sg
20181021 gi sg
 
Joss2018osawa
Joss2018osawaJoss2018osawa
Joss2018osawa
 
Csvならいいのか?
Csvならいいのか?Csvならいいのか?
Csvならいいのか?
 
生物多様性情報の標準データフォーマットDarwin Core Archiveと生態学データに適合させる拡張形式"Sample-based Data"
生物多様性情報の標準データフォーマットDarwin Core Archiveと生態学データに適合させる拡張形式"Sample-based Data"生物多様性情報の標準データフォーマットDarwin Core Archiveと生態学データに適合させる拡張形式"Sample-based Data"
生物多様性情報の標準データフォーマットDarwin Core Archiveと生態学データに適合させる拡張形式"Sample-based Data"
 
環境科学の研究者から見たオープンデータの利点と現状
環境科学の研究者から見たオープンデータの利点と現状環境科学の研究者から見たオープンデータの利点と現状
環境科学の研究者から見たオープンデータの利点と現状
 
2016/12/21NISTEPホライズン・セミナースライド
2016/12/21NISTEPホライズン・セミナースライド2016/12/21NISTEPホライズン・セミナースライド
2016/12/21NISTEPホライズン・セミナースライド
 
20160610
2016061020160610
20160610
 

標本レコード修正のためのOpen refine(ド基礎編)